تفاوت بین درون یابی و رگرسیون خطی چیست؟


پاسخ 1:

تک خط: با درون یابی باید همه نقاط را پشت سر بگذاریم ، اما نه با رگرسیون - ما فقط باید تا حد امکان به همه نقاط نزدیک باشیم.

برای اکثر برنامه های کاربردی ، رگرسیون به دلایل زیر گزینه بهتری است:

  1. از نظر محاسباتی بسیار کم شدت است. این امکان را به ما می دهد تا الگوهای را بشناسیم ، به خصوص در آزمایش هایی که اشتباهات رایج است. این امکان انعطاف پذیری را در تفسیر داده ها فراهم می آورد. این اشکال عجیب و غریب ندارد ، به خصوص هنگامی که یک وجه آشکار وجود دارد

اما مطمئناً مضرات جدی در استفاده از رگرسیون وجود دارد:

  1. باعث می شود داده های بلااستفاده مرتبط به نظر برسند. پارادوکس ایمپسون

برخی از معایب ذکر شده در زیر ذکر شده است که تفاوت آن را نیز به وضوح نشان می دهد.

درون یابی

چند نوع درون یابی وجود دارد ، اما نمونه بارز آن چند جمله ای است.

همانطور که مشاهده می کنید ، یا به نظر می رسد قسمت کوچکی از نمودار مکعب است ، یا در این حالت در واقع منحنی سینوس است. اما چند جمله ای درون یاب است

f(x)=-0.0001521x^6-0.003130x^5+0.07321x^4-0.3577x^3+0.2255x^2+0.9038x \tag*{}

البته ، این چند جملهای باید نقاط مورد نظر را طی کند ، بدیهی است آنچه را که ما به طور شهودی فکر می کنیم مناسب نیست (چرا اگر این تقریب نزدیک به یک مکعب / سینوس باشد) چند جمله ای متناقص است.

بدتر می شود

این نمای بیشتر است

f(x)f(x)

، در خارج از منطقه در حال تلاش برای مداخله ، قطعاً به ما در تشخیص الگو کمک نمی کند. این نوعی مخالف با عقل سلیم ماست.

بنابراین بیرون کشیدن درون یابی نمی تواند به ما در پیش بینی الگو کمک کند و می تواند بسیار اشتباه باشد. در مورد درون یابی خود چه می کنید؟ اگر یک چیز خارج از خانه وجود دارد ، او آن را پیچید:

سوابق من در حال تغذیه WolframAlpha است:

(1,2),(3,4),(4,3),(5,6),(6,8),(7,10),(8,13),(9,15) \tag*{}

همانطور که مشاهده می کنید ، درون یابی در منطقه بین خوب کار نمی کند

x=1x=1

و

x=3x=3

بخاطر نوک

ممکن است دلایل دیگری برای درون یابی از جمله دقت ریاضی وجود داشته باشد ، و شاید ما بسیار مطمئن باشیم که داده های بدست آمده بدون خطا است. اما در حال حاضر من هیچ دلیلی برای انجام درون یابی نمی بینم. (اگر از دلایل عملی دیگری برای درون یابی اطلاع دارید در نظرات بگویید.)

در درون یابی تقریباً ریاضی وجود دارد و LaGrange بسیار جذاب است. اگر رکوردی داده شود

(xi,yi)(x_i,y_i)

کجا

ii

محدوده از

11

به

nn

ما می توانیم قسمتهای Lagrangian از چند جمله ای درون یابی را به شرح زیر داشته باشیم:

\displaystyle L_j(x) = \prod_{1\leq i\leq n, i\neq j} \frac {x-x_i}{x_j-x_i} \tag{1}

و سپس چند جمله ای درون یاب وجود دارد

\displaystyle f(x) = \sum_{i=1}^n y_jL_j(x) \tag{2}

وقتی زبان ریاضی را کاملاً درک کردید ، قدردان خواهید بود که روش بسیار جذاب است. اساساً همه

Lj(x)L_j(x)

متناسب با نقطه داده است

(xj,yj)(x_j,y_j)

،

چیزی مثل درون یابی خطی وجود دارد ، و این به معنای تقریباً "خط شکسته" است.

در هر دو مورد (درون یابی خطی یا چند جمله ای) بیان ریاضی نمایان تر و سخت تر می شود.

رگرسیون

مدلهای رگرسیون بسیار بیشتری نسبت به درون یابی وجود دارد. رگرسیون خطی ساده ترین است.

ما نمی خواهیم همه نقاط را طی کنیم ، بلکه می خواهیم یک خط مستقیمی پیدا کنیم که به بهترین وجه با تمام نقاط داده ، یعنی کمترین فاصله باشد. اما با آن مشکلاتی وجود دارد. (این همیشه مشکل است)

برخی از مناطق دور افتاده وجود دارد ، اما رنگ آبی آن خط رگرسیون ساده است. به عنوان انسان ، می توانیم ببینیم که نقاط قرمز در قسمت پایین سمت راست از الگوی کلی متناسب نیستند ، اما رایانه ها اهمیتی نمی دهند ، بنابراین یک خط آبی با دقت کمتر ایجاد می شود.

اگر رابطه خطی نباشد ، چه می شود؟

نمودار را در بالا سمت راست بگویید. این مربع نسبتاً شهودی است. اگر فقط از یک مدل استفاده کنیم ، معنی ندارد. استفاده از تنها یک مدل رگرسیون از دیگر احتمالات در رابطه بین دو متغیر جلوگیری می کند.

پارادوکس به اصطلاح Simpson نیز وجود دارد.

انعطاف پذیری که رگرسیون به ما امکان می دهد دو نتیجه گیری کاملاً متناقض را به دست آوریم: مجموعه داده ها ، که دارای روابط مثبت و منفی در همان زمان هستند. این یک عملکرد منحصر به فرد برای رگرسیون است زیرا ابهام را نمی توان با درون یابی مجاز کرد.

همانطور که مشاهده می کنید ، تفاوتهای واضحی بین این دو وجود دارد. و شما باید بسته به آنچه می خواهید به دست بیاورید ، کدام یک را انتخاب کنید.

آمار همیشه دشوار است - شما باید در مورد اشتباهات دقیق باشید. درون یابی کاملاً در مورد داده های اصلی صادق است اما خطاهای خارج از ناحیه داده ممکن است رخ دهد. رگرسیون ممکن است در مورد داده های اصلی صحیح نباشد ، اما گاهی اوقات به شما امکان می دهد الگوی صحیح را رعایت کنید.


پاسخ 2:

مقایسه درون یابی با رگرسیون LINEAR تا حدودی ناعادلانه است

Interpolation مانند الگوریتمی بدون "مغز" است: سعی می کند با داده های داده شده به یک بازی کامل برسد. رگرسیون همان الگوریتم با قابلیت تعمیم است. با داده های شما کاملاً مطابقت ندارد ، اما حداقل سعی می کند تا بینشی از آن به دست آورد. یاسین آلوینی

داده شده

nn

نقاط داده ها هنگامی که درگیر می شوید ، به دنبال تابعی باشید که شکل از پیش تعریف شده داشته باشد و مقادیر آن در این نقاط دقیقاً همانطور که مشخص شده است. یعنی با توجه به جفت ها

(xi,yi)(x_i, y_i)

شما دنبال آن هستید

FF

از یک فرم از پیش تعریف شده که برآورده می شود

F(xi)=yiF(x_i) = y_i

،

i\forall i

(1in). (1\leq i \leq n) .

هنگام انجام رگرسیون ، به دنبال تابعی باشید که برخی از هزینه ها را به حداقل برساند ، معمولاً مجموع مربعات خطاها. شما به تابع نیاز ندارید که مقادیر دقیق را در نقاط خاص داشته باشید ، فقط یک تقریب خوب می خواهید. به طور کلی عملکرد شما یافت می شود

FF

نمی تواند راضی کند

F(xi)=yiF(x_i) = y_i

برای هر نقطه داده ، اما تابع هزینه ، یعنی

i=1n(F(xi)yi)2\sum_{i=1}^n (F(x_i) - y_i)^2

کوچکترین امکان از همه عملکردهای فرم داده شده خواهد بود.