روش کمترین مربعات: روشی برای برازش مدل به داده‌ها با کمینه کردن مجموع مربع خطاها

بروزرسانی شده در: 18:48 1404/12/6 مشاهده: 11 دسته بندی: کپسول آموزشی

روش کمترین مربعات: برازش دقیق مدل به داده‌ها با کمینه کردن خطا

با این تکنیک آماری قدرتمند، بهترین خط یا منحنی را به نقاط داده‌های خود پیدا کنید و پیش‌بینی‌های هوشمندانه‌ای انجام دهید.

روش کمترین مربعات (Least Squares Method) یک تکنیک بنیادی در آمار و یادگیری ماشین است که به ما امکان می‌دهد بهترین خط یا منحنی را به مجموعه‌ای از نقاط داده برازش دهیم. هدف اصلی این روش، پیدا کردن مدلی است که مجموع مجذور فاصله‌های عمودی بین نقاط داده و مدل پیشنهادی را کمترین مقدار ممکن کند. این روش کاربرد گسترده‌ای در پیش‌بینی روندها، تحلیل رگرسیون و مدل‌سازی پدیده‌های علمی و اقتصادی دارد.

مفهوم خطا و مجموع مربعات آن

تصور کنید در حال بررسی رابطه بین تعداد ساعات مطالعه و نمره امتحان دانش‌آموزان هستید. داده‌های شما شامل چندین نقطه است که هر کدام نشان‌دهنده یک دانش‌آموز است. به طور طبیعی، یک رابطه خطی بین این دو متغیر وجود دارد: هر چه بیشتر مطالعه کنید، نمره بالاتری می‌گیرید. اما نقاط داده دقیقاً روی یک خط راست قرار نمی‌گیرند. این فاصله هر نقطه از خط مورد نظر را خطا (Error) یا باقی‌مانده (Residual) می‌نامیم.

خطا برای هر نقطه برابر است با اختلاف بین مقدار واقعی (مقدار مشاهده شده) و مقدار پیش‌بینی شده توسط مدل. اگر این خطاها را برای تمام نقاط با هم جمع کنیم، یک عدد به دست می‌آید. اما مشکل اینجاست که خطاها می‌توانند مثبت یا منفی باشند و ممکن است همدیگر را خنثی کنند. برای حل این مشکل، در روش کمترین مربعات، هر خطا را به توان دو می‌رسانیم. با این کار، همه خطاها مثبت می‌شوند و خطاهای بزرگتر، تأثیر بیشتری در مجموع نهایی دارند. هدف نهایی ما این است که این مجموع مربعات خطاها را به حداقل برسانیم تا دقیق‌ترین مدل ممکن را داشته باشیم.

به عنوان یک مثال ساده، فرض کنید داده‌های زیر را از سه دانش‌آموز داریم:

دانش‌آموز	ساعت مطالعه (x)	نمره واقعی (y)
علی	2	70
مریم	4	80
رضا	6	90

اگر یک خط فرضی مانند $y = 50 + 5x$ را در نظر بگیریم، نمرات پیش‌بینی شده برای علی، مریم و رضا به ترتیب $60$، $70$ و $80$ خواهد بود. خطاها به ترتیب $+10$، $+10$ و $+10$ هستند. مجموع مربعات خطاها برابر است با $10^2 + 10^2 + 10^2 = 300$. حال اگر خط دیگری مانند $y = 60 + 5x$ را امتحان کنیم، خطاها به $0$، $0$ و $0$ تغییر می‌کنند و مجموع مربعات خطا به $0$ می‌رسد که نشان‌دهنده برازش کامل است.

فرمول اصلی روش کمترین مربعات برای یک خط راست: اگر مدل خطی ما به صورت $y = ax + b$ باشد، مجموع مربعات خطاها (SSE) به صورت زیر تعریف می‌شود:

$SSE = \sum_{i=1}^{n} (y_i - (ax_i + b))^2$

که در آن $n$ تعداد نقاط داده، $y_i$ مقدار واقعی و $ax_i + b$ مقدار پیش‌بینی شده برای نقطه $i$-ام است.

مراحل گام‌به‌گام برای یافتن بهترین خط

یافتن ضرایب $a$ (شیب خط) و $b$ (عرض از مبدأ) که مجموع مربعات خطاها را کمینه کنند، از طریق مشتق‌گیری جزئی انجام می‌شود. نتیجه این فرآیند، دو معادله به نام معادلات نرمال (Normal Equations) است:

فرمول‌های نهایی برای محاسبه a و b:

$a = \frac{n\sum xy - \sum x \sum y}{n\sum x^2 - (\sum x)^2}$

$b = \frac{\sum y - a \sum x}{n}$

که در آن $\sum$ نماد جمع‌زدن روی تمام نقاط داده است.

برای درک بهتر، مثال دانش‌آموزان را با همین فرمول‌ها حل می‌کنیم. ابتدا مقادیر مورد نیاز را محاسبه می‌کنیم:

متغیر	توضیح	مقدار
$\sum x$	مجموع ساعات مطالعه	$2+4+6 = 12$
$\sum y$	مجموع نمرات	$70+80+90 = 240$
$\sum xy$	مجموع حاصلضرب ساعت در نمره	$(2\times70)+(4\times80)+(6\times90)=140+320+540=1000$
$\sum x^2$	مجموع مجذور ساعات مطالعه	$2^2+4^2+6^2 = 4+16+36=56$
$n$	تعداد دانش‌آموزان	$3$

حال مقادیر را در فرمول‌ها قرار می‌دهیم:

$a = \frac{(3 \times 1000) - (12 \times 240)}{(3 \times 56) - (12)^2} = \frac{3000 - 2880}{168 - 144} = \frac{120}{24} = 5$

$b = \frac{240 - (5 \times 12)}{3} = \frac{240 - 60}{3} = \frac{180}{3} = 60$

بنابراین بهترین خط برازش‌یافته به داده‌ها معادله $y = 5x + 60$ است. با این خط، نمره هر دانش‌آموز دقیقاً با مقدار واقعی برابر است و مجموع مربعات خطاها صفر می‌شود.

کاربرد عملی: پیش‌بینی فروش بر اساس هزینه تبلیغات

فرض کنید یک شرکت کوچک می‌خواهد رابطه بین هزینه تبلیغات (به میلیون تومان) و فروش ماهانه خود (به میلیون تومان) را بررسی کند. داده‌های پنج ماه گذشته به شرح زیر است:

ماه	هزینه تبلیغات (x)	فروش (y)
فروردین	1	12
اردیبهشت	2	19
خرداد	3	29
تیر	4	37
مرداد	5	45

با استفاده از روش کمترین مربعات، ابتدا مجموع‌های لازم را محاسبه می‌کنیم:

$\sum x = 15$, $\sum y = 142$, $\sum xy = (1\times12)+(2\times19)+(3\times29)+(4\times37)+(5\times45) = 12+38+87+148+225 = 510$, $\sum x^2 = 1+4+9+16+25 = 55$, $n = 5$.

سپس a و b را محاسبه می‌کنیم:

$a = \frac{(5 \times 510) - (15 \times 142)}{(5 \times 55) - (15)^2} = \frac{2550 - 2130}{275 - 225} = \frac{420}{50} = 8.4$

$b = \frac{142 - (8.4 \times 15)}{5} = \frac{142 - 126}{5} = \frac{16}{5} = 3.2$

بنابراین مدل پیش‌بینی فروش بر اساس هزینه تبلیغات به صورت $y = 8.4x + 3.2$ است. به عنوان مثال، اگر شرکت در ماه آینده $6$ میلیون تومان تبلیغات کند، می‌تواند فروشی در حدود $8.4 \times 6 + 3.2 = 50.4 + 3.2 = 53.6$ میلیون تومان را پیش‌بینی کند.

چالش‌های مفهومی

چرا از مربع خطا استفاده می‌کنیم به جای قدر مطلق خطا؟

استفاده از مربع خطا دو مزیت مهم دارد: اولاً با مجذور کردن، خطاهای مثبت و منفی همدیگر را خنثی نمی‌کنند. ثانیاً، مجذور کردن به خطاهای بزرگتر وزن بیشتری می‌دهد، بنابراین مدل سعی می‌کند خطاهای بزرگ را بیشتر کاهش دهد. همچنین، تابع مربع در تمام نقاط مشتق‌پذیر است که یافتن مینیموم را با استفاده از مشتق آسان‌تر می‌کند، در حالی که تابع قدر مطلق در نقطه صفر مشتق ندارد.

آیا روش کمترین مربعات فقط برای خط راست کاربرد دارد؟

خیر، این روش برای برازش انواع توابع از جمله چندجمله‌ای‌ها (مانند سهمی)، نمایی، لگاریتمی و حتی مدل‌های پیچیده‌تر قابل استفاده است. در این موارد، فرمول‌ها کمی پیچیده‌تر می‌شوند و ممکن است نیاز به حل دستگاه معادلات بزرگ‌تر داشته باشیم، اما اصل کار یعنی کمینه کردن مجموع مربعات خطاها ثابت می‌ماند.

وجود یک نقطه پرت (Outlier) چقدر می‌تواند نتیجه را تغییر دهد؟

نقاط پرت تأثیر زیادی در روش کمترین مربعات دارند. از آنجا که خطاها مجذور می‌شوند، یک نقطه با خطای بزرگ می‌تواند مجموع مربعات را به شدت افزایش دهد و مدل برای کاهش آن خطا، به سمت آن نقطه منحرف شود. به همین دلیل، قبل از برازش مدل، شناسایی و در صورت لزوم حذف نقاط پرت اهمیت زیادی دارد.

جمع‌بندی: روش کمترین مربعات یک ابزار قدرتمند و پرکاربرد برای مدل‌سازی رابطه بین متغیرها است. با کمینه کردن مجموع مجذور فاصله‌های عمودی نقاط داده از مدل، بهترین خط یا منحنی ممکن را به داده‌ها برازش می‌دهد. این روش با ارائه فرمول‌های بسته برای ضرایب مدل خطی، محاسبات را ساده و قابل فهم می‌کند. درک این مفهوم، پایه‌ای برای یادگیری مباحث پیشرفته‌تر در آمار، یادگیری ماشین و علم داده است. با این حال، باید به تأثیر نقاط پرت توجه داشت و از کاربرد آن در مدل‌های غیرخطی نیز آگاه بود.

پاورقی

¹ مجموع مربعات خطاها (Sum of Squared Errors - SSE): معیاری برای سنجش میزان انحراف نقاط داده از مدل برازش‌یافته که از جمع مربع تفاوت هر مقدار واقعی با مقدار پیش‌بینی شده به دست می‌آید.

² معادلات نرمال (Normal Equations): مجموعه معادلاتی که از مشتق‌گیری جزئی از تابع مجموع مربعات خطاها نسبت به پارامترهای مدل به دست می‌آید و با حل آن‌ها، مقادیر بهینه پارامترها محاسبه می‌شود.

³ نقطه پرت (Outlier): داده‌ای که به طور قابل توجهی از سایر داده‌ها فاصله دارد و می‌تواند تأثیر نامتناسبی بر روی مدل برازش‌یافته بگذارد.

پایهٔ یازدهم آمار و احتمال یازدهم روش کمترین مربعات