گاما رو نصب کن!

{{ number }}
اعلان ها
اعلان جدیدی وجود ندارد!
کاربر جدید

جستجو

پربازدیدها: #{{ tag.title }}

میتونی لایو بذاری!

توان دوم انحراف‌ها: مربع کردن فاصلهٔ هر داده از میانگین برای جلوگیری از خنثی شدن علامت‌های مثبت و منفی

بروزرسانی شده در: 13:03 1404/12/7 مشاهده: 9     دسته بندی: کپسول آموزشی

توان دوم انحراف‌ها: کلید حل معمای پراکندگی داده‌ها

چگونه با مربع کردن فاصله داده‌ها از میانگین، اثر علامت‌ها خنثی شده و پراکندگی واقعی داده‌ها اندازه‌گیری می‌شود
این مقاله به زبان ساده توضیح می‌دهد که چرا در آمار برای محاسبه واریانس و انحراف معیار، فاصله هر داده از میانگین را به توان دو می‌رسانیم. با مثال‌های عددی و جدول‌های مقایسه، نشان داده می‌شود که این عملیات چطور از خنثی شدن انحراف‌های مثبت و منفی جلوگیری کرده و تصویری دقیق از پراکندگی داده‌ها ارائه می‌دهد.

۱. مشکل صفر شدن مجموع انحراف‌ها

برای درک دلیل مربع کردن انحراف‌ها، ابتدا باید با یک ویژگی مهم میانگین آشنا شویم. اگر انحراف (فاصله) هر داده از میانگین را محاسبه کنیم، مجموع این انحراف‌ها همیشه برابر صفر می‌شود. این یک ویژگی ریاضی میانگین است، اما برای اندازه‌گیری پراکندگی داده‌ها یک مشکل بزرگ ایجاد می‌کند: انحراف‌های مثبت و منفی یکدیگر را خنثی می‌کنند و ما هیچ اطلاعاتی درباره میزان پراکندگی به‌دست نمی‌آوریم.

مثال ساده: نمرات سه دانش‌آموز در یک آزمون، 10، 12 و 14 است. میانگین این نمرات برابر 12 است. انحراف‌ها از میانگین به ترتیب عبارتند از: (10-12 = -2)، (12-12 = 0) و (14-12 = 2+ ). مجموع این انحراف‌ها: (-2) + 0 + (+2) = 0. همانطور که می‌بینید، حاصل جمع، صفر شد.

نکته: اگر بخواهیم پراکندگی را با مجموع انحراف‌ها بسنجیم، داده‌های بسیار پراکنده (مثلاً 0، 12، 24) هم مجموع انحراف صفر خواهند داشت. بنابراین این روش برای سنجش پراکندگی کاملاً بی‌فایده است.

۲. راهکار توان دوم: تبدیل انحراف‌ها به مقادیر مثبت

راه حل اساسی برای حل مشکل خنثی شدن انحراف‌ها، از بین بردن علامت منفی است. یکی از روش‌ها، استفاده از قدر مطلق است، اما روش رایج و پرکاربردتر در آمار، مربع کردن انحراف‌ها است. با مربع کردن، تمام اعداد (چه مثبت و چه منفی) به اعداد مثبت تبدیل می‌شوند. به این ترتیب، انحراف‌های مثبت و منفی دیگر یکدیگر را خنثی نکرده و مجموع آن‌ها می‌تواند معیاری از پراکندگی باشد.

در مثال قبل، انحراف‌های 2- و 2+ را مربع می‌کنیم. (-2)^2 = 4 و (+2)^2 = 4. مجموع مربعات انحراف‌ها برابر (4 + 0 + 4 = 8) است. این عدد (8) نشان‌دهنده پراکندگی است و با صفر قبلی تفاوت زیادی دارد.

۳. مقایسه روش‌ها: مجموع انحرافات در مقابل مجموع مربعات انحرافات

برای درک بهتر برتری روش توان دوم، بیایید دو مجموعه داده متفاوت را با هم مقایسه کنیم. مجموعه اول {10,12,14} و مجموعه دوم {8,12,16} است. هر دو مجموعه میانگینی برابر 12 دارند، اما داده‌های مجموعه دوم پراکنده‌تر هستند. جدول زیر محاسبات را نشان می‌دهد:

مجموعه داده‌ها (نمرات) انحراف‌ها از میانگین (۱۲) مجموع انحراف‌ها مجذور انحراف‌ها مجموع مجذور انحراف‌ها
10, 12, 14 2- ، 0 ، 2+ 0 4 ، 0 ، 4 8
8, 12, 16 4- ، 0 ، 4+ 0 16 ، 0 ، 16 32

همانطور که جدول نشان می‌دهد، مجموع انحراف‌ها برای هر دو مجموعه صفر است و هیچ اطلاعاتی درباره پراکندگی بیشتر مجموعه دوم نمی‌دهد. در مقابل، مجموع مربعات انحراف‌ها برای مجموعه دوم (32) به‌وضوح بزرگتر از مجموعه اول (8) است و پراکندگی بیشتر آن را به‌خوبی نشان می‌دهد.

۴. از توان دوم تا واریانس و انحراف معیار

مجموع مربعات انحراف‌ها (که با نماد $SS$ نشان داده می‌شود) پایه‌ای برای محاسبه مهم‌ترین معیارهای پراکندگی یعنی واریانس و انحراف معیار است. برای محاسبه واریانس1 جامعه، میانگین مجموع مربعات انحراف‌ها را حساب می‌کنیم:

$\sigma^2 = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}$

که در آن $x_i$ها داده‌ها، $\mu$ میانگین جامعه و $n$ تعداد داده‌هاست. واریانس یک عدد مثبت است. اما واحد واریانس، مربع واحد داده‌هاست (مثلاً اگر داده‌ها بر حسب سانتی‌متر باشند، واریانس بر حسب سانتی‌متر مربع خواهد بود). برای بازگشت به واحد اصلی، از انحراف معیار2 استفاده می‌کنیم که جذر واریانس است:

$\sigma = \sqrt{\sigma^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n}}$

انحراف معیار، پراکندگی داده‌ها را حول میانگین با واحدی مشابه خود داده‌ها نشان می‌دهد و یکی از پرکاربردترین مفاهیم در آمار است.

۵. مثال عینی: مقایسه پراکندگی قد دانش‌آموزان

فرض کنید قد پنج دانش‌آموز (بر حسب سانتی‌متر) در دو کلاس متفاوت به شرح زیر باشد:

کلاس الف: 150, 152, 151, 153, 154
کلاس ب: 140, 160, 145, 155, 150

میانگین قد در هر دو کلاس برابر 152 سانتی‌متر است. اما شهوداً می‌دانیم که دانش‌آموزان کلاس ب از نظر قد، پراکنده‌تر هستند. بیایید با محاسبه انحراف معیار این موضوع را بررسی کنیم.

فرمول‌های محاسباتی:
$\text{انحراف معیار نمونه} = s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n-1}}$

با انجام محاسبات (که برای اختصار در اینجا از ذکر جزئیات آن صرف نظر می‌کنیم) به نتایج زیر می‌رسیم:

  • کلاس الف انحراف معیار تقریباً 1.58 سانتی‌متر است.
  • کلاس ب انحراف معیار تقریباً 7.91 سانتی‌متر است.

انحراف معیار بزرگ‌تر کلاس ب، تأیید می‌کند که داده‌های آن (قد دانش‌آموزان) پراکندگی بیشتری دارند. این پراکندگی به‌وضوح با چشم غیرمسلح نیز قابل مشاهده است. عملیات مربع کردن انحراف‌ها در مراحل اولیه محاسبه، امکان این مقایسه دقیق را فراهم کرده است.

چالش‌های مفهومی

❓ چرا برای مثبت کردن انحراف‌ها از قدر مطلق استفاده نمی‌کنیم؟

استفاده از قدر مطلق نیز امکان‌پذیر است و به معیاری به نام «میانگین انحرافات مطلق» منجر می‌شود. با این حال، مربع کردن به دلایل ریاضی مانند مشتق‌پذیری تابع مربع (که در مباحث پیشرفته‌تر آماری مانند برآوردگرها کاربرد دارد) و دادن وزن بیشتر به داده‌های دور از میانگین (که در برخی موارد مطلوب است) ترجیح داده می‌شود. واریانس و انحراف معیار نیز به دلیل همین ویژگی‌های ریاضی به استاندارد طلایی در آمار تبدیل شده‌اند.

❓ آیا توان دوم کردن انحراف‌ها معایبی هم دارد؟

بله، مهم‌ترین عیب آن، تأثیرپذیری زیاد از داده‌های پرت (outliers) است. چون یک داده خیلی دور از میانگین، پس از مربع شدن، تأثیر بسیار زیادی بر واریانس و انحراف معیار می‌گذارد. به همین دلیل، در مواردی که داده‌های پرت زیاد داریم، گاهی از معیارهای مقاوم در برابر پرت مانند انحراف چارکی استفاده می‌شود.

❓ در فرمول واریانس نمونه، چرا بر n-1 تقسیم می‌کنیم نه بر n؟

این کار برای رفع سوگیری (bias) در برآورد واریانس جامعه از روی نمونه انجام می‌شود. تقسیم بر n-1 (که به درجات آزادی معروف است) باعث می‌شود واریانس نمونه، برآوردگر دقیق‌تری برای واریانس جامعه باشد. اما مفهوم اصلی «مجذور کردن انحراف‌ها» در هر دو فرمول (جامعه و نمونه) یکسان است.

جمع‌بندی
مربع کردن فاصله داده‌ها از میانگین، یک ترفند ریاضی ساده اما بسیار هوشمندانه است که مشکل اساسی صفر شدن مجموع انحراف‌ها را حل می‌کند. این عملیات با مثبت کردن تمام انحراف‌ها، امکان اندازه‌گیری و مقایسه پراکندگی مجموعه داده‌های مختلف را فراهم می‌آورد. حاصل این کار، محاسبه واریانس و در نهایت انحراف معیار است که به عنوان کلیدی‌ترین مفاهیم در علم آمار، درک عمیق‌تری از توزیع داده‌ها و رفتار پدیده‌های گوناگون به ما می‌دهد.

پاورقی

1 واریانس (Variance): معیاری برای سنجش پراکندگی داده‌ها که میانگین مجذور فاصله هر داده از میانگین است.

2 انحراف معیار (Standard Deviation): معیاری برای سنجش پراکندگی داده‌ها که از جذر واریانس به‌دست می‌آید و واحدی مشابه داده‌ها دارد.