انحراف معیار: معیاری برای سنجش پراکندگی دادهها حول میانگین بر پایهٔ توان دوم انحرافها
چرا میانگین به تنهایی کافی نیست؟
فرض کنید دو دانشآموز به نامهای علی و رضا در پنج امتحان نمرات زیر را کسب کردهاند:علی: 18, 19, 20, 17, 16
رضا: 10, 20, 15, 25, 10
اگر فقط میانگین نمرات را محاسبه کنیم، هر دو دانشآموز میانگینی برابر با 18 دارند. اما آیا میتوان گفت عملکرد هر دو یکسان بوده است؟ خیر! نمرات علی به میانگین نزدیکتر و پایدارتر است، در حالی که نمرات رضا نوسان زیادی دارد. اینجا جایی است که به معیاری به نام «پراکندگی» نیاز پیدا میکنیم. انحراف معیار دقیقاً همین نوسان را کمّی میکند.
واریانس: پله اول محاسبه انحراف معیار
برای محاسبه انحراف معیار، ابتدا باید واریانس را محاسبه کنیم. واریانس میانگین مجذور فاصلهی دادهها از میانگین است. چرا از مجذور استفاده میکنیم؟ زیرا اگر فاصلهها را ساده جمع کنیم، اعداد مثبت و منفی یکدیگر را خنثی میکنند و نتیجه همیشه صفر میشود. برای حل این مشکل، فاصلهها را به توان دو میرسانیم تا همه مثبت شوند. فرمول واریانس برای یک جامعه4 آماری به صورت زیر است: $\sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}$ و برای یک نمونه5: $s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$ در این فرمولها:- $x_i$ : هر یک از دادهها
- $\mu$ : میانگین جامعه
- $\bar{x}$ : میانگین نمونه
- $N$ : تعداد دادههای جامعه
- $n$ : تعداد دادههای نمونه
تقسیم بر $n-1$ (به جای $n$) به این دلیل است که نمونه میخواهد برآوردی بدون سوگیری (اریب) از واریانس جامعه داشته باشد. این کار درجه آزادی6 را تنظیم میکند.
انحراف معیار: بازگرداندن به مقیاس اصلی
مشکل واریانس این است که واحد آن مجذور واحد دادههای اصلی است. مثلاً اگر دادهها بر حسب «سانتیمتر» باشند، واحد واریانس «سانتیمتر مربع» میشود. برای رفع این مشکل، کافی است جذر واریانس را محاسبه کنیم. حاصل این کار «انحراف معیار» نامیده میشود. فرمول انحراف معیار برای جامعه: $\sigma = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}}$ فرمول انحراف معیار برای نمونه: $s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}}$محاسبه گام به گام با مثال نمرات دانشآموزان
بیایید با مثال ابتدای مقاله، انحراف معیار نمرات علی و رضا را محاسبه کنیم. فرض میکنیم این دادهها یک نمونه هستند. مرحله ۱: محاسبه میانگینمیانگین نمرات هر دو نفر برابر $ \bar{x} = 18 $ است. مرحله ۲: محاسبه مجذور انحرافها از میانگین
| دانشآموز | نمره ($x_i$) | انحراف ($x_i - \bar{x}$) | مجذور انحراف ($(x_i - \bar{x})^2$) |
|---|---|---|---|
| علی | 18 | 0 | 0 |
| علی | 19 | 1 | 1 |
| علی | 20 | 2 | 4 |
| علی | 17 | -1 | 1 |
| علی | 16 | -2 | 4 |
| مجموع مجذور انحرافات علی | 10 | ||
| رضا | 10 | -8 | 64 |
| رضا | 20 | 2 | 4 |
| رضا | 15 | -3 | 9 |
| رضا | 25 | 7 | 49 |
| رضا | 10 | -8 | 64 |
| مجموع مجذور انحرافات رضا | 190 | ||
تعداد دادهها $n=5$ است.
واریانس نمرات علی: $s^2_{علی} = \frac{10}{5-1} = \frac{10}{4} = 2.5$
واریانس نمرات رضا: $s^2_{رضا} = \frac{190}{5-1} = \frac{190}{4} = 47.5$ مرحله ۴: محاسبه انحراف معیار نمونه
انحراف معیار علی: $s_{علی} = \sqrt{2.5} \approx 1.58$
انحراف معیار رضا: $s_{رضا} = \sqrt{47.5} \approx 6.89$
کاربرد عملی: مقایسه دو مجموعه داده با واحدهای متفاوت
گاهی اوقات میخواهیم پراکندگی دو مجموعه داده را که واحدهای متفاوتی دارند (مثلاً وزن یک گروه بر حسب کیلوگرم و قد همان گروه بر حسب سانتیمتر) با هم مقایسه کنیم. در این مواقع نمیتوانیم مستقیماً انحراف معیار را مقایسه کنیم، زیرا واحدها متفاوت هستند. راه حل، استفاده از «ضریب تغییرات» است. ضریب تغییرات (Coefficient of Variation) از تقسیم انحراف معیار بر میانگین به دست میآید و معمولاً به صورت درصد بیان میشود. این معیار بیواحد است. $CV = \frac{s}{\bar{x}} \times 100$ مثال: فرض کنید میانگین وزن دانشآموزان 60 کیلوگرم با انحراف معیار 6 کیلوگرم و میانگین قد آنها 160 سانتیمتر با انحراف معیار 8 سانتیمتر باشد.ضریب تغییرات وزن: $(6/60) \times 100 = 10\%$
ضریب تغییرات قد: $(8/160) \times 100 = 5\%$
نتیجه میگیریم که پراکندگی وزن دانشآموزان نسبت به میانگین خود (٪۱۰) بیشتر از پراکندگی قد آنها (٪۵) است.
چالشهای مفهومی
استفاده از توان دوم (و سپس جذر گرفتن) مزایایی دارد. اولاً تابع مربع در ریاضیات مشتقپذیر است و کار با آن در محاسبات آماری پیشرفته آسانتر است. ثانیاً به دادههای دور از میانگین (پَرتها) وزن بیشتری میدهد که در بسیاری از تحلیلها مفید است. اگر از قدر مطلق استفاده کنیم، معیار دیگری به نام «میانگین انحراف مطلق» به دست میآید که کاربردهای خاص خود را دارد.
نه لزوماً. در برخی زمینهها، پراکندگی بالا مطلوب است. مثلاً در سرمایهگذاری، انحراف معیار بالا نشاندهنده ریسک بالاست. یک سرمایهگذار ریسکپذیر ممکن است به دنبال بازدهی با انحراف معیار بالا باشد. در مقابل، در بحث کنترل کیفیت در یک کارخانه، انحراف معیار پایین نشاندهنده یکنواختی و کیفیت بالای محصولات است.
اگر به همه دادهها یک مقدار ثابت اضافه کنیم، میانگین تغییر میکند اما پراکندگی دادهها حول میانگین جدید ثابت میماند، بنابراین انحراف معیار تغییر نمیکند. اما اگر همه دادهها را در یک عدد ثابت مثل $k$ ضرب کنیم، انحراف معیار جدید برابر با انحراف معیار قدیم ضرب در $|k|$ خواهد شد.
انحراف معیار، پرکاربردترین معیار برای سنجش پراکندگی دادهها است که با محاسبه جذر واریانس به دست میآید. این معیار به ما میگوید که دادهها به طور میانگین چقدر از مقدار میانگین فاصله دارند. درک تفاوت بین واریانس و انحراف معیار، نحوه محاسبه آنها برای جامعه و نمونه، و همچنین آشنایی با ضریب تغییرات برای مقایسه مجموعه دادههای متفاوت، از مهارتهای اساسی در تحلیل دادههای آماری است. با استفاده از این ابزارها میتوانیم قضاوت دقیقتری دربارهی پایایی و ثبات دادهها داشته باشیم.
پاورقی
1 واریانس (Variance): میانگین مجذور فاصلهی دادهها از میانگین. معیاری برای سنجش پراکندگی که واحد آن مربع واحد دادهها است.2 انحراف معیار (Standard Deviation): جذر واریانس. معیاری برای سنجش پراکندگی که واحد آن با واحد دادهها یکسان است.
3 ضریب تغییرات (Coefficient of Variation): نسبتی از انحراف معیار به میانگین که برای مقایسه پراکندگی مجموعه دادهها با واحدهای متفاوت به کار میرود.
4 جامعه (Population): به کل مجموعهای از افراد یا اشیاء که میخواهیم درباره آنها تحقیق کنیم، جامعه آماری میگویند.
5 نمونه (Sample): زیرمجموعهای از جامعه که برای انجام تحقیق انتخاب میشود تا درباره کل جامعه نتیجهگیری کنیم.
6 درجه آزادی (Degrees of Freedom): تعداد مقادیری که در محاسبه نهایی یک آماره آزاد هستند تا تغییر کنند.