پراکندگی: میزان پخششدگی دادهها حول یک مقدار مرکزی مانند میانگین
دامنه تغییرات: سادهترین معیار پراکندگی
دامنه تغییرات (Range) اولین و سادهترین شاخصی است که برای درک پراکندگی دادهها به کار میرود. این شاخص فاصله بین بیشترین و کمترین مقدار در یک مجموعه داده را نشان میدهد. به زبان ساده، دامنه تغییرات به ما میگوید که دادههای ما در چه بازهای نوسان دارند.
برای مثال، فرض کنید نمرات دو دانشآموز در ۵ امتحان به صورت زیر باشد:
دانشآموز الف:۱۸, ۱۷, ۱۹, ۱۸, ۲۰
دانشآموز ب:۱۰, ۱۵, ۲۰, ۱۲, ۸
میانگین نمرات هر دو دانشآموز تقریباً ۱۸.۴ است. اما دامنه تغییرات برای دانشآموز الف برابر ۳ = ۱۷ - ۲۰ و برای دانشآموز ب برابر ۱۲ = ۸ - ۲۰ است. این عدد بزرگتر نشان میدهد که عملکرد دانشآموز ب در طول ترم بسیار نوسانی و غیرقابل پیشبینی بوده، در حالی که دانشآموز الف عملکردی تقریباً یکسان و پایدار داشته است.
واریانس: فراتر از دامنه تغییرات
دامنه تغییرات تنها به دو مقدار (بزرگترین و کوچکترین) وابسته است و از بقیه دادهها چشمپوشی میکند. برای داشتن تصویر دقیقتری از پراکندگی، به سراغ واریانس میرویم. واریانس میانگین مجذور فاصله هر داده از میانگین را محاسبه میکند. به این ترتیب، تمام دادهها در محاسبه پراکندگی نقش دارند.
فرمول واریانس نمونه (s²):$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$
در این فرمولها، $x_i$ها مقادیر داده، $\mu$ میانگین جامعه، $\bar{x}$ میانگین نمونه، N تعداد دادههای جامعه و n تعداد دادههای نمونه است. در واریانس نمونه، تقسیم بر n-1 (درجه آزادی) برای رفع سوگیری آماری انجام میشود. با محاسبه واریانس برای مثال قبلی، میبینیم که واریانس نمرات دانشآموز ب بسیار بزرگتر از دانشآموز الف است، که تأییدکننده نوسان بیشتر اوست.
انحراف معیار: بازگرداندن به مقیاس اصلی
واحد واریانس، مجذور واحد دادههای اصلی است. برای مثال، اگر دادهها بر حسب سانتیمتر باشند، واحد واریانس سانتیمتر مربع خواهد بود که تفسیر آن دشوار است. انحراف معیار (Standard Deviation) از ریشه دوم واریانس به دست میآید و پراکندگی را با همان واحد دادههای اصلی بیان میکند.
در مثال نمرات، انحراف معیار نمرات دانشآموز الف حدود ۱.۱ و برای دانشآموز ب حدود ۴.۶ است. این اعداد به ما میگویند که به طور میانگین، نمرات دانشآموز الف حدود ۱.۱ نمره از میانگین خود فاصله دارند، در حالی که این فاصله برای دانشآموز ب به طور میانگین ۴.۶ نمره است. این شاخص بسیار شهودیتر از واریانس است.
| شاخص | مفهوم اصلی | مزایا | معایب |
|---|---|---|---|
| دامنه تغییرات | فاصله بین کمترین و بیشترین مقدار | محاسبه بسیار آسان و سریع | حساسیت بالا به دادههای پرت |
| واریانس | میانگین مجذور فاصلهها از میانگین | استفاده از تمام دادهها، پایهریاضی قوی | واحد غیرقابل تفسیر (مجذور دادهها) |
| انحراف معیار | ریشه دوم واریانس | واحد یکسان با دادهها، تفسیر آسان | تحت تأثیر دادههای پرت قرار میگیرد |
کاربرد عملی: مقایسه سرمایهگذاریهای پرخطر و کمخطر
فرض کنید میخواهید بین دو صندوق سرمایهگذاری یکی را انتخاب کنید. میانگین بازدهی سالانه هر دو صندوق در ۱۰ سال گذشته برابر ۱۵٪ بوده است. اما انحراف معیار بازدهی صندوق اول ۵٪ و برای صندوق دوم ۲۰٪ است. این اعداد چه معنایی دارند؟
انحراف معیار کمتر صندوق اول (۵٪) نشان میدهد که بازدهی آن در سالهای مختلف، نوسان کمی داشته و تقریباً همواره نزدیک به ۱۵٪ بوده است. در مقابل، انحراف معیار بالای صندوق دوم (۲۰٪) نشان از نوسانات شدید دارد؛ یعنی ممکن است در یک سال ۵۰٪ سود و در سال دیگر ۲۰٪ ضرر داده باشد. بنابراین، یک سرمایهگذار ریسکگریز، صندوق اول را انتخاب میکند، در حالی که یک سرمایهگذار ریسکپذیر ممکن است برای کسب سودهای احتمالی بالا، صندوق دوم را ترجیح دهد.
ضریب تغییرات: مقایسه پراکندگی در واحدهای مختلف
گاهی نیاز داریم پراکندگی دو مجموعه داده را که واحدهای متفاوتی دارند (مثلاً وزن بر حسب کیلوگرم و قد بر حسب سانتیمتر) یا میانگینهای بسیار متفاوتی دارند (مثلاً وزن یک مورچه و وزن یک فیل)، با هم مقایسه کنیم. در این مواقع از ضریب تغییرات (Coefficient of Variation) استفاده میشود که نسبتی از انحراف معیار به میانگین است.
برای مثال، فرض کنید میانگین و انحراف معیار حقوق کارمندان یک شرکت به ترتیب ۲۰ میلیون تومان و ۵ میلیون تومان باشد. ضریب تغییرات برابر ۰.۲۵ است. از طرف دیگر، میانگین و انحراف معیار سن کارمندان ۳۵ سال و ۷ سال است که ضریب تغییرات آن برابر ۰.۲ میشود. با مقایسه این دو ضریب متوجه میشویم که پراکندگی نسبی حقوق (۰.۲۵) بیشتر از پراکندگی نسبی سن (۰.۲) در بین کارمندان است، هرچند واحدهای این دو متغیر متفاوت است.
چالشهای مفهومی
اضافه کردن یک عدد ثابت به همه دادهها، مکان دادهها را تغییر میدهد ولی پراکندگی آنها را تغییر نمیدهد. به این معنا که دامنه تغییرات، واریانس و انحراف معیار ثابت میمانند، زیرا فاصله دادهها از یکدیگر و از میانگین جدید (که به همان اندازه افزایش یافته) تغییری نمیکند.
دلیل این کار، رفع سوگیری (Bias) در برآورد واریانس جامعه از روی نمونه است. وقتی از یک نمونه برای تخمین واریانس جامعه استفاده میکنیم، انحراف معیار نمونه معمولاً کمی کوچکتر از انحراف معیار واقعی جامعه است. تقسیم بر n-1 (به جای n) این کمتخمینی را جبران کرده و برآوردی دقیقتر و بدون سوگیری از واریانس جامعه به دست میدهد.
انحراف معیار، پراکندگی دادههای خام حول میانگین را نشان میدهد. در مقابل، خطای استاندارد میانگین (Standard Error of the Mean) که از تقسیم انحراف معیار بر جذر حجم نمونه به دست میآید، پراکندگی میانگین نمونههای مختلف را حول میانگین واقعی جامعه نشان میدهد. به عبارت دیگر، انحراف معیار مربوط به دادههاست، در حالی که خطای استاندارد مربوط به برآورد ما از میانگین جامعه است.
پراکندگی، مفهوم کلیدی در آمار است که به ما امکان میدهد فراتر از میانگین به دادهها نگاه کنیم و به پایداری و قابلیت پیشبینی آنها پی ببریم. در حالی که دامنه تغییرات تصویری سریع اما سطحی به دست میدهد، واریانس و انحراف معیار با در نظر گرفتن تمام دادهها، تحلیل دقیقتری ارائه میکنند. انحراف معیار به دلیل واحد یکسان با دادهها، شهودیترین شاخص برای سنجش میزان خطا و نوسان است. در نهایت، ضریب تغییرات ابزاری قدرتمند برای مقایسه پراکندگی در مجموعه دادههایی با واحدها یا مقیاسهای متفاوت محسوب میشود. درک صحیح این شاخصها برای هر گونه تحلیل آماری، از تحقیقات علمی تا تصمیمگیریهای تجاری و سرمایهگذاری، ضروری است.
پاورقی
1 پراکندگی (Dispersion): میزان پخششدگی یا ناهمگنی دادههای آماری حول یک شاخص مرکزی.
2 میانگین (Mean): یکی از معیارهای گرایش مرکزی که از جمع تمام دادهها تقسیم بر تعداد آنها به دست میآید.
3 واریانس (Variance): میانگین مجذور انحرافات دادهها از میانگین آنها.
4 انحراف معیار (Standard Deviation): ریشه دوم واریانس که پراکندگی را با واحد دادهها نشان میدهد.
5 ضریب تغییرات (Coefficient of Variation): نسبت انحراف معیار به میانگین که برای مقایسه پراکندگی نسبی مجموعه دادهها به کار میرود.