پراکندگی: میزان پخش‌شدگی داده‌ها حول یک مقدار مرکزی مانند میانگین

بروزرسانی شده در: 12:34 1404/12/7 مشاهده: 37 دسته بندی: کپسول آموزشی

پراکندگی: میزان پخش‌شدگی داده‌ها حول یک مقدار مرکزی مانند میانگین

شاخص‌های پراکندگی مانند واریانس و انحراف معیار، تصویری دقیق از همگن بودن یا نوسانی بودن داده‌ها ارائه می‌دهند.

پراکندگی در آمار، معیاری برای سنجش میزان تفاوت داده‌ها با یکدیگر و با معیارهای مرکزی مانند میانگین است. هرچه پراکندگی بیشتر باشد، داده‌ها ناهمگن‌تر و از میانگین دورتر هستند. این مقاله به بررسی شاخص‌های اصلی پراکندگی از جمله دامنه تغییرات، واریانس، انحراف معیار و ضریب تغییرات می‌پردازد و کاربرد هر یک را در تحلیل داده‌های واقعی نشان می‌دهد.

دامنه تغییرات: ساده‌ترین معیار پراکندگی

دامنه تغییرات (Range) اولین و ساده‌ترین شاخصی است که برای درک پراکندگی داده‌ها به کار می‌رود. این شاخص فاصله بین بیش‌ترین و کم‌ترین مقدار در یک مجموعه داده را نشان می‌دهد. به زبان ساده، دامنه تغییرات به ما می‌گوید که داده‌های ما در چه بازه‌ای نوسان دارند.

فرمول:$دامنه = بزرگترین مقدار - کوچکترین مقدار$

برای مثال، فرض کنید نمرات دو دانش‌آموز در ۵ امتحان به صورت زیر باشد:

دانش‌آموز الف:۱۸, ۱۷, ۱۹, ۱۸, ۲۰

دانش‌آموز ب:۱۰, ۱۵, ۲۰, ۱۲, ۸

میانگین نمرات هر دو دانش‌آموز تقریباً ۱۸.۴ است. اما دامنه تغییرات برای دانش‌آموز الف برابر ۳ = ۱۷ - ۲۰ و برای دانش‌آموز ب برابر ۱۲ = ۸ - ۲۰ است. این عدد بزرگ‌تر نشان می‌دهد که عملکرد دانش‌آموز ب در طول ترم بسیار نوسانی و غیرقابل پیش‌بینی بوده، در حالی که دانش‌آموز الف عملکردی تقریباً یکسان و پایدار داشته است.

واریانس: فراتر از دامنه تغییرات

دامنه تغییرات تنها به دو مقدار (بزرگترین و کوچکترین) وابسته است و از بقیه داده‌ها چشم‌پوشی می‌کند. برای داشتن تصویر دقیق‌تری از پراکندگی، به سراغ واریانس می‌رویم. واریانس میانگین مجذور فاصله هر داده از میانگین را محاسبه می‌کند. به این ترتیب، تمام داده‌ها در محاسبه پراکندگی نقش دارند.

فرمول واریانس جامعه (σ²):$\sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}$
فرمول واریانس نمونه (s²):$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$

در این فرمول‌ها، $x_i$ها مقادیر داده، $\mu$ میانگین جامعه، $\bar{x}$ میانگین نمونه، N تعداد داده‌های جامعه و n تعداد داده‌های نمونه است. در واریانس نمونه، تقسیم بر n-1 (درجه آزادی) برای رفع سوگیری آماری انجام می‌شود. با محاسبه واریانس برای مثال قبلی، می‌بینیم که واریانس نمرات دانش‌آموز ب بسیار بزرگ‌تر از دانش‌آموز الف است، که تأییدکننده نوسان بیشتر اوست.

انحراف معیار: بازگرداندن به مقیاس اصلی

واحد واریانس، مجذور واحد داده‌های اصلی است. برای مثال، اگر داده‌ها بر حسب سانتی‌متر باشند، واحد واریانس سانتی‌متر مربع خواهد بود که تفسیر آن دشوار است. انحراف معیار (Standard Deviation) از ریشه دوم واریانس به دست می‌آید و پراکندگی را با همان واحد داده‌های اصلی بیان می‌کند.

فرمول:$\sigma = \sqrt{\sigma^2}$ (برای جامعه) و $s = \sqrt{s^2}$ (برای نمونه)

در مثال نمرات، انحراف معیار نمرات دانش‌آموز الف حدود ۱.۱ و برای دانش‌آموز ب حدود ۴.۶ است. این اعداد به ما می‌گویند که به طور میانگین، نمرات دانش‌آموز الف حدود ۱.۱ نمره از میانگین خود فاصله دارند، در حالی که این فاصله برای دانش‌آموز ب به طور میانگین ۴.۶ نمره است. این شاخص بسیار شهودی‌تر از واریانس است.

شاخص	مفهوم اصلی	مزایا	معایب
دامنه تغییرات	فاصله بین کمترین و بیشترین مقدار	محاسبه بسیار آسان و سریع	حساسیت بالا به داده‌های پرت
واریانس	میانگین مجذور فاصله‌ها از میانگین	استفاده از تمام داده‌ها، پایه‌ریاضی قوی	واحد غیرقابل تفسیر (مجذور داده‌ها)
انحراف معیار	ریشه دوم واریانس	واحد یکسان با داده‌ها، تفسیر آسان	تحت تأثیر داده‌های پرت قرار می‌گیرد

کاربرد عملی: مقایسه سرمایه‌گذاری‌های پرخطر و کم‌خطر

فرض کنید می‌خواهید بین دو صندوق سرمایه‌گذاری یکی را انتخاب کنید. میانگین بازدهی سالانه هر دو صندوق در ۱۰ سال گذشته برابر ۱۵٪ بوده است. اما انحراف معیار بازدهی صندوق اول ۵٪ و برای صندوق دوم ۲۰٪ است. این اعداد چه معنایی دارند؟

انحراف معیار کمتر صندوق اول (۵٪) نشان می‌دهد که بازدهی آن در سال‌های مختلف، نوسان کمی داشته و تقریباً همواره نزدیک به ۱۵٪ بوده است. در مقابل، انحراف معیار بالای صندوق دوم (۲۰٪) نشان از نوسانات شدید دارد؛ یعنی ممکن است در یک سال ۵۰٪ سود و در سال دیگر ۲۰٪ ضرر داده باشد. بنابراین، یک سرمایه‌گذار ریسک‌گریز، صندوق اول را انتخاب می‌کند، در حالی که یک سرمایه‌گذار ریسک‌پذیر ممکن است برای کسب سودهای احتمالی بالا، صندوق دوم را ترجیح دهد.

ضریب تغییرات: مقایسه پراکندگی در واحدهای مختلف

گاهی نیاز داریم پراکندگی دو مجموعه داده را که واحدهای متفاوتی دارند (مثلاً وزن بر حسب کیلوگرم و قد بر حسب سانتی‌متر) یا میانگین‌های بسیار متفاوتی دارند (مثلاً وزن یک مورچه و وزن یک فیل)، با هم مقایسه کنیم. در این مواقع از ضریب تغییرات (Coefficient of Variation) استفاده می‌شود که نسبتی از انحراف معیار به میانگین است.

فرمول:$CV = \frac{\sigma}{\mu}$ (برای جامعه) و $CV = \frac{s}{\bar{x}}$ (برای نمونه)

برای مثال، فرض کنید میانگین و انحراف معیار حقوق کارمندان یک شرکت به ترتیب ۲۰ میلیون تومان و ۵ میلیون تومان باشد. ضریب تغییرات برابر ۰.۲۵ است. از طرف دیگر، میانگین و انحراف معیار سن کارمندان ۳۵ سال و ۷ سال است که ضریب تغییرات آن برابر ۰.۲ می‌شود. با مقایسه این دو ضریب متوجه می‌شویم که پراکندگی نسبی حقوق (۰.۲۵) بیشتر از پراکندگی نسبی سن (۰.۲) در بین کارمندان است، هرچند واحدهای این دو متغیر متفاوت است.

چالش‌های مفهومی

۱. اگر به همه داده‌ها یک عدد ثابت اضافه کنیم، پراکندگی چگونه تغییر می‌کند؟

اضافه کردن یک عدد ثابت به همه داده‌ها، مکان داده‌ها را تغییر می‌دهد ولی پراکندگی آن‌ها را تغییر نمی‌دهد. به این معنا که دامنه تغییرات، واریانس و انحراف معیار ثابت می‌مانند، زیرا فاصله داده‌ها از یکدیگر و از میانگین جدید (که به همان اندازه افزایش یافته) تغییری نمی‌کند.

۲. چرا در فرمول واریانس نمونه بر n-1 تقسیم می‌کنیم نه n؟

دلیل این کار، رفع سوگیری (Bias) در برآورد واریانس جامعه از روی نمونه است. وقتی از یک نمونه برای تخمین واریانس جامعه استفاده می‌کنیم، انحراف معیار نمونه معمولاً کمی کوچک‌تر از انحراف معیار واقعی جامعه است. تقسیم بر n-1 (به جای n) این کم‌تخمینی را جبران کرده و برآوردی دقیق‌تر و بدون سوگیری از واریانس جامعه به دست می‌دهد.

۳. تفاوت اساسی انحراف معیار و خطای استاندارد میانگین چیست؟

انحراف معیار، پراکندگی داده‌های خام حول میانگین را نشان می‌دهد. در مقابل، خطای استاندارد میانگین (Standard Error of the Mean) که از تقسیم انحراف معیار بر جذر حجم نمونه به دست می‌آید، پراکندگی میانگین نمونه‌های مختلف را حول میانگین واقعی جامعه نشان می‌دهد. به عبارت دیگر، انحراف معیار مربوط به داده‌هاست، در حالی که خطای استاندارد مربوط به برآورد ما از میانگین جامعه است.

جمع‌بندی
پراکندگی، مفهوم کلیدی در آمار است که به ما امکان می‌دهد فراتر از میانگین به داده‌ها نگاه کنیم و به پایداری و قابلیت پیش‌بینی آن‌ها پی ببریم. در حالی که دامنه تغییرات تصویری سریع اما سطحی به دست می‌دهد، واریانس و انحراف معیار با در نظر گرفتن تمام داده‌ها، تحلیل دقیق‌تری ارائه می‌کنند. انحراف معیار به دلیل واحد یکسان با داده‌ها، شهودی‌ترین شاخص برای سنجش میزان خطا و نوسان است. در نهایت، ضریب تغییرات ابزاری قدرتمند برای مقایسه پراکندگی در مجموعه داده‌هایی با واحدها یا مقیاس‌های متفاوت محسوب می‌شود. درک صحیح این شاخص‌ها برای هر گونه تحلیل آماری، از تحقیقات علمی تا تصمیم‌گیری‌های تجاری و سرمایه‌گذاری، ضروری است.

پاورقی

¹ پراکندگی (Dispersion): میزان پخش‌شدگی یا ناهمگنی داده‌های آماری حول یک شاخص مرکزی.

² میانگین (Mean): یکی از معیارهای گرایش مرکزی که از جمع تمام داده‌ها تقسیم بر تعداد آن‌ها به دست می‌آید.

³ واریانس (Variance): میانگین مجذور انحرافات داده‌ها از میانگین آن‌ها.

⁴ انحراف معیار (Standard Deviation): ریشه دوم واریانس که پراکندگی را با واحد داده‌ها نشان می‌دهد.

⁵ ضریب تغییرات (Coefficient of Variation): نسبت انحراف معیار به میانگین که برای مقایسه پراکندگی نسبی مجموعه داده‌ها به کار می‌رود.

جستجوهای پرتکرار

پراکندگی: میزان پخش‌شدگی داده‌ها حول یک مقدار مرکزی مانند میانگین