معیار پراکندگی: عددی که میزان پخششدگی دادهها را نشان میدهد
دامنهی تغییرات (Range): سادهترین معیار پراکندگی
سادهترین راه برای فهمیدن میزان پراکندگی دادهها، محاسبهی دامنهی تغییرات است. این معیار فقط از دو مقدار استفاده میکند: بزرگترین و کوچکترین داده. کافی است کوچکترین مقدار را از بزرگترین مقدار کم کنید. هر چه این عدد بزرگتر باشد، یعنی دادهها پراکندهتر هستند و هر چه کوچکتر باشد، یعنی دادهها به یکدیگر نزدیکترند.
برای مثال، دمای هوای یک شهر را در یک هفته در نظر بگیرید: 22، 25، 23، 28، 30، 24، 26 درجهی سلسیوس. بزرگترین دما 30 و کوچکترین دما 22 است. دامنهی تغییرات برابر است با 30 - 22 = 8 درجه. در مقابل، دمای هفتهی بعد را با دادههای 24، 25، 24، 26، 25، 24، 26 در نظر بگیرید. دامنهی تغییرات در این هفته 26 - 24 = 2 درجه است. همانطور که مشاهده میکنید، دمای هفتهی دوم به هم نزدیکتر و پایدارتر بوده است.
نکته: دامنه به شدت تحت تأثیر مقادیر پرت (Outliers) قرار میگیرد. اگر یک داده خیلی بزرگ یا خیلی کوچک داشته باشیم، دامنه عدد بزرگی نشان میدهد که ممکن است تصویر درستی از کل دادهها ارائه ندهد.
واریانس (Variance): میانگین مجذور فاصلهها از میانگین
واریانس یک معیار پیشرفتهتر است که در محاسبهی آن، فاصلهی همهی دادهها از میانگین در نظر گرفته میشود. برای محاسبهی واریانس، ابتدا میانگین دادهها را پیدا میکنیم. سپس برای هر داده، فاصلهاش تا میانگین را محاسبه کرده و آن را به توان دو میرسانیم. در نهایت، میانگین این مجذور فاصلهها را بهدست میآوریم. دلیل توان دو رساندن، این است که مجموع فاصلههای منفی و مثبت همدیگر را خنثی نکنند و همهی فاصلهها به عنوان مقدار مثبت در محاسبه مشارکت داشته باشند.
به نمرات دو دانشآموز در 5 درس توجه کنید. نمرات دانشآموز الف: 18، 19، 18، 20، 20 و دانشآموز ب: 10، 15، 20، 25، 15. میانگین نمرات هر دو دانشآموز 19 است. اما واریانس نمرات الف بسیار کوچکتر از واریانس نمرات ب است، زیرا نمرات الف به میانگین خود بسیار نزدیکتر هستند و پراکندگی کمی دارند. در مقابل، نمرات ب از میانگین خود فاصلههای زیادی دارند.
فرمول واریانس (برای نمونه):$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$
که در آن $x_i$ دادهها، $\mu$ میانگین جامعه، $\bar{x}$ میانگین نمونه، $N$ حجم جامعه و $n$ حجم نمونه است.
انحراف معیار (Standard Deviation): پلی به سوی درک سادهتر
انحراف معیار که با نماد $\sigma$ (سیگما) برای جامعه و $s$ برای نمونه نمایش داده میشود، در واقع جذر واریانس است. دلیل این کار این است که واحد واریانس، مربع واحد دادههاست (مثلاً اگر دادهها بر حسب متر باشند، واریانس بر حسب متر مربع خواهد بود). با گرفتن جذر، واحد دادهها به حالت اولیه بازمیگردد و تفسیر آن آسانتر میشود.
به مثال نمرات دانشآموزان بازگردیم. اگر واریانس نمرات دانشآموز ب را محاسبه کنیم و سپس از آن جذر بگیریم، انحراف معیار بهدست میآید. این عدد به ما میگوید که به طور میانگین، نمرات این دانشآموز چقدر از میانگین (19) فاصله دارند. هر چه انحراف معیار بزرگتر باشد، دادهها از میانگین دورترند و پراکندگی بیشتر است.
مقایسهی کاربردی معیارهای پراکندگی در زندگی روزمره
برای درک بهتر، فرض کنید دو فروشندهی سیب داریم. فروشندهی اول همیشه سیبهایی با وزن تقریباً یکسان (150 گرم) به شما میفروشد، اما فروشندهی دوم گاهی سیبهای خیلی کوچک (80 گرم) و گاهی خیلی بزرگ (220 گرم) به شما میدهد. میانگین وزن سیبهای هر دو فروشنده ممکن است یکسان باشد، اما انحراف معیار وزن سیبهای فروشندهی اول کم و فروشندهی دوم زیاد خواهد بود. این اطلاعات به شما کمک میکند تا انتخاب کنید که یکنواختی محصول برایتان مهم است یا خیر. در صنعت، برای کنترل کیفیت، انحراف معیار یک ابزار حیاتی است. هر چه انحراف معیار یک محصول کمتر باشد، کیفیت آن یکنواختتر و قابل اعتمادتر است.
| معیار پراکندگی | تعریف ساده | واحد اندازهگیری | حساسیت به دادهی پرت |
|---|---|---|---|
| دامنهی تغییرات | فاصلهی بین کوچکترین و بزرگترین داده | مثل دادهها (سانتیمتر، کیلوگرم، ...) | خیلی زیاد |
| واریانس | میانگین مجذور فاصلهی دادهها از میانگین | واحد دادهها به توان دو | زیاد |
| انحراف معیار | جذر واریانس، میانگین فاصلهی دادهها از میانگین | مثل دادهها (سانتیمتر، کیلوگرم، ...) | زیاد |
چالشهای مفهومی در درک پراکندگی دادهها
چالش اول: آیا دو مجموعه داده با میانگین یکسان میتوانند پراکندگی متفاوتی داشته باشند؟
بله، دقیقاً. میانگین فقط مرکز دادهها را نشان میدهد و هیچ اطلاعاتی دربارهی نحوهی پخش شدن آنها نمیدهد. دو مجموعه میتوانند میانگین یکسانی داشته باشند، اما یکی همهی دادههایش دور میانگین متمرکز باشد (پراکندگی کم) و دیگری دادههایش در دو سمت میانگین پخش شده باشند (پراکندگی زیاد). مثال نمرات دانشآموزان در این مقاله، گویای این تفاوت است.
چالش دوم: چرا در فرمول واریانس نمونه، بر $(n-1)$ تقسیم میکنیم، نه بر $n$؟
این کار برای جبران خطای برآورد انجام میشود. وقتی ما از یک نمونه (بخشی از جامعه) میخواهیم واریانس کل جامعه را تخمین بزنیم، تقسیم بر $n-1$ (که به آن درجهی آزادی میگویند) باعث میشود تخمین ما دقیقتر و بدون سوگیری (Bias) باشد. در محاسبهی واریانس خود دادههای یک جامعهی کامل، از تقسیم بر $N$ استفاده میکنیم.
چالش سوم: آیا انحراف معیار میتواند منفی باشد؟
خیر. انحراف معیار از جذر واریانس بهدست میآید. واریانس خود مجموع مربعات است و همیشه مقداری نامنفی (صفر یا بزرگتر از صفر) دارد. جذر یک عدد نامنفی نیز همواره نامنفی است. اگر همهی دادهها با هم برابر باشند، انحراف معیار صفر میشود (یعنی هیچ پراکندگیای وجود ندارد). در غیر این صورت، انحراف معیار یک عدد مثبت است.
پاورقی
1 معیار پراکندگی (Measure of Dispersion): معیاری که پراکندگی یا تغییرپذیری مقادیر در یک مجموعه داده را کمّی میکند.
2 دامنهی تغییرات (Range): تفاوت بین بزرگترین و کوچکترین مقدار در یک مجموعه داده.
3 میانگین (Mean یا Average): حاصل جمع همهی مقادیر تقسیم بر تعداد آنها.
4 دادهی پرت (Outlier): مقداری که به طور قابل ملاحظهای از سایر دادهها فاصله دارد و میتواند نتایج آماری را تحت تأثیر قرار دهد.
5 واریانس (Variance): میانگین مجذور انحرافات دادهها از میانگین آنها.
6 انحراف معیار (Standard Deviation): جذر واریانس که پراکندگی دادهها را در واحد اصلی دادهها نشان میدهد.
7 درجهی آزادی (Degrees of Freedom): تعداد مقادیری در محاسبهی نهایی یک آماره که آزادند تغییر کنند.