معیار پراکندگی: عددی که میزان پخش‌شدگی داده‌ها را نشان می‌دهد.

بروزرسانی شده در: 14:13 1404/12/6 مشاهده: 43 دسته بندی: کپسول آموزشی

معیار پراکندگی: عددی که میزان پخش‌شدگی داده‌ها را نشان می‌دهد

آشنایی با دامنه‌ی تغییرات، واریانس و انحراف معیار به زبان ساده و با مثال‌های روزمره

پراکنش داده‌ها یکی از مفاهیم پایه‌ای در آمار است که به ما می‌گوید مشاهدات تا چه اندازه از یکدیگر فاصله دارند. در این مقاله با سه معیار مهم پراکندگی یعنی دامنه‌ی تغییرات، واریانس و انحراف معیار آشنا می‌شوید. یاد می‌گیرید که چگونه این معیارها را محاسبه کنید و تفاوت آن‌ها با شاخص‌های مرکزی مانند میانگین را درک کنید. مثال‌های عملی از زندگی روزمره، مانند مقایسه‌ی دمای هوا یا نمرات دانش‌آموزان، درک این مفاهیم را برای شما آسان‌تر خواهد کرد.

دامنه‌ی تغییرات (Range): ساده‌ترین معیار پراکندگی

ساده‌ترین راه برای فهمیدن میزان پراکندگی داده‌ها، محاسبه‌ی دامنه‌ی تغییرات است. این معیار فقط از دو مقدار استفاده می‌کند: بزرگ‌ترین و کوچک‌ترین داده. کافی است کوچک‌ترین مقدار را از بزرگ‌ترین مقدار کم کنید. هر چه این عدد بزرگ‌تر باشد، یعنی داده‌ها پراکنده‌تر هستند و هر چه کوچک‌تر باشد، یعنی داده‌ها به یکدیگر نزدیک‌ترند.

برای مثال، دمای هوای یک شهر را در یک هفته در نظر بگیرید: 22، 25، 23، 28، 30، 24، 26 درجه‌ی سلسیوس. بزرگ‌ترین دما 30 و کوچک‌ترین دما 22 است. دامنه‌ی تغییرات برابر است با 30 - 22 = 8 درجه. در مقابل، دمای هفته‌ی بعد را با داده‌های 24، 25، 24، 26، 25، 24، 26 در نظر بگیرید. دامنه‌ی تغییرات در این هفته 26 - 24 = 2 درجه است. همان‌طور که مشاهده می‌کنید، دمای هفته‌ی دوم به هم نزدیک‌تر و پایدارتر بوده است.

فرمول دامنه‌ی تغییرات:$Range = Max - Min$
نکته: دامنه به شدت تحت تأثیر مقادیر پرت (Outliers) قرار می‌گیرد. اگر یک داده خیلی بزرگ یا خیلی کوچک داشته باشیم، دامنه عدد بزرگی نشان می‌دهد که ممکن است تصویر درستی از کل داده‌ها ارائه ندهد.

واریانس (Variance): میانگین مجذور فاصله‌ها از میانگین

واریانس یک معیار پیشرفته‌تر است که در محاسبه‌ی آن، فاصله‌ی همه‌ی داده‌ها از میانگین در نظر گرفته می‌شود. برای محاسبه‌ی واریانس، ابتدا میانگین داده‌ها را پیدا می‌کنیم. سپس برای هر داده، فاصله‌اش تا میانگین را محاسبه کرده و آن را به توان دو می‌رسانیم. در نهایت، میانگین این مجذور فاصله‌ها را به‌دست می‌آوریم. دلیل توان دو رساندن، این است که مجموع فاصله‌های منفی و مثبت هم‌دیگر را خنثی نکنند و همه‌ی فاصله‌ها به عنوان مقدار مثبت در محاسبه مشارکت داشته باشند.

به نمرات دو دانش‌آموز در 5 درس توجه کنید. نمرات دانش‌آموز الف: 18، 19، 18، 20، 20 و دانش‌آموز ب: 10، 15، 20، 25، 15. میانگین نمرات هر دو دانش‌آموز 19 است. اما واریانس نمرات الف بسیار کوچک‌تر از واریانس نمرات ب است، زیرا نمرات الف به میانگین خود بسیار نزدیک‌تر هستند و پراکندگی کمی دارند. در مقابل، نمرات ب از میانگین خود فاصله‌های زیادی دارند.

فرمول واریانس (برای جامعه):$\sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}$
فرمول واریانس (برای نمونه):$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$
که در آن $x_i$ داده‌ها، $\mu$ میانگین جامعه، $\bar{x}$ میانگین نمونه، $N$ حجم جامعه و $n$ حجم نمونه است.

انحراف معیار (Standard Deviation): پلی به سوی درک ساده‌تر

انحراف معیار که با نماد $\sigma$ (سیگما) برای جامعه و $s$ برای نمونه نمایش داده می‌شود، در واقع جذر واریانس است. دلیل این کار این است که واحد واریانس، مربع واحد داده‌هاست (مثلاً اگر داده‌ها بر حسب متر باشند، واریانس بر حسب متر مربع خواهد بود). با گرفتن جذر، واحد داده‌ها به حالت اولیه بازمی‌گردد و تفسیر آن آسان‌تر می‌شود.

به مثال نمرات دانش‌آموزان بازگردیم. اگر واریانس نمرات دانش‌آموز ب را محاسبه کنیم و سپس از آن جذر بگیریم، انحراف معیار به‌دست می‌آید. این عدد به ما می‌گوید که به طور میانگین، نمرات این دانش‌آموز چقدر از میانگین (19) فاصله دارند. هر چه انحراف معیار بزرگ‌تر باشد، داده‌ها از میانگین دورترند و پراکندگی بیشتر است.

فرمول انحراف معیار:$\sigma = \sqrt{\sigma^2}$ برای جامعه و $s = \sqrt{s^2}$ برای نمونه.

مقایسه‌ی کاربردی معیارهای پراکندگی در زندگی روزمره

برای درک بهتر، فرض کنید دو فروشنده‌ی سیب داریم. فروشنده‌ی اول همیشه سیب‌هایی با وزن تقریباً یکسان (150 گرم) به شما می‌فروشد، اما فروشنده‌ی دوم گاهی سیب‌های خیلی کوچک (80 گرم) و گاهی خیلی بزرگ (220 گرم) به شما می‌دهد. میانگین وزن سیب‌های هر دو فروشنده ممکن است یکسان باشد، اما انحراف معیار وزن سیب‌های فروشنده‌ی اول کم و فروشنده‌ی دوم زیاد خواهد بود. این اطلاعات به شما کمک می‌کند تا انتخاب کنید که یکنواختی محصول برایتان مهم است یا خیر. در صنعت، برای کنترل کیفیت، انحراف معیار یک ابزار حیاتی است. هر چه انحراف معیار یک محصول کمتر باشد، کیفیت آن یکنواخت‌تر و قابل اعتمادتر است.

معیار پراکندگی	تعریف ساده	واحد اندازه‌گیری	حساسیت به داده‌ی پرت
دامنه‌ی تغییرات	فاصله‌ی بین کوچک‌ترین و بزرگ‌ترین داده	مثل داده‌ها (سانتی‌متر، کیلوگرم، ...)	خیلی زیاد
واریانس	میانگین مجذور فاصله‌ی داده‌ها از میانگین	واحد داده‌ها به توان دو	زیاد
انحراف معیار	جذر واریانس، میانگین فاصله‌ی داده‌ها از میانگین	مثل داده‌ها (سانتی‌متر، کیلوگرم، ...)	زیاد

چالش‌های مفهومی در درک پراکندگی داده‌ها

چالش اول: آیا دو مجموعه داده با میانگین یکسان می‌توانند پراکندگی متفاوتی داشته باشند؟

بله، دقیقاً. میانگین فقط مرکز داده‌ها را نشان می‌دهد و هیچ اطلاعاتی درباره‌ی نحوه‌ی پخش شدن آن‌ها نمی‌دهد. دو مجموعه می‌توانند میانگین یکسانی داشته باشند، اما یکی همه‌ی داده‌هایش دور میانگین متمرکز باشد (پراکندگی کم) و دیگری داده‌هایش در دو سمت میانگین پخش شده باشند (پراکندگی زیاد). مثال نمرات دانش‌آموزان در این مقاله، گویای این تفاوت است.

چالش دوم: چرا در فرمول واریانس نمونه، بر $(n-1)$ تقسیم می‌کنیم، نه بر $n$؟

این کار برای جبران خطای برآورد انجام می‌شود. وقتی ما از یک نمونه (بخشی از جامعه) می‌خواهیم واریانس کل جامعه را تخمین بزنیم، تقسیم بر $n-1$ (که به آن درجه‌ی آزادی می‌گویند) باعث می‌شود تخمین ما دقیق‌تر و بدون سوگیری (Bias) باشد. در محاسبه‌ی واریانس خود داده‌های یک جامعه‌ی کامل، از تقسیم بر $N$ استفاده می‌کنیم.

چالش سوم: آیا انحراف معیار می‌تواند منفی باشد؟

خیر. انحراف معیار از جذر واریانس به‌دست می‌آید. واریانس خود مجموع مربعات است و همیشه مقداری نامنفی (صفر یا بزرگتر از صفر) دارد. جذر یک عدد نامنفی نیز همواره نامنفی است. اگر همه‌ی داده‌ها با هم برابر باشند، انحراف معیار صفر می‌شود (یعنی هیچ پراکندگی‌ای وجود ندارد). در غیر این صورت، انحراف معیار یک عدد مثبت است.

نتیجه‌گیری: معیارهای پراکندگی ابزارهای قدرتمندی برای توصیف داده‌ها هستند که فراتر از میانگین عمل می‌کنند. در حالی که میانگین تصویری از مرکز داده‌ها ارائه می‌دهد، معیارهایی مانند دامنه‌ی تغییرات، واریانس و انحراف معیار به ما می‌گویند که داده‌ها حول آن مرکز چگونه توزیع شده‌اند. درک این مفاهیم برای تحلیل داده‌ها در علوم مختلف، از فیزیک و اقتصاد گرفته تا روانشناسی و پزشکی، ضروری است.

پاورقی

¹ معیار پراکندگی (Measure of Dispersion): معیاری که پراکندگی یا تغییرپذیری مقادیر در یک مجموعه داده را کمّی می‌کند.
² دامنه‌ی تغییرات (Range): تفاوت بین بزرگ‌ترین و کوچک‌ترین مقدار در یک مجموعه داده.
³ میانگین (Mean یا Average): حاصل جمع همه‌ی مقادیر تقسیم بر تعداد آن‌ها.
⁴ داده‌ی پرت (Outlier): مقداری که به طور قابل ملاحظه‌ای از سایر داده‌ها فاصله دارد و می‌تواند نتایج آماری را تحت تأثیر قرار دهد.
⁵ واریانس (Variance): میانگین مجذور انحرافات داده‌ها از میانگین آن‌ها.
⁶ انحراف معیار (Standard Deviation): جذر واریانس که پراکندگی داده‌ها را در واحد اصلی داده‌ها نشان می‌دهد.
⁷ درجه‌ی آزادی (Degrees of Freedom): تعداد مقادیری در محاسبه‌ی نهایی یک آماره که آزادند تغییر کنند.

جستجوهای پرتکرار

معیار پراکندگی: عددی که میزان پخش‌شدگی داده‌ها را نشان می‌دهد.