انحراف معیار: معیاری برای سنجش پراکندگی داده‌ها حول میانگین بر پایهٔ توان دوم انحراف‌ها

بروزرسانی شده در: 12:49 1404/12/7 مشاهده: 404 دسته بندی: کپسول آموزشی

انحراف معیار: معیاری برای سنجش پراکندگی داده‌ها حول میانگین بر پایهٔ توان دوم انحراف‌ها

آشنایی با مفهوم انحراف معیار، واریانس و نحوه محاسبه گام به گام پراکندگی داده‌ها در آمار مقدماتی

انحراف معیار یکی از کلیدی‌ترین مفاهیم در علم آمار است که به ما نشان می‌دهد داده‌های یک مجموعه چقدر از میانگین خود فاصله دارند. این مقاله با زبانی ساده، مفهوم واریانس¹، انحراف معیار² و نحوه محاسبه آن ها را با مثال‌های روزمره توضیح می‌دهد. همچنین با معرفی ضریب تغییرات³، کاربردهای عملی این معیارها را در دنیای واقعی بررسی خواهیم کرد.

چرا میانگین به تنهایی کافی نیست؟

فرض کنید دو دانش‌آموز به نام‌های علی و رضا در پنج امتحان نمرات زیر را کسب کرده‌اند:

علی: 18, 19, 20, 17, 16
رضا: 10, 20, 15, 25, 10

اگر فقط میانگین نمرات را محاسبه کنیم، هر دو دانش‌آموز میانگینی برابر با 18 دارند. اما آیا می‌توان گفت عملکرد هر دو یکسان بوده است؟ خیر! نمرات علی به میانگین نزدیک‌تر و پایدارتر است، در حالی که نمرات رضا نوسان زیادی دارد. اینجا جایی است که به معیاری به نام «پراکندگی» نیاز پیدا می‌کنیم. انحراف معیار دقیقاً همین نوسان را کمّی می‌کند.

مفهوم کلیدی پراکندگی یعنی درجه‌ای از داده‌ها که از یکدیگر فاصله دارند. هرچه داده‌ها به میانگین نزدیک‌تر باشند، پراکندگی کمتر و انحراف معیار کوچک‌تر است.

واریانس: پله اول محاسبه انحراف معیار

برای محاسبه انحراف معیار، ابتدا باید واریانس را محاسبه کنیم. واریانس میانگین مجذور فاصله‌ی داده‌ها از میانگین است. چرا از مجذور استفاده می‌کنیم؟ زیرا اگر فاصله‌ها را ساده جمع کنیم، اعداد مثبت و منفی یکدیگر را خنثی می‌کنند و نتیجه همیشه صفر می‌شود. برای حل این مشکل، فاصله‌ها را به توان دو می‌رسانیم تا همه مثبت شوند. فرمول واریانس برای یک جامعه⁴ آماری به صورت زیر است: $\sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}$ و برای یک نمونه⁵: $s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$ در این فرمول‌ها:

$x_i$ : هر یک از داده‌ها
$\mu$ : میانگین جامعه
$\bar{x}$ : میانگین نمونه
$N$ : تعداد داده‌های جامعه
$n$ : تعداد داده‌های نمونه

چرا در نمونه از $n-1$ استفاده می‌کنیم؟
تقسیم بر $n-1$ (به جای $n$) به این دلیل است که نمونه می‌خواهد برآوردی بدون سوگیری (اریب) از واریانس جامعه داشته باشد. این کار درجه آزادی⁶ را تنظیم می‌کند.

انحراف معیار: بازگرداندن به مقیاس اصلی

مشکل واریانس این است که واحد آن مجذور واحد داده‌های اصلی است. مثلاً اگر داده‌ها بر حسب «سانتی‌متر» باشند، واحد واریانس «سانتی‌متر مربع» می‌شود. برای رفع این مشکل، کافی است جذر واریانس را محاسبه کنیم. حاصل این کار «انحراف معیار» نامیده می‌شود. فرمول انحراف معیار برای جامعه: $\sigma = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}}$ فرمول انحراف معیار برای نمونه: $s = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}}$

محاسبه گام به گام با مثال نمرات دانش‌آموزان

بیایید با مثال ابتدای مقاله، انحراف معیار نمرات علی و رضا را محاسبه کنیم. فرض می‌کنیم این داده‌ها یک نمونه هستند. مرحله ۱: محاسبه میانگین
میانگین نمرات هر دو نفر برابر $ \bar{x} = 18 $ است. مرحله ۲: محاسبه مجذور انحراف‌ها از میانگین

دانش‌آموز	نمره ($x_i$)	انحراف ($x_i - \bar{x}$)	مجذور انحراف ($(x_i - \bar{x})^2$)
علی	18	0	0
علی	19	1	1
علی	20	2	4
علی	17	-1	1
علی	16	-2	4
مجموع مجذور انحرافات علی			10
رضا	10	-8	64
رضا	20	2	4
رضا	15	-3	9
رضا	25	7	49
رضا	10	-8	64
مجموع مجذور انحرافات رضا			190

مرحله ۳: محاسبه واریانس نمونه
تعداد داده‌ها $n=5$ است.
واریانس نمرات علی: $s^2_{علی} = \frac{10}{5-1} = \frac{10}{4} = 2.5$
واریانس نمرات رضا: $s^2_{رضا} = \frac{190}{5-1} = \frac{190}{4} = 47.5$ مرحله ۴: محاسبه انحراف معیار نمونه
انحراف معیار علی: $s_{علی} = \sqrt{2.5} \approx 1.58$
انحراف معیار رضا: $s_{رضا} = \sqrt{47.5} \approx 6.89$

نتیجه: انحراف معیار علی (1.58) بسیار کوچک‌تر از انحراف معیار رضا (6.89) است. این یعنی نمرات علی پراکندگی کمتری داشته و عملکرد او پایدارتر بوده است، در حالی که نمرات رضا نوسان شدیدی داشته است.

کاربرد عملی: مقایسه دو مجموعه داده با واحدهای متفاوت

گاهی اوقات می‌خواهیم پراکندگی دو مجموعه داده را که واحدهای متفاوتی دارند (مثلاً وزن یک گروه بر حسب کیلوگرم و قد همان گروه بر حسب سانتی‌متر) با هم مقایسه کنیم. در این مواقع نمی‌توانیم مستقیماً انحراف معیار را مقایسه کنیم، زیرا واحدها متفاوت هستند. راه حل، استفاده از «ضریب تغییرات» است. ضریب تغییرات (Coefficient of Variation) از تقسیم انحراف معیار بر میانگین به دست می‌آید و معمولاً به صورت درصد بیان می‌شود. این معیار بی‌واحد است. $CV = \frac{s}{\bar{x}} \times 100$ مثال: فرض کنید میانگین وزن دانش‌آموزان 60 کیلوگرم با انحراف معیار 6 کیلوگرم و میانگین قد آن‌ها 160 سانتی‌متر با انحراف معیار 8 سانتی‌متر باشد.
ضریب تغییرات وزن: $(6/60) \times 100 = 10\%$
ضریب تغییرات قد: $(8/160) \times 100 = 5\%$
نتیجه می‌گیریم که پراکندگی وزن دانش‌آموزان نسبت به میانگین خود (٪۱۰) بیشتر از پراکندگی قد آن‌ها (٪۵) است.

چالش‌های مفهومی

❓ چرا در فرمول انحراف معیار از قدر مطلق استفاده نمی‌کنیم تا مجبور به محاسبه توان دوم نباشیم؟
استفاده از توان دوم (و سپس جذر گرفتن) مزایایی دارد. اولاً تابع مربع در ریاضیات مشتق‌پذیر است و کار با آن در محاسبات آماری پیشرفته آسان‌تر است. ثانیاً به داده‌های دور از میانگین (پَرت‌ها) وزن بیشتری می‌دهد که در بسیاری از تحلیل‌ها مفید است. اگر از قدر مطلق استفاده کنیم، معیار دیگری به نام «میانگین انحراف مطلق» به دست می‌آید که کاربردهای خاص خود را دارد.

❓ آیا انحراف معیار بزرگ همیشه بد است؟
نه لزوماً. در برخی زمینه‌ها، پراکندگی بالا مطلوب است. مثلاً در سرمایه‌گذاری، انحراف معیار بالا نشان‌دهنده ریسک بالاست. یک سرمایه‌گذار ریسک‌پذیر ممکن است به دنبال بازدهی با انحراف معیار بالا باشد. در مقابل، در بحث کنترل کیفیت در یک کارخانه، انحراف معیار پایین نشان‌دهنده یکنواختی و کیفیت بالای محصولات است.

❓ اگر به داده‌ها یک مقدار ثابت اضافه کنیم، انحراف معیار چه تغییری می‌کند؟ اگر همه داده‌ها را در یک عدد ثابت ضرب کنیم چطور؟
اگر به همه داده‌ها یک مقدار ثابت اضافه کنیم، میانگین تغییر می‌کند اما پراکندگی داده‌ها حول میانگین جدید ثابت می‌ماند، بنابراین انحراف معیار تغییر نمی‌کند. اما اگر همه داده‌ها را در یک عدد ثابت مثل $k$ ضرب کنیم، انحراف معیار جدید برابر با انحراف معیار قدیم ضرب در $|k|$ خواهد شد.

جمع‌بندی
انحراف معیار، پرکاربردترین معیار برای سنجش پراکندگی داده‌ها است که با محاسبه جذر واریانس به دست می‌آید. این معیار به ما می‌گوید که داده‌ها به طور میانگین چقدر از مقدار میانگین فاصله دارند. درک تفاوت بین واریانس و انحراف معیار، نحوه محاسبه آن‌ها برای جامعه و نمونه، و همچنین آشنایی با ضریب تغییرات برای مقایسه مجموعه داده‌های متفاوت، از مهارت‌های اساسی در تحلیل داده‌های آماری است. با استفاده از این ابزارها می‌توانیم قضاوت دقیق‌تری درباره‌ی پایایی و ثبات داده‌ها داشته باشیم.

پاورقی

¹ واریانس (Variance): میانگین مجذور فاصله‌ی داده‌ها از میانگین. معیاری برای سنجش پراکندگی که واحد آن مربع واحد داده‌ها است.
² انحراف معیار (Standard Deviation): جذر واریانس. معیاری برای سنجش پراکندگی که واحد آن با واحد داده‌ها یکسان است.
³ ضریب تغییرات (Coefficient of Variation): نسبتی از انحراف معیار به میانگین که برای مقایسه پراکندگی مجموعه داده‌ها با واحدهای متفاوت به کار می‌رود.
⁴ جامعه (Population): به کل مجموعه‌ای از افراد یا اشیاء که می‌خواهیم درباره آن‌ها تحقیق کنیم، جامعه آماری می‌گویند.
⁵ نمونه (Sample): زیرمجموعه‌ای از جامعه که برای انجام تحقیق انتخاب می‌شود تا درباره کل جامعه نتیجه‌گیری کنیم.
⁶ درجه آزادی (Degrees of Freedom): تعداد مقادیری که در محاسبه نهایی یک آماره آزاد هستند تا تغییر کنند.

جستجوهای پرتکرار

انحراف معیار: معیاری برای سنجش پراکندگی داده‌ها حول میانگین بر پایهٔ توان دوم انحراف‌ها