انحراف معیار جامعه (σ): کلید درک پراکندگی در آمار توصیفی
انحراف معیار چیست و چرا به آن نیاز داریم؟
در آمار، وقتی دادههای یک جامعه1 را جمعآوری میکنیم، معمولاً نخستین چیزی که محاسبه میکنیم «میانگین» است. میانگین به ما یک نقطه مرکزی میدهد، اما هرگز نمیگوید که دادهها چقدر حول آن مرکز پخش شدهاند. برای مثال، دو کلاس درس را در نظر بگیرید. میانگین نمرات هر دو کلاس دقیقاً 15 از 20 است. اما در کلاس اول، همه نمرات بین 14 و 16 هستند (پراکندگی کم) و در کلاس دوم، نمرات از 5 تا 20 متغیر است (پراکندگی زیاد). در اینجا انحراف معیار به کمک ما میآید.
انحراف معیار جامعه که با نماد $ \sigma $ (سیگما) نمایش داده میشود، ریشهٔ دوم واریانس است. به زبان ساده، انحراف معیار میانگین فاصلهٔ هر داده از میانگین کل را نشان میدهد. هرچه این مقدار بزرگتر باشد، دادهها پراکندهتر هستند و هرچه کوچکتر باشد، دادهها به میانگین نزدیکترند.
<!-- جدول مقایسه انحراف معیار کم و زیاد -->| ویژگی | انحراف معیار کوچک | انحراف معیار بزرگ |
|---|---|---|
| میزان یکنواختی دادهها | بسیار بالا (دادهها همگن) | پایین (دادهها ناهمگن) |
| قابلیت پیشبینی | بالا (دادههای جدید نزدیک به میانگین) | پایین (دادههای جدید غیرقابل پیشبینی) |
| مثال علمی | طول برگهای یک درخت در یک باغ کوچک | قد دانشآموزان در یک مدرسه بزرگ شهری |
روش گامبهگام محاسبهٔ انحراف معیار جامعه
برای محاسبهٔ $ \sigma $ باید مراحل زیر را دقیقاً طی کنیم. فرض کنید جامعهٔ ما شامل $ N $ عضو باشد: $ x_1, x_2, ..., x_N $.
مثال عددی: فرض کنید نمرات درس علوم پنج دانشآموز در یک کلاس کوچک (کل جامعه) به صورت زیر است: [12, 14, 14, 16, 18]. میخواهیم انحراف معیار این جامعه را محاسبه کنیم.
- گام اول: محاسبهٔ میانگین جامعه ($ \mu $).
$ \mu = \frac{12+14+14+16+18}{5} = \frac{74}{5} = 14.8 $. - گام دوم: محاسبهٔ انحراف هر داده از میانگین ($ x_i - \mu $).
[12-14.8 = -2.8, 14-14.8 = -0.8, 14-14.8 = -0.8, 16-14.8 = 1.2, 18-14.8 = 3.2]. - گام سوم: مربع کردن انحرافها (برای از بین بردن علامت منفی).
[(-2.8)^2 = 7.84, (-0.8)^2 = 0.64, (-0.8)^2 = 0.64, (1.2)^2 = 1.44, (3.2)^2 = 10.24]. - گام چهارم: محاسبهٔ میانگین مربعات انحرافها (واریانس جامعه).
$ \sigma^2 = \frac{7.84 + 0.64 + 0.64 + 1.44 + 10.24}{5} = \frac{20.8}{5} = 4.16 $. - گام پنجم: جذر گرفتن از واریانس برای به دست آوردن انحراف معیار.
$ \sigma = \sqrt{4.16} \approx 2.04 $.
این عدد $ 2.04 $ به ما میگوید که به طور متوسط، نمرات هر دانشآموز حدود $ 2.04 $ نمره با میانگین $ 14.8 $ فاصله دارد.
<!-- باکس فرمول جمعبندی شده -->کاربرد عملی: مقایسهٔ دقت دو دستگاه در یک کارخانه
تصور کنید یک کارخانه تولید بستهبندی شکلات، وزن هر بسته را باید 100 گرم تنظیم کند. دو دستگاه مختلف برای پر کردن بستهها تست میشوند. از هر دستگاه 10 بسته به طور تصادفی انتخاب میکنیم (این 10 بسته را به عنوان جامعهٔ کوچک در نظر میگیریم). میانگین هر دو دستگاه دقیقاً 100 گرم است. اما انحراف معیار دستگاه اول $ \sigma = 1.2 $ و دستگاه دوم $ \sigma = 3.5 $ است. با وجود میانگین یکسان، دستگاه اول بسیار دقیقتر است زیرا انحراف معیار کمتری دارد، به این معنی که وزن بستهها به 100 گرم نزدیکتر است. انحراف معیار بزرگ دستگاه دوم نشان میدهد که بسیاری از بستهها یا خیلی سبکتر یا خیلی سنگینتر از مقدار استاندارد هستند و این برای کنترل کیفیت بسیار نامطلوب است. بنابراین، انحراف معیار ابزاری حیاتی در فرآیندهای صنعتی و تضمین کیفیت محسوب میشود.
چالشهای مفهومی در درک انحراف معیار
<!-- سوال اول -->چرا در فرمول انحراف معیار، اختلاف هر داده با میانگین را به توان دو میرسانیم؟
اگر انحرافها را بدون مربع کردن جمع میکردیم، انحرافات مثبت و منفی یکدیگر را خنثی میکردند و مجموع انحرافات از میانگین همیشه صفر میشد. مربع کردن، همهٔ انحرافات را به اعداد مثبت تبدیل میکند تا تأثیر آنها تجمعی شود. همچنین به انحرافات بزرگ وزن بیشتری میدهد (چون مربع یک عدد بزرگ، خیلی بزرگتر میشود) که این ویژگی برای حساستر کردن معیار به دادههای پرت مفید است.
تفاوت بین انحراف معیار جامعه ($ \sigma $) و انحراف معیار نمونه ($ s $) در چیست؟
انحراف معیار جامعه ($ \sigma $) زمانی استفاده میشود که ما به تمام اعضای جامعه دسترسی داریم (مانند نمرات یک کلاس ۳۰ نفری). اما اغلب، جامعه بسیار بزرگ است (مثل همهٔ مردم ایران) و ما فقط یک نمونه از آن را اندازه میگیریم. در این صورت، برای تخمین انحراف معیار جامعه از روی نمونه، مخرج فرمول را $ n-1 $ قرار میدهیم (نه $ n $) تا تخمین نااریبتری به دست آوریم. این انحراف معیار اصلاحشده را انحراف معیار نمونه مینامند و با $ s $ نشان میدهند.
دادههای پرت چگونه بر انحراف معیار تأثیر میگذارند؟
دادههای پرت (مقادیر بسیار دور از میانگین) تأثیر زیادی بر انحراف معیار دارند. زیرا اولاً اختلاف آنها با میانگین بزرگ است و ثانیاً این اختلاف در فرمول به توان دو میرسد که آن را بزرگتر هم میکند. برای مثال، در دادههای [10, 12, 11, 13, 100]، مقدار 100 یک دادهٔ پرت است. انحراف معیار این مجموعه به دلیل وجود این داده بسیار بزرگتر از حالتی خواهد بود که این داده را حذف کنیم. بنابراین، انحراف معیار نسبت به دادههای پرت حساس است و در صورت وجود آنها، ممکن است تصویر دقیقی از پراکندگی معمول دادهها نشان ندهد.
پاورقی
1 جامعه (Population): به مجموعهٔ کامل و تمام اعضای مورد نظر در یک مطالعه آماری گفته میشود، مانند تمام دانشآموزان یک مدرسه یا تمام ستارههای یک کهکشان.