واریانس: توان دوم انحراف معیار و نقش آن در سنجش پراکندگی
۱. واریانس چیست؟ تعریف و مفهوم اصلی
واریانس یکی از مهمترین سنجههای پراکندگی در آمار است. وقتی مجموعهای از دادهها داریم، معمولاً میانگین آنها را حساب میکنیم تا یک عدد معرف کل دادهها داشته باشیم. اما میانگین به تنهایی نمیگوید که دادهها چقدر از هم فاصله دارند یا چقدر حول این میانگین متمرکز شدهاند. اینجا است که واریانس وارد میشود. واریانس میانگین مجذور فاصله هر داده تا میانگین است. به زبان سادهتر، ابتدا اختلاف هر عدد را با میانگین حساب میکنیم، این اختلافها را به توان دو میرسانیم و سپس میانگین آنها را میگیریم. دلیل اینکه اختلافها را به توان دو میرسانیم، دو هدف اصلی دارد: اول اینکه علامت اختلافها (مثبت یا منفی) را از بین میبریم و همه مقادیر مثبت میشوند، و دوم اینکه به اختلافهای بزرگتر وزن بیشتری میدهیم. برای نمونه، فرض کنید نمرات سه دانشآموز در یک امتحان ساده به این صورت است: 18، 20 و 22. میانگین این نمرات 20 است. حالا اختلاف هر نمره از میانگین را حساب میکنیم: -2، 0 و +2. مجذور این اختلافها میشود: 4، 0 و 4. میانگین این اعداد برابر است با (4+0+4)/3 = 8/3 ≈ 2.67. بنابراین واریانس این مجموعه داده تقریباً 2.67 است.$ \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N} $
در این فرمول، $\sigma^2$ نماد واریانس، $x_i$ها مقادیر دادهها، $\mu$ میانگین جامعه و $N$ تعداد کل دادهها است.
۲. محاسبه گامبهگام واریانس برای دادههای ساده
برای درک بهتر، بیایید یک مثال عددی دیگر را با جزئیات کامل بررسی کنیم. فرض کنید در یک هفته، دمای هوای یک شهر (بر حسب درجه سلسیوس) به صورت زیر ثبت شده است:| روز هفته | شنبه | یکشنبه | دوشنبه | سهشنبه | چهارشنبه | پنجشنبه | جمعه |
|---|---|---|---|---|---|---|---|
| دما (سلسیوس) | 22 | 25 | 19 | 26 | 23 | 21 | 20 |
۳. تفاوت واریانس با انحراف معیار و ارتباط آنها
یکی از سوالات رایجی که برای دانشآموزان پیش میآید این است: اگر واریانس پراکندگی را نشان میدهد، پس انحراف معیار چیست و چه فرقی با آن دارد؟ پاسخ ساده است: انحراف معیار1 جذر واریانس است. اگر واریانس را با σ² نشان دهیم، انحراف معیار (σ) برابر است با جذر آن. چرا به انحراف معیار نیاز داریم؟ چون واحد انحراف معیار با خود دادهها یکی است. در مثال دمای هوا، واریانس 5.63 (درجهٔ مربع) بود، اما انحراف معیار برابر است با √5.63 ≈ 2.37 درجه سلسیوس. این عدد به ما میگوید که به طور میانگین، دمای هر روز حدود 2.37 درجه با میانگین هفتگی فاصله دارد. برای روشنتر شدن تفاوت، جدول زیر را ببینید:| ویژگی | واریانس (σ²) | انحراف معیار (σ) |
|---|---|---|
| تعریف | میانگین مجذور فاصلهها از میانگین | جذر واریانس، میانگین فاصله دادهها از میانگین |
| واحد اندازهگیری | مربع واحد داده (مثلاً cm²، یا درجه²) | همان واحد داده (مثلاً cm، درجه) |
| کاربرد اصلی | محاسبات آماری پیشرفته، تحلیل واریانس | تفسیر پراکندگی دادهها در واحد اصلی |
| حساسیت به دادههای پرت | بسیار زیاد (به دلیل مجذور کردن) | کمتر از واریانس |
۴. کاربرد عملی واریانس در زندگی روزمره
شاید فکر کنید واریانس فقط یک مفهوم خشک و بیکاربرد در کتابهای آمار است، اما واقعیت این است که ما در زندگی روزمره زیاد با آن سر و کار داریم، حتی بدون اینکه بدانیم. یک مثال ملموس: فرض کنید دو دانشآموز به نامهای علی و مریم در پنج امتحان ریاضی شرکت کردهاند. نمرات علی: 18, 17, 19, 18, 18 و نمرات مریم: 20, 15, 20, 15, 20. میانگین هر دو نفر 18 است. اگر فقط به میانگین نگاه کنیم، هر دو در یک سطح هستند. اما واریانس نمرات علی کم است (چون نمراتش نزدیک به هم و به میانگین نزدیک هستند) در حالی که واریانس نمرات مریم بالا است (چون نمراتش پراکندگی زیادی دارند). معلم با دیدن واریانس متوجه میشود که علی عملکردی ثابت و قابل پیشبینی داشته، در حالی که مریم گاهی عالی و گاهی ضعیف عمل کرده است. در صنعت و کنترل کیفیت، واریانس نقش حیاتی دارد. فرض کنید کارخانهای چیپس تولید میکند. وزن هر بسته چیپس نباید خیلی از وزن استاندارد 100 گرم دور شود. اگر واریانس وزن بستهها کم باشد، یعنی دستگاه به درستی کار میکند و همه بستهها تقریباً وزن یکسانی دارند. اما اگر واریانس بالا باشد، برخی بستهها خیلی سبک و برخی خیلی سنگین هستند که باعث نارضایتی مشتری یا ضرر کارخانه میشود. در هواشناسی نیز از واریانس استفاده میشود. برای مثال، واریانس دمای روزانه در یک منطقه کویری در طول سال بسیار بالاست (روزها بسیار گرم و شبها بسیار سرد)، در حالی که در یک منطقه نزدیک به دریا، واریانس دما پایینتر است.۵. چالشهای مفهومی
اگر اختلافها را بدون توان جمع کنیم، مجموع آنها همیشه صفر میشود (چون اختلافهای مثبت و منفی همدیگر را خنثی میکنند). با مجذور کردن، هم علامتها مثبت میشوند و هم به اختلافهای بزرگتر وزن بیشتری میدهیم تا پراکندگی واقعی بهتر نشان داده شود.
واریانس صفر است وقتی همه دادهها با هم برابر باشند. در این حالت، هیچ دادهای از میانگین فاصله ندارد، همه اختلافها صفر هستند و بنابراین واریانس نیز صفر خواهد بود. مثلاً اگر نمرات همه دانشآموزان 20 باشد، واریانس صفر است.
خیر، واریانس هرگز منفی نمیشود. چون حاصل جمع مجذور اعداد (که همیشه نامنفی هستند) تقسیم بر تعداد دادهها است. کوچکترین مقدار ممکن برای واریانس صفر است و هر چه دادهها پراکندهتر باشند، واریانس بزرگتر میشود.
پاورقی
1 واریانس (Variance): معیاری عددی برای نشان دادن میزان پراکندگی دادههای عددی حول میانگین. هر چه دادهها از میانگین دورتر باشند، واریانس بزرگتر است.2 انحراف معیار (Standard Deviation): معیاری برای سنجش پراکندگی دادهها که از جذر واریانس به دست میآید و واحدی مشابه دادههای اصلی دارد.
3 جامعه (Population): در آمار، به مجموعه تمام دادهها یا مشاهدات مورد نظر که میخواهیم درباره آنها تحقیق کنیم، جامعه گفته میشود.
4 نمونه (Sample): زیرمجموعهای از جامعه که برای صرفهجویی در زمان و هزینه مورد مطالعه قرار میگیرد. فرمول واریانس نمونه کمی با واریانس جامعه تفاوت دارد (تقسیم بر n-1 به جای n).