آمار توصیفی: هنر خلاصهسازی و نمایش دادهها
شاخصهای گرایش مرکزی: نقطهی تعادل دادهها
شاخصهای گرایش مرکزی سعی دارند یک مقدار مشخص را به عنوان نمایندهی تمام دادهها معرفی کنند. این مقادیر به ما میگویند که «مرکز» دادهها کجاست و بیشتر دادهها حول چه مقداری جمع شدهاند. سه شاخص اصلی در این بخش عبارتند از میانگین، میانه و نما.میانگین1 (Mean): همان معدلی است که همه ما با آن آشنا هستیم. برای محاسبهی آن، کافی است همهی دادهها را با هم جمع کرده و بر تعداد آنها تقسیم کنیم. برای مثال، فرض کنید نمرات یک دانشآموز در 5 درس به صورت زیر باشد: 18, 15, 16, 20, 14. میانگین نمرات او برابر است با:
نما3 (Mode): مقداری است که بیشترین فراوانی را در بین دادهها دارد. اگر در یک کلاس، نمرات 10 دانشآموز به صورت 12, 15, 12, 17, 12, 14, 18, 12, 16, 15 باشد، نمرهی 12 چهار بار تکرار شده و بیش از بقیه دیده میشود. بنابراین نما برابر 12 است. یک مجموعه داده میتواند بیش از یک نما یا اصلاً نما نداشته باشد.
شاخصهای پراکندگی: میزان تغییرپذیری دادهها
صرف دانستن مرکز دادهها کافی نیست. برای مثال، دو کلاس میتوانند میانگین نمرهی یکسانی داشته باشند، اما یکی دانشآموزانی با نمرات بسیار نزدیک به هم و دیگری دانشآموزانی با نمرات بسیار پراکنده داشته باشد. شاخصهای پراکندگی میزان این تغییرپذیری را اندازه میگیرند.| شاخص پراکندگی | توضیح | مثال (اعداد 1, 3, 5, 7, 9) |
|---|---|---|
| دامنه4 (Range) | اختلاف بین بزرگترین و کوچکترین مقدار. | $ 9 - 1 = 8 $ |
| واریانس5 (Variance) | میانگین مجذور فاصلهی هر داده از میانگین. | $ 8 $ (برای جامعه) |
| انحراف معیار6 (Standard Deviation) | جذر واریانس. واحدی همسطح با دادهها دارد. | $ \sqrt{8} \approx 2.83 $ |
کاربرد عملی: مقایسهی عملکرد دو فروشنده
فرض کنید مدیر یک فروشگاه هستید و میخواهید عملکرد دو فروشنده را در 6 روز متوالی مقایسه کنید. تعداد فروش روزانه آنها به شرح زیر است:- فروشنده الف: 20, 18, 23, 19, 21, 19
- فروشنده ب: 5, 10, 30, 25, 15, 35
جدولها و نمودارها: مصورسازی دادهها
ارائهی دادهها در قالب جدول و نمودار، درک الگوها و روندها را بسیار سادهتر میکند. یکی از رایجترین روشها برای نمایش فراوانی دادهها، استفاده از جدول توزیع فراوانی7 است. به عنوان مثال، نمرات 20 دانشآموز در یک آزمون را در نظر بگیرید:| دستهی نمرات | فراوانی (تعداد دانشآموزان) | فراوانی نسبی (درصد) |
|---|---|---|
| 0 - 10 | 2 | 10% |
| 11 - 15 | 5 | 25% |
| 16 - 18 | 8 | 40% |
| 19 - 20 | 5 | 25% |
| جمع | 20 | 100% |
چالشهای مفهومی
چالش اول: اگر در دادهها یک مقدار خیلی بزرگ یا خیلی کوچک (دادهی پرت) وجود داشته باشد، کدام شاخص مرکزی بیشتر تحت تأثیر قرار میگیرد؟
پاسخ: میانگین بیشترین تأثیر را از دادههای پرت میپذیرد، چون در محاسبهی آن از تمام مقادیر استفاده میشود. میانه که بر اساس جایگاه دادهها تعیین میشود، در برابر دادههای پرت مقاوم است. به همین دلیل در مواردی مانند حقوق افراد در یک سازمان، معمولاً از میانه به جای میانگین استفاده میشود.
چالش دوم: آیا ممکن است میانگین یک مجموعه داده از همهی دادهها بزرگتر باشد؟
پاسخ: خیر، میانگین همیشه بین کوچکترین و بزرگترین مقدار دادهها قرار میگیرد. این یک ویژگی ریاضی میانگین است. میانگین یک نوع «معدل» است و نمیتواند از حداقل دادهها کمتر یا از حداکثر آنها بیشتر شود.
چالش سوم: واریانس و انحراف معیار هر دو پراکندگی را میسنجند. پس چرا هر دو را داریم؟
پاسخ: واریانس برای بسیاری از محاسبات آماری بعدی (مثل آمار استنباطی) کاربرد دارد. اما مشکل آن این است که واحدی مربع واحد دادهها دارد (مثلاً اگر دادهها «سانتیمتر» باشند، واریانس «سانتیمتر مربع» میشود) که تفسیر آن دشوار است. انحراف معیار با جذر گرفتن از واریانس، واحد را به واحد اصلی دادهها برمیگرداند و تفسیر آن به عنوان «میزان پراکندگی متوسط دادهها از میانگین» بسیار سادهتر است.
آمار توصیفی ابزاری قدرتمند برای تبدیل دادههای خام و آشفته به اطلاعاتی منظم و قابل فهم است. با استفاده از شاخصهای مرکزی (مانند میانگین، میانه و نما) مرکز ثقل دادهها را پیدا میکنیم و با کمک شاخصهای پراکندگی (مانند دامنه، واریانس و انحراف معیار) از میزان تغییرات و پایداری آنها آگاه میشویم. در نهایت، با بهرهگیری از جدولها و نمودارها، میتوانیم این اطلاعات را به شکلی جذاب و گویا به دیگران ارائه دهیم. به خاطر داشته باشیم که آمار توصیفی تنها به توصیف همان دادههایی که در اختیار داریم میپردازد و برای نتیجهگیری دربارهی جامعههای بزرگتر باید از آمار استنباطی کمک بگیریم.
پاورقی
1 میانگین (Mean): حاصل جمع همهی مقادیر تقسیم بر تعداد آنها.2 میانه (Median): مقداری که دادههای مرتب شده را به دو نیمهی مساوی تقسیم میکند.
3 نما (Mode): مقداری که بیشترین فراوانی را در یک مجموعه داده دارد.
4 دامنه (Range): اختلاف بین بزرگترین و کوچکترین مقدار در یک مجموعه داده.
5 واریانس (Variance): میانگین مجذور انحرافات هر داده از میانگین. معیاری برای سنجش پراکندگی.
6 انحراف معیار (Standard Deviation): جذر واریانس که پراکندگی دادهها را بر حسب واحد خود دادهها نشان میدهد.
7 جدول توزیع فراوانی (Frequency Distribution Table): جدولی که دادهها را به دستههایی تقسیم کرده و تعداد مشاهدات هر دسته را نشان میدهد.
8 نمودار جعبهای (Box Plot): نموداری که خلاصهای از دادهها شامل میانه، چارکها و دادههای پرت را نشان میدهد.