نمایش و توصیف دادهها: از اعداد خام تا بینش روشن
جدولها: اولین گام در سازماندهی دادهها
وقتی با یک سری داده روبهرو میشویم، اولین و سادهترین کار برای نظم بخشیدن به آنها، قرار دادنشان در یک جدول است. جدول به ما امکان میدهد دادهها را به صورت سطر و ستون ببینیم و مقایسهها را آسانتر کند. تصور کنید نتیجه یک امتحان ریاضی از 20 دانشآموز را داریم. جدول زیر نمرات این دانشآموزان را نشان میدهد:
| شماره دانشآموز | نمره (از 20) |
|---|---|
| 1 | 15 |
| 2 | 18 |
| 3 | 12 |
| 4 | 16 |
| 5 | 7 |
| 6 | 19 |
| 7 | 14 |
| 8 | 10 |
| 9 | 17 |
| 10 | 20 |
همانطور که میبینید، جدول به ما دید بهتری از محدوده نمرات میدهد، اما هنوز برای نتیجهگیری سریع کافی نیست. مثلاً نمیتوانیم به راحتی بگوییم عملکرد کلی کلاس چطور بوده است. برای این کار به سراغ نمودارها و شاخصهای توصیفی میرویم.
نمودارها: ارتباط تصویری با دادهها
نمودارها، دادههای خام جدول را به زبان تصویر ترجمه میکنند و درک الگوها، روندها و مقایسهها را بسیار سریعتر میکنند. انتخاب نوع نمودار به هدف ما و نوع دادهها بستگی دارد. در ادامه با سه نوع پرکاربرد آشنا میشویم.
نمودار میلهای برای مقایسه مقادیر دستههای مختلف عالی است. برای مثال، اگر بخواهیم نمرات دانشآموزان را با هم مقایسه کنیم، نمودار میلهای انتخاب مناسبی است.
نمودار خطی بهترین گزینه برای نمایش تغییرات یک پدیده در طول زمان است. مثلاً تغییرات دمای هوای یک شهر در طول یک هفته.
نمودار دایرهای سهم هر بخش از یک کل را نشان میدهد. فرض کنید میخواهیم بدانیم چه درصدی از دانشآموزان نمرههای عالی (18-20)، خوب (15-17)، متوسط (12-14) و ضعیف (زیر 12) گرفتهاند. نمودار دایرهای این توزیع را به خوبی نمایش میدهد.
شاخصهای مرکزی: نقطه ثقل دادهها
شاخصهای مرکزی1 به ما میگویند که «مرکز» دادهها کجاست و دادهها حول چه مقداری جمع شدهاند. مهمترین این شاخصها عبارتند از:
- میانگین2: همان معدل گیری است که همه با آن آشنا هستیم. برای محاسبه آن، همه دادهها را با هم جمع کرده و بر تعدادشان تقسیم میکنیم. فرمول آن به صورت زیر است:
$\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$
که در آن $x_i$ها مقادیر داده و $n$ تعداد دادههاست. برای دادههای نمرات بالا، میانگین حدود 14.8 میشود.
- میانه3: مقداری است که دادههای مرتب شده را به دو نیمه مساوی تقسیم میکند. نصف دادهها از میانه بزرگتر و نصف دیگر از آن کوچکتر هستند. برای دادههای نمرات، اگر آنها را مرتب کنیم (مثلاً 7,10,12,14,15,16,17,18,19,20)، میانه بین دو داده میانی یعنی 15 و 16 است که میتوانیم 15.5 را به عنوان میانه در نظر بگیریم. میانه تحت تأثیر دادههای خیلی بزرگ یا خیلی کوچک (دادههای پرت) قرار نمیگیرد.
- مد4: پرتکرارترین مقدار در مجموعه دادههاست. در دادههای ما، اگر نمرهای تکرار نشده باشد، میگوییم مجموعه مد ندارد یا میتوان گفت همه مقادیر مد هستند.
شاخصهای پراکندگی: میزان گستردگی دادهها
شاخصهای مرکزی به ما تصویر کاملی نمیدهند. برای مثال، دو کلاس میتوانند میانگین نمره یکسانی داشته باشند، اما یک کلاس همه دانشآموزان با نمرات نزدیک به هم داشته باشد و کلاس دیگر، نمرات بسیار پراکنده (تعدادی خیلی ضعیف و تعدادی خیلی قوی). شاخصهای پراکندگی5 این تفاوت را نشان میدهند.
- دامنه تغییرات6: سادهترین شاخص پراکندگی است و از تفاوت بزرگترین و کوچکترین داده به دست میآید. در مثال ما: 20 - 7 = 13.
- واریانس و انحراف معیار7: این دو شاخص، پراکندگی دادهها را نسبت به میانگین میسنجند. اگر دادهها به میانگین نزدیک باشند، واریانس و انحراف معیار کوچک و اگر پراکنده باشند، بزرگ خواهد بود. فرمول واریانس برای یک نمونه به صورت زیر است:
$s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$
و انحراف معیار $s$ جذر واریانس است. واحد انحراف معیار با واحد داده اصلی یکسان است و تفسیر آن راحتتر است.
مقایسه کاربرد شاخصها
برای درک بهتر تفاوت کاربرد شاخصهای مرکزی و پراکندگی، به جدول زیر توجه کنید:
| شاخص | نوع | مفهوم کلیدی | حساسیت به داده پرت |
|---|---|---|---|
| میانگین | مرکزی | تعادل عددی دادهها | زیاد |
| میانه | مرکزی | مرز میانی دادهها | کم |
| انحراف معیار | پراکندگی | میانگین فاصله دادهها از میانگین | زیاد |
| دامنه | پراکندگی | فاصله بین کوچکترین و بزرگترین داده | زیاد |
چالشهای مفهومی
❓ اگر در دادهها یک مقدار خیلی بزرگ یا خیلی کوچک (داده پرت) وجود داشته باشد، کدام شاخص مرکزی بهتر است؟
✅ در این شرایط، استفاده از میانه بهتر از میانگین است. چون میانه تحت تأثیر دادههای پرت قرار نمیگیرد و تصویر واقعیتری از مرکز دادهها ارائه میدهد. برای مثال، اگر درآمد افراد یک محله را در نظر بگیریم که اکثراً درآمد متوسطی دارند اما یک نفر درآمد نجومی دارد، میانگین درآمد را بالا نشان میدهد و تصویر غلطی از وضعیت اقتصادی محله میدهد، در حالی که میانه اینطور نیست.
❓ آیا ممکن است دو مجموعه داده، میانگین و میانه یکسان داشته باشند اما کاملاً متفاوت باشند؟
✅ بله، قطعاً. اینجا اهمیت شاخصهای پراکندگی مشخص میشود. دو مجموعه داده میتوانند میانگین و میانه یکسانی داشته باشند، اما یکی بسیار فشرده (مقادیر نزدیک به میانگین) و دیگری بسیار پراکنده (مقادیر دور از میانگین) باشد. شاخصهایی مانند انحراف معیار این تفاوت را به خوبی نشان میدهند.
❓ چه زمانی استفاده از نمودار دایرهای گمراهکننده است؟
✅ وقتی تعداد دستهها زیاد باشد (مثلاً بیش از 5 یا 6 دسته)، خواندن و مقایسه قسمتهای کوچک نمودار دایرهای سخت میشود. همچنین اگر سهم دستهها به هم نزدیک باشد، تشخیص تفاوت آنها با این نمودار دشوار است. در این موارد، نمودار میلهای انتخاب بهتری است.
پاورقی
1 شاخصهای مرکزی (Measures of Central Tendency): مقادیری هستند که تمایل دادهها را برای متمرکز شدن حول یک نقطه نشان میدهند.
2 میانگین (Mean): حاصل جمع تمام مقادیر تقسیم بر تعداد آنها.
3 میانه (Median): مقداری که دادههای مرتب شده را به دو نیمه مساوی تقسیم میکند.
4 مد (Mode): مقداری که بیشترین فراوانی را در یک مجموعه داده دارد.
5 شاخصهای پراکندگی (Measures of Dispersion): مقادیری که میزان تفاوت و گستردگی دادهها را نشان میدهند.
6 دامنه تغییرات (Range): اختلاف بین بزرگترین و کوچکترین مقدار در یک مجموعه داده.
7 انحراف معیار (Standard Deviation): معیاری برای سنجش میزان پراکندگی دادهها از میانگین. جذر واریانس است.