خلاصهسازی دادهها: هنر فشردهسازی هوشمندانه اطلاعات
شاخصهای گرایش مرکزی: نقطه تمرکز دادهها
وقتی با یک مجموعه داده بزرگ روبرو هستیم، اولین سوالی که به ذهن میرسد این است: "مقدار معمولی یا مرکزی این دادهها چقدر است؟" برای پاسخ به این سوال از شاخصهای گرایش مرکزی استفاده میکنیم. این شاخصها مانند یک نماینده برای تمام دادهها عمل کرده و تصویری کلی از موقعیت دادهها ارائه میدهند. سه شاخص مهم در این دسته عبارتند از میانگین، میانه و نما.
میانگین (Mean) که معمولاً به عنوان معدل یا متوسط از آن یاد میشود، از جمع تمام دادهها و تقسیم آن بر تعداد دادهها به دست میآید. فرمول آن به صورت زیر است: $\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$ که در آن $\bar{x}$ میانگین، $x_i$ هر داده و $n$ تعداد دادههاست. میانگین به شدت تحت تأثیر دادههای پرت (مقادیر بسیار بزرگ یا کوچک) قرار میگیرد. برای مثال، اگر در دادههای حقوق یک شرکت، حقوق مدیرعامل بسیار بالا باشد، میانگین حقوق را بیش از حد واقعی نشان میدهد.
میانه (Median) مقدار وسطی است که دادهها را به دو نیمه مساوی تقسیم میکند. برای یافتن میانه، ابتدا دادهها را مرتب کرده و سپس مقدار وسطی را انتخاب میکنیم. اگر تعداد دادهها فرد باشد، میانه همان عدد وسط است. اگر زوج باشد، میانه میانگین دو عدد وسط خواهد بود. میانه در برابر دادههای پرت مقاوم است و تصویر بهتری از وضعیت "معمولی" دادهها ارائه میدهد. در مثال حقوق، میانه نشان میدهد که یک کارمند معمولی چقدر حقوق میگیرد.
نما (Mode) مقداری است که بیشترین فراوانی را در مجموعه دادهها دارد. یک مجموعه داده میتواند یک نما، چند نما یا حتی بدون نما باشد. نما به ویژه برای دادههای کیفی (مانند رنگ ماشینهای عبوری یا نام یک محصول) کاربرد دارد و مشخص میکند کدام دسته یا مقدار محبوبترین است.
شاخصهای پراکندگی: میزان نوسان دادهها
شاخصهای مرکزی به ما میگویند که دادهها حول چه مقداری متمرکز شدهاند، اما چیز زیادی درباره پخش یا پراکندگی آنها نمیگویند. دو مجموعه داده میتوانند میانگین یکسانی داشته باشند اما بسیار متفاوت باشند. برای مثال، میانگین دو کلاس 15 است اما یک کلاس همه نمرات بین 14 و 16 دارند و کلاس دیگر نمراتی مانند 5 و 20. شاخصهای پراکندگی این تفاوت را نشان میدهند.
مهمترین شاخصهای پراکندگی، واریانس و انحراف معیار هستند. واریانس (Variance)1 میانگین مجذور فاصله هر داده تا میانگین است. فرمول آن به این صورت است: $\sigma^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n}$ (برای جامعه) یا $s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$ (برای نمونه). اما چون واحد واریانس مربع واحد داده اصلی است، تفسیر آن کمی دشوار است.
برای حل این مشکل از انحراف معیار (Standard Deviation)2 استفاده میکنیم که دقیقاً جذر واریانس است ($\sigma = \sqrt{\sigma^2}$). انحراف معیار با واحدی مشابه داده اصلی است و به ما میگوید که دادهها به طور متوسط چقدر از میانگین فاصله دارند. هرچه انحراف معیار بزرگتر باشد، دادهها پراکندهتر هستند و هرچه کوچکتر باشد، دادهها به میانگین نزدیکترند.
| شاخص | نوع شاخص | کاربرد اصلی | مقاومت در برابر داده پرت |
|---|---|---|---|
| میانگین | گرایش مرکزی | محاسبه معدل، میانگین دما | ضعیف |
| میانه | گرایش مرکزی | حقوق کارمندان، قیمت مسکن | قوی |
| نما | گرایش مرکزی | محبوبترین محصول، پرتکرارترین سن | قوی |
| انحراف معیار | پراکندگی | کنترل کیفیت، ریسک سرمایهگذاری | ضعیف |
کاربرد عملی: چگونه از خلاصهسازی دادهها در زندگی روزمره استفاده کنیم؟
فرض کنید میخواهید برای خرید یک گوشی تلفن همراه اقدام کنید. با مراجعه به فروشگاههای اینترنتی با صدها مدل و هزاران نظر مواجه میشوید. بررسی تکتک نظرات غیرممکن است. در اینجاست که خلاصهسازی دادهها به کمک شما میآید. سایتهای فروش، میانگین امتیاز کاربران به یک محصول را محاسبه و نمایش میدهند (میانگین). اگر میانه را هم نشان دهند، میتوانید مطمئن شوید که امتیاز بالا تحت تأثیر تعداد کمی نظر 20 امتیازی نیست. همچنین، میتوانید ببینید بیشترین نظرات در مورد چه ویژگیای از گوشی است (نما). به این ترتیب با نگاه کردن به چند عدد ساده، تصویر خوبی از کیفیت محصول از دید کاربران به دست میآورید.
مثال دیگر، تحلیل یک سبد سهام در بورس است. یک سرمایهگذار تنها به میانگین بازدهی سهام خود نگاه نمیکند، بلکه حتماً به انحراف معیار آنها نیز توجه میکند. انحراف معیار بالا در اینجا به معنای نوسان و ریسک بیشتر است. بنابراین با استفاده از دو شاخص میانگین و انحراف معیار، سرمایهگذار میتواند درک نسبتاً کاملی از بازده مورد انتظار و ریسک سرمایهگذاری خود داشته باشد.