معیار گرایش به مرکز: عددی که مرکز یا مقدار نمایندهٔ دادهها را نشان میدهد
میانگین: نقطهی تعادل دادهها
میانگین که بیشتر با نام «معدل» در مدرسه آن را میشناسیم، یکی از پرکاربردترین معیارهای گرایش به مرکز است. این معیار به سادگی از جمع تمام مقادیر دادهها و تقسیم آن بر تعداد دادهها به دست میآید. به عبارت دیگر، میانگین نقطهای است که اگر دادهها را روی یک ترازو تصور کنیم، همهی دادهها در آن نقطه به تعادل میرسند.
برای مثال، نمرات یک دانشآموز در ۵ درس به صورت زیر است: 18, 15, 20, 16, 14 . برای محاسبه میانگین نمرات او، ابتدا همه را جمع میکنیم: $ 18 + 15 + 20 + 16 + 14 = 83 $ و سپس حاصل را بر تعداد درسها یعنی $ 5 $ تقسیم میکنیم: $ \frac{83}{5} = 16.6 $ . بنابراین میانگین نمرات این دانشآموز 16.6 است.
اما میانگین همیشه بهترین گزینه نیست. وجود دادههای پرت یا خیلی بزرگ و خیلی کوچک میتواند میانگین را به سمت خود بکشاند و تصویر درستی از مرکز دادهها ارائه ندهد.
که در آن $ \bar{x} $ میانگین، $ x_i $ هر یک از دادهها، و $ n $ تعداد کل دادهها است.
میانه: مقدار دقیقاً وسط
میانه مقداری است که دادهها را پس از مرتبسازی به دو نیمهی مساوی تقسیم میکند. نیمی از دادهها از میانه کوچکتر و نیمی دیگر از آن بزرگتر هستند. برای پیدا کردن میانه، ابتدا باید دادهها را به ترتیب (از کوچک به بزرگ) مرتب کنیم.
اگر تعداد دادهها فرد باشد، میانه دقیقاً همان عدد وسطی است. اگر تعداد دادهها زوج باشد، میانه از میانگین دو عدد وسطی به دست میآید.
مثال فرد: نمرات 14, 15, 16, 18, 20 را در نظر بگیرید. دادهها مرتب هستند. تعداد دادهها $ 5 $ (فرد) است، بنابراین میانه سومین داده یعنی 16 میباشد.
مثال زوج: نمرات 14, 15, 16, 18, 20, 22 را در نظر بگیرید. تعداد دادهها $ 6 $ (زوج) است. دو عدد وسطی، سومین و چهارمین داده یعنی 16 و 18 هستند. میانه برابر میانگین این دو است: $ \frac{16 + 18}{2} = 17 $ .
میانه در برابر دادههای پرت مقاوم است. به همین دلیل در مواردی مانند بررسی درآمد خانوارها که ممکن است تعداد کمی درآمد بسیار بالا وجود داشته باشد، میانه شاخص بهتری نسبت به میانگین است.
نما: پرتکرارترین داده
نما سادهترین معیار گرایش به مرکز است. نما به مقداری گفته میشود که بیشترین فراوانی یا تکرار را در یک مجموعه داده داشته باشد. یک مجموعه داده میتواند یک نما (یکمودی)، بیش از یک نما (چندمودی) یا حتی هیچ نمایی نداشته باشد (اگر همهی مقادیر فقط یک بار تکرار شده باشند).
مثال: در نظرسنجی از یک کلاس ۲۰ نفره دربارهی رنگ مورد علاقهشان، نتایج به این صورت است: آبی، سبز، آبی، قرمز، آبی، سبز، زرد، آبی، بنفش، آبی، سبز، آبی، قرمز، آبی، سبز، آبی، زرد، آبی، آبی، سبز . با شمارش تکرارها میبینیم که رنگ آبی ۱۰ بار تکرار شده که از بقیه بیشتر است. بنابراین نما (مد) این مجموعه داده، رنگ آبی است.
کاربرد اصلی نما در دادههای کیفی (مانند رنگ، جنسیت، برند) است، جایی که نمیتوانیم میانگین یا میانه را محاسبه کنیم. نما به ما میگوید که رایجترین گزینه کدام است.
مقایسه و کاربرد عملی معیارها
انتخاب معیار مناسب به نوع داده و هدف ما بستگی دارد. جدول زیر خلاصهای از ویژگیها و موارد کاربرد هر یک را نشان میدهد.
| معیار | ویژگی اصلی | زمان استفاده | حساسیت به داده پرت |
|---|---|---|---|
| میانگین | تعادل ریاضی دادهها | دادههای عددی با توزیع متقارن | زیاد |
| میانه | مقدار وسط پس از مرتبسازی | دادههای عددی با توزیع نامتقارن یا دارای داده پرت | کم (مقاوم) |
| نما (مد) | پرتکرارترین مقدار | دادههای اسمی (کیفی) و مقداری | بسیار کم |
یک مثال عینی: فرض کنید در یک شرکت کوچک، حقوق ۵ کارمند به این شرح است: 12, 12, 14, 15, 100 (میلیون تومان). میانگین حقوق برابر $ (12+12+14+15+100)/5 = 30.6 $ میلیون تومان است. این عدد نمایندهی خوبی برای حقوق کارمندان نیست، زیرا بیشتر آنها کمتر از این مبلغ دریافت میکنند. اما میانه که داده مرتب 12, 12, 14, 15, 100 است، برابر 14 میلیون تومان میباشد که به واقعیت نزدیکتر است. همچنین نما (مد) این مجموعه، 12 میلیون تومان است که رایجترین حقوق را نشان میدهد.
چالشهای مفهومی
پاسخ: میانگین بیشترین تغییر را خواهد داشت، زیرا در محاسبه آن همهی دادهها شرکت دارند و تحت تأثیر مقدار جدید قرار میگیرد. میانه اگر داده جدید در یک سمت انتهایی باشد، ممکن است اصلاً تغییر نکند یا تغییر بسیار کمی کند. نما (مد) نیز اگر داده جدید تکراری نباشد، تغییری نمیکند.
پاسخ: از نما (مد). طعم بستنی یک دادهی کیفی است و نمیتوان برای آن میانگین یا میانه محاسبه کرد. نما به ما پرطرفدارترین طعم را نشان میدهد.
پاسخ: بله، در توزیعهای متقارن و یکنمایی (مثل توزیع نرمال)، میانگین و میانه تقریباً با هم برابر هستند. برای مثال در دادههای 2, 4, 6, 8, 10 ، میانگین $ 6 $ و میانه نیز $ 6 $ است.
معیارهای گرایش به مرکز شامل میانگین، میانه و نما، ابزارهای قدرتمندی برای خلاصهسازی و توصیف مجموعه دادهها هستند. هر یک از این معیارها نقاط قوت و ضعف خاص خود را دارند. میانگین برای دادههای متقارن مناسب است، میانه در برابر دادههای پرت مقاوم بوده و تصویر واقعیتری از مرکز ارائه میدهد، و نما تنها گزینه برای دادههای کیفی و شناسایی رایجترین مقدار است. انتخاب آگاهانهی هر یک از این معیارها بر اساس ماهیت داده و سوال مورد نظر، گامی اساسی در تحلیل آماری صحیح به شمار میرود.
پاورقی
1 میانگین (Mean): حاصل جمع تمام مقادیر دادهها تقسیم بر تعداد آنها.2 میانه (Median): مقداری که دادههای مرتبشده را به دو نیمه مساوی تقسیم میکند.
3 نما (Mode): مقداری که بیشترین فراوانی را در یک مجموعه داده دارد.
4 داده پرت (Outlier): دادهای که به طور قابل توجهی از سایر دادهها فاصله دارد.
5 توزیع متقارن (Symmetric Distribution): توزیعی که در آن دو نیمهی چپ و راست نمودار، تصویر آینهای یکدیگر باشند.