چارکها: کلید درک توزیع دادهها در چهار بخش مساوی
چارک چیست؟ تعریف و مفاهیم پایهای
وقتی مجموعهای از دادهها را به ترتیب از کوچکترین به بزرگترین مرتب میکنیم، چارکها نقاطی هستند که این دادهها را به چهار قسمت مساوی از نظر تعداد داده تقسیم میکنند. به عبارت دیگر، هر قسمت شامل ۲۵٪ از دادههاست. سه نقطه به نامهای چارک اول، چارک دوم و چارک سوم وجود دارد:
- چارک اول (Q1) که با آن آشنا میشویم، مقداری است که ۲۵٪ از دادهها از آن کمتر و ۷۵٪ از آن بیشتر هستند. به این مقدار، چارک پایینی یا صدک ۲۵ نیز میگویند.
- چارک دوم (Q2) در واقع همان میانه (Median) است. این مقدار، دادهها را به دو بخش مساوی تقسیم میکند؛ ۵۰٪ دادهها کمتر از آن و ۵۰٪ بیشتر از آن هستند. به آن صدک ۵۰ هم میگویند.
- چارک سوم (Q3) مقداری است که ۷۵٪ دادهها از آن کمتر و ۲۵٪ دادهها از آن بیشتر هستند. به این مقدار، چارک بالایی یا صدک ۷۵ گفته میشود.
برای درک بهتر، فرض کنید نمرات یک امتحان را از کمترین به بیشترین مرتب کردهایم. چارک اول نشاندهندهی نمرهای است که ۲۵٪ از دانشآموزان نمرهای کمتر از آن گرفتهاند. چارک دوم نمرهای است که نیمی از دانشآموزان کمتر از آن و نیمی بیشتر از آن گرفتهاند. چارک سوم نیز نمرهای است که ۷۵٪ دانشآموزان نمرهای کمتر از آن کسب کردهاند.
روشهای محاسبه چارکها به زبان ساده
برای محاسبه چارکها، ابتدا باید دادهها را به صورت صعودی مرتب کنیم. سپس موقعیت یا اندیس هر چارک را پیدا میکنیم. دو روش رایج برای این کار وجود دارد که در ادامه با مثال توضیح میدهیم.
روش اول: استفاده از میانهی نیمهها
در این روش، ابتدا میانه (Q2) کل دادهها را پیدا میکنیم. سپس دادهها را به دو نیمه (پایینی و بالایی) تقسیم میکنیم. Q1 میانهی نیمهی پایینی دادهها و Q3 میانهی نیمهی بالایی دادهها خواهد بود. اگر تعداد دادهها فرد باشد، معمولاً خود میانه را در هیچیک از نیمهها قرار نمیدهیم.
مثال: نمرات ۱۰ دانشآموز: ۱۲, ۱۵, ۱۷, ۱۸, ۲۰, ۲۲, ۲۵, ۲۷, ۳۰, ۳۵
- دادهها مرتب هستند. میانه (Q2) میانگین دو دادهی پنجم و ششم: (۲۰ + ۲۲) / ۲ = ۲۱
- نیمهی پایینی (دادههای کمتر از میانه): ۱۲, ۱۵, ۱۷, ۱۸, ۲۰ → میانهی این نیمه (Q1) دادهی سوم یعنی ۱۷
- نیمهی بالایی (دادههای بیشتر از میانه): ۲۲, ۲۵, ۲۷, ۳۰, ۳۵ → میانهی این نیمه (Q3) دادهی سوم یعنی ۲۷
کاربرد عملی: تحلیل نمرات با استفاده از چارکها
فرض کنید معلم یک کلاس هستید و میخواهید عملکرد دانشآموزان را در یک آزمون تحلیل کنید. نمرات ۲۰ دانشآموز به صورت زیر است: ۱۰, ۱۲, ۱۴, ۱۵, ۱۵, ۱۶, ۱۷, ۱۸, ۱۸, ۱۹, ۲۰, ۲۰, ۲۱, ۲۲, ۲۳, ۲۵, ۲۸, ۳۰, ۳۲, ۳۵
با محاسبه چارکها میتوانید بفهمید که ۲۵٪ پایین کلاس چه محدوده نمرهای دارند و شاید نیاز به کمک بیشتر دارند. همچنین ۲۵٪ برتر کلاس چه کسانی هستند. در این مثال:
- Q1 حدوداً ۱۶ است. یعنی ۲۵٪ دانشآموزان نمرهای کمتر از ۱۶ گرفتهاند.
- Q2 (میانه) حدوداً ۱۹/۵ است. یعنی نیمی از کلاس نمرهای کمتر از ۱۹/۵ و نیمی بیشتر گرفتهاند.
- Q3 حدوداً ۲۴ است. یعنی ۷۵٪ دانشآموزان نمرهای کمتر از ۲۴ کسب کردهاند و ۲۵٪ باقیمانده نمرهای بالاتر از آن دارند.
با این اطلاعات، معلم میتواند دانشآموزانی را که در چارک اول هستند (کمنمرهترینها) شناسایی کرده و برنامهی تقویتی برای آنها در نظر بگیرد.
مقایسه چارکها با سایر معیارهای آماری
چارکها اطلاعات بیشتری نسبت به میانگین به ما میدهند و در کنار آن برای درک بهتر توزیع دادهها استفاده میشوند. در جدول زیر، چارکها را با سایر معیارها مقایسه میکنیم:
| معیار آماری | تعریف | کاربرد اصلی | مقاوم بودن در برابر دادهی پرت |
|---|---|---|---|
| میانگین | مجموع دادهها تقسیم بر تعداد آنها | مرکزیت دادهها | ضعیف |
| میانه (Q2) | دادهی وسط پس از مرتبسازی | مرکزیت مقاوم در برابر دادهی پرت | قوی |
| چارک اول و سوم | مرزهای ۲۵٪ و ۷۵٪ دادهها | تشخیص پراکندگی و دادههای پرت | قوی |
| دامنه بین چارکی (IQR) | تفاوت Q3 و Q1 | پراکندگی نیمهی میانی دادهها | قوی |
چالشهای مفهومی
❓ اگر به دادهها یک مقدار خیلی بزرگ اضافه کنیم، کدام چارک بیشتر تغییر میکند؟
پاسخ: چارک سوم (Q3) و به طور کلی چارکها نسبت به میانگین در برابر دادههای پرت مقاومتر هستند، اما اگر دادهی پرت خیلی بزرگ به مجموعه اضافه شود، ممکن است Q3 کمی افزایش یابد، به خصوص اگر دادهی جدید در نیمهی بالایی قرار گیرد. با این حال، تغییر آن بسیار کمتر از تغییری است که در میانگین رخ میدهد.
❓ آیا چارکها فقط برای دادههای عددی کاربرد دارند؟
پاسخ: بله، چارکها برای دادههای ترتیبی (ordinal) که بتوان آنها را مرتب کرد، نیز قابل محاسبه هستند. مثلاً میتوانیم چارکهای سطوح تحصیلات (دیپلم، کارشناسی، کارشناسی ارشد، دکتری) را اگر بتوانیم برای آنها کد عددی در نظر بگیریم، محاسبه کنیم، اما تفسیر آن ممکن است ساده نباشد. کاربرد اصلی چارکها برای دادههای کمی (interval/ratio) است.
❓ رابطه بین چارکها و جعبهای (Box Plot) چیست؟
پاسخ: نمودار جعبهای (Box Plot) دقیقاً بر اساس چارکها ساخته میشود. در این نمودار، یک جعبه از Q1 تا Q3 کشیده میشود که نشاندهندهی دامنه بین چارکی (IQR) است. خطی در داخل جعبه، مکان Q2 (میانه) را نشان میدهد. همچنین خطوطی از جعبه به بیرون کشیده میشوند (سبیلها) که معمولاً تا نقاطی به فاصله $ 1/5 \times IQR $ از چارکها ادامه دارند و نقاط فراتر از آن به عنوان دادهی پرت در نظر گرفته میشوند.
پاورقی
1 چارک (Quartile): هر یک از سه نقطهای که یک مجموعه دادهی مرتبشده را به چهار بخش مساوی تقسیم میکند.
2 میانه (Median): مقداری که یک مجموعه دادهی مرتبشده را به دو بخش مساوی تقسیم میکند. همان چارک دوم است.
3 دامنه بین چارکی (Interquartile Range - IQR): معیاری برای پراکندگی که از تفریق چارک اول از چارک سوم به دست میآید و نشاندهندهی محدودهای است که ۵۰٪ میانی دادهها در آن قرار دارند.
4 دادهی پرت (Outlier): دادهای که به طور قابل توجهی از سایر دادهها فاصله دارد و میتواند تحلیلهای آماری مانند میانگین را تحت تأثیر قرار دهد.