چارک سوم (Q3) : میانهٔ نیمهٔ دومِ دادههای مرتبشده
چارک سوم چیست؟ تعریف پایهای با یک مثال ساده
برای درک مفهوم چارک سوم (Third Quartile) ابتدا باید با مفهوم کلی «چارک» آشنا شویم. چارکها مقادیری هستند که یک مجموعه داده مرتبشده را به چهار قسمت مساوی تقسیم میکنند. به عبارت دیگر، دادهها پس از مرتب شدن از کوچک به بزرگ، به چهار بخش 25% تقسیم میشوند. در این تقسیمبندی:
- Q1 (چارک اول) مقداری است که 25% دادهها از آن کمتر هستند.
- Q2 (چارک دوم) همان میانه (Median) است و نشان میدهد 50% دادهها زیر آن قرار دارند.
- Q3 (چارک سوم) مقداری است که 75% دادهها از آن کمتر و 25% دادهها از آن بیشتر هستند.
برای روشن شدن موضوع، فرض کنید نمرات یک امتحان ریاضی در کلاس 20 نفره به صورت زیر باشد (از قبل مرتب شده است):
در این مجموعه، نمرات از 10 تا 20 هستند. چارک سوم نمرهای است که 75% از دانشآموزان نمرهای کمتر از آن کسب کردهاند. از آنجایی که 75% از 20 نفر برابر 15 نفر است، بنابراین چارک سوم نمرهای است که نفر 15ام و 16ام (به دلیل روش محاسبه خاص) در محدوده آن قرار میگیرند. با نگاه به دادهها، نمرات پانزدهم و شانزدهم هر دو عدد 20 هستند، بنابراین چارک سوم این مجموعه برابر 20 است. یعنی 75% دانشآموزان نمرهای کمتر از 20 گرفتهاند.
روش گامبهگام محاسبه چارک سوم (Q3)
محاسبه چارک سوم بسته به اینکه تعداد دادهها فرد باشد یا زوج، روشی کمی متفاوت دارد. در هر دو حالت، اولین قدم مرتب کردن دادهها به صورت صعودی است. سپس موقعیت یا مقدار چارک سوم را تعیین میکنیم. دو روش رایج برای این کار وجود دارد: روش میانهیابی و روش درونیابی (میانگینگیری). در اینجا هر دو روش را با مثال توضیح میدهیم.
حالت اول: تعداد دادهها فرد است
فرض کنید دادههای مرتب شده زیر را داریم که تعداد آنها فرد (n=9) است:
- گام 1: میانه (Q2) را پیدا کنید. میانه داده شماره (n+1)/2 = (9+1)/2 = 5 است، یعنی عدد 12.
- گام 2: دادهها را به دو نیمه تقسیم کنید. از آنجایی که تعداد دادهها فرد است، میانه را از هر دو نیمه حذف کنید.
نیمه پایین (سمت چپ میانه): 2, 5, 7, 8
نیمه بالا (سمت راست میانه): 15, 18, 21, 23 - گام 3: چارک سوم (Q3) میانه نیمه بالا است. تعداد دادههای نیمه بالا 4 عدد است (زوج). برای پیدا کردن میانه در دادههای زوج، میانگین دو عدد وسط را حساب میکنیم.
دو عدد وسط نیمه بالا: 18 و 21
میانگین آنها: $ \frac{18 + 21}{2} = 19.5 $ - نتیجه: چارک سوم (Q3) برای این دادهها برابر 19.5 است.
حالت دوم: تعداد دادهها زوج است
اکنون مجموعه دادهای با تعداد زوج (n=8) در نظر بگیرید:
- گام 1: میانه (Q2) را پیدا کنید. در دادههای زوج، میانه میانگین دو عدد وسط است. دو عدد وسط دادهها 6 و 7 هستند.
میانه: $ \frac{6 + 7}{2} = 6.5 $ - گام 2: دادهها را به دو نیمه تقسیم کنید. در دادههای زوج، میانه خود یک داده نیست، بنابراین کل دادهها به دو نیمه مساوی 4 تایی تقسیم میشوند.
نیمه پایین (دادههای قبل از میانه): 1, 3, 4, 6
نیمه بالا (دادههای بعد از میانه): 7, 9, 11, 12 - گام 3: چارک سوم (Q3) میانه نیمه بالا است. تعداد دادههای نیمه بالا 4 عدد است. میانه این نیمه میانگین دو عدد وسط آن یعنی 9 و 11 خواهد بود.
میانگین آنها: $ \frac{9 + 11}{2} = 10 $ - نتیجه: چارک سوم (Q3) برای این دادهها برابر 10 است.
کاربرد عملی چارک سوم در تحلیل دادههای واقعی
چارک سوم به تنهایی اطلاعات مفیدی میدهد، اما معمولاً در کنار سایر چارکها برای ترسیم تصویر کاملتری از توزیع دادهها استفاده میشود. یکی از مهمترین کاربردهای آن، محاسبه «دامنه بین چارکی»1 (IQR) است. IQR از تفریق چارک اول از چارک سوم به دست میآید: $ IQR = Q3 - Q1 $.
مثال کاربردی: فرض کنید مدیر یک فروشگاه اینترنتی هستید و میخواهید میزان رضایت مشتریان را از زمان تحویل کالا (بر حسب روز) بررسی کنید. دادههای زمان تحویل برای 15 سفارش آخر به شرح زیر است (مرتب شده):
- چارک اول (Q1): میانه نیمه پایین دادهها. میانه کل دادهها عدد 4 (داده هشتم) است. نیمه پایین: 1, 2, 2, 3, 3, 3, 4. میانه این نیمه (داده چهارم) عدد 3 است. بنابراین Q1 = 3.
- چارک سوم (Q3): میانه نیمه بالای دادهها. نیمه بالا: 5, 5, 6, 7, 8, 9, 10. میانه این نیمه (داده چهارم) عدد 7 است. بنابراین Q3 = 7.
- دامنه بین چارکی (IQR): $ IQR = Q3 - Q1 = 7 - 3 = 4 $ روز.
عدد 4 نشان میدهد که 50% میانی دادهها (از چارک اول تا سوم) در بازهای به طول 4 روز پراکنده شدهاند. هر چه این عدد کوچکتر باشد، تمرکز دادهها بیشتر و پراکندگی کمتر است. همچنین از IQR برای شناسایی دادههای پرت استفاده میشود. معمولاً دادههایی که فاصله آنها از Q1 و Q3 بیشتر از 1.5 × IQR باشد، پرت محسوب میشوند. در این مثال، کران بالای دادههای غیرپرت برابر است با: $ Q3 + 1.5 \times IQR = 7 + (1.5 \times 4) = 13 $. بنابراین داده 10 که نزدیک به این کران است، پرت نیست، اما اگر دادهای مثلاً 15 داشتیم، به عنوان داده پرت شناسایی میشد.
موقعیت چارک سوم (بر اساس روش وزنی): $ P_{75} = \frac{3(n+1)}{4} $ که در آن n تعداد دادههاست. اگر حاصل عددی مانند k به اضافه یک کسر (مثلاً 7.25) باشد، Q3 برابر است با: $ X_k + 0.25 \times (X_{k+1} - X_k) $.
مقایسه چارک سوم با سایر معیارهای مرکزی و پراکندگی
| معیار آماری | نماد | تعریف | ویژگی کلیدی |
|---|---|---|---|
| میانگین | $\bar{x}$ | مجموع دادهها تقسیم بر تعداد آنها | حساس به دادههای پرت |
| میانه (Q2) | $Q_2$ | مقدار وسط دادههای مرتب شده | مقاوم در برابر دادههای پرت |
| چارک اول | $Q_1$ | میانه نیمه پایین دادهها | مرز 25% دادهها |
| چارک سوم | $Q_3$ | میانه نیمه بالای دادهها | مرز 75% دادهها |
| دامنه بین چارکی | $IQR$ | $Q_3 - Q_1$ | پراکندگی 50% میانی دادهها |
چالشهای مفهومی
پاسخ: بله، اما تفسیر آن باید با احتیاط بیشتری همراه باشد. در مجموعههای خیلی کوچک (مثلاً کمتر از 5 داده)، مفهوم 75% دادهها ممکن است با یک داده منطبق شود و چارک سوم بیشتر نقش یک داده خاص را ایفا کند تا یک مرز آماری. در این موارد، بهتر است به جای تکیه بر چارکها، به خود دادهها نگاه کنیم. اما از نظر ریاضی، همیشه میتوان موقعیت چارک سوم را محاسبه کرد.
پاسخ: نرمافزارهای آماری و کتابهای درسی از روشهای متفاوتی برای درونیابی (میانگینگیری) موقعیت چارکها استفاده میکنند. برخی روشها از فرمول $ \frac{n+1}{4} $ برای موقعیت چارکها استفاده میکنند و برخی دیگر از $ \frac{n}{4} + 0.5 $ یا روشهای وزنی دیگر. این تفاوت در روشها به ویژه در دادههای با حجم کم، میتواند منجر به نتایج کمی متفاوت شود. مهم این است که در یک تحلیل، از یک روش ثابت استفاده کنیم و روش خود را شفاف بیان کنیم.
پاسخ: بله، طبق تعریف، چارک سوم میانه نیمه بالای دادهها است، بنابراین همیشه از میانه (که مرز بین دو نیمه است) بزرگتر یا مساوی خواهد بود. تساوی زمانی رخ میدهد که تعداد زیادی از دادهها در نیمه بالا و پایین مقدار یکسانی داشته باشند (مثلاً همه دادهها یکسان باشند).
پاورقی
2 دامنه بین چارکی (Interquartile Range - IQR): معیاری برای سنجش پراکندگی آماری که برابر با اختلاف بین چارک سوم و چارک اول است و محدوده 50% میانی دادهها را نشان میدهد.
3 داده پرت (Outlier): دادهای که به طور قابل ملاحظهای از سایر دادهها فاصله دارد و معمولاً بر اساس فاصله از چارکها (بیشتر از 1.5 × IQR از چارکها) شناسایی میشود.