گاما رو نصب کن!

{{ number }}
اعلان ها
اعلان جدیدی وجود ندارد!
کاربر جدید

جستجو

پربازدیدها: #{{ tag.title }}

میتونی لایو بذاری!

چارک سوم (Q3): میانهٔ نیمهٔ دومِ داده‌های مرتب‌شده

بروزرسانی شده در: 11:59 1404/12/7 مشاهده: 11     دسته بندی: کپسول آموزشی

چارک سوم (Q3) : میانهٔ نیمهٔ دومِ داده‌های مرتب‌شده

آشنایی با مفهوم چارک سوم، نحوه محاسبه آن در داده‌های فرد و زوج، کاربردش در تحلیل آماری و نقش آن در محاسبه دامنه بین چارکی (IQR)
چارک سوم که با نماد Q3 نشان داده می‌شود، یکی از معیارهای کلیدی در آمار توصیفی است. این شاخص به عنوان میانه نیمه دوم داده‌ها تعریف می‌شود و به ما نشان می‌دهد که 75% از داده‌ها زیر چه مقداری قرار دارند. در این مقاله با زبانی ساده و همراه با مثال‌های گام‌به‌گام، روش محاسبه چارک سوم، تفاوت آن با سایر چارک‌ها و کاربرد عملی آن در تحلیل پراکندگی داده‌ها را بررسی می‌کنیم.

چارک سوم چیست؟ تعریف پایه‌ای با یک مثال ساده

برای درک مفهوم چارک سوم (Third Quartile) ابتدا باید با مفهوم کلی «چارک» آشنا شویم. چارک‌ها مقادیری هستند که یک مجموعه داده مرتب‌شده را به چهار قسمت مساوی تقسیم می‌کنند. به عبارت دیگر، داده‌ها پس از مرتب شدن از کوچک به بزرگ، به چهار بخش 25% تقسیم می‌شوند. در این تقسیم‌بندی:

  • Q1 (چارک اول) مقداری است که 25% داده‌ها از آن کمتر هستند.
  • Q2 (چارک دوم) همان میانه (Median) است و نشان می‌دهد 50% داده‌ها زیر آن قرار دارند.
  • Q3 (چارک سوم) مقداری است که 75% داده‌ها از آن کمتر و 25% داده‌ها از آن بیشتر هستند.

برای روشن شدن موضوع، فرض کنید نمرات یک امتحان ریاضی در کلاس 20 نفره به صورت زیر باشد (از قبل مرتب شده است):

10, 12, 13, 14, 15, 15, 16, 17, 17, 18, 18, 19, 19, 20, 20, 20, 20, 20, 20, 20

در این مجموعه، نمرات از 10 تا 20 هستند. چارک سوم نمره‌ای است که 75% از دانش‌آموزان نمره‌ای کمتر از آن کسب کرده‌اند. از آنجایی که 75% از 20 نفر برابر 15 نفر است، بنابراین چارک سوم نمره‌ای است که نفر 15ام و 16ام (به دلیل روش محاسبه خاص) در محدوده آن قرار می‌گیرند. با نگاه به داده‌ها، نمرات پانزدهم و شانزدهم هر دو عدد 20 هستند، بنابراین چارک سوم این مجموعه برابر 20 است. یعنی 75% دانش‌آموزان نمره‌ای کمتر از 20 گرفته‌اند.

نکته: توجه داشته باشید که چارک سوم یک «مقدار» است نه یک «عضو». در مثال بالا، 20 به عنوان چارک سوم معرفی شد، در حالی که چندین عضو با مقدار 20 در مجموعه وجود دارند. این کاملاً طبیعی است و نشان می‌دهد که چارک‌ها می‌توانند با یکی از مقادیر داده‌ها برابر باشند.

روش گام‌به‌گام محاسبه چارک سوم (Q3)

محاسبه چارک سوم بسته به اینکه تعداد داده‌ها فرد باشد یا زوج، روشی کمی متفاوت دارد. در هر دو حالت، اولین قدم مرتب کردن داده‌ها به صورت صعودی است. سپس موقعیت یا مقدار چارک سوم را تعیین می‌کنیم. دو روش رایج برای این کار وجود دارد: روش میانه‌یابی و روش درون‌یابی (میانگین‌گیری). در اینجا هر دو روش را با مثال توضیح می‌دهیم.

حالت اول: تعداد داده‌ها فرد است

فرض کنید داده‌های مرتب شده زیر را داریم که تعداد آنها فرد (n=9) است:

2, 5, 7, 8, 12, 15, 18, 21, 23
  • گام 1: میانه (Q2) را پیدا کنید. میانه داده شماره (n+1)/2 = (9+1)/2 = 5 است، یعنی عدد 12.
  • گام 2: داده‌ها را به دو نیمه تقسیم کنید. از آنجایی که تعداد داده‌ها فرد است، میانه را از هر دو نیمه حذف کنید.
    نیمه پایین (سمت چپ میانه): 2, 5, 7, 8
    نیمه بالا (سمت راست میانه): 15, 18, 21, 23
  • گام 3: چارک سوم (Q3) میانه نیمه بالا است. تعداد داده‌های نیمه بالا 4 عدد است (زوج). برای پیدا کردن میانه در داده‌های زوج، میانگین دو عدد وسط را حساب می‌کنیم.
    دو عدد وسط نیمه بالا: 18 و 21
    میانگین آنها: $ \frac{18 + 21}{2} = 19.5 $
  • نتیجه: چارک سوم (Q3) برای این داده‌ها برابر 19.5 است.

حالت دوم: تعداد داده‌ها زوج است

اکنون مجموعه داده‌ای با تعداد زوج (n=8) در نظر بگیرید:

1, 3, 4, 6, 7, 9, 11, 12
  • گام 1: میانه (Q2) را پیدا کنید. در داده‌های زوج، میانه میانگین دو عدد وسط است. دو عدد وسط داده‌ها 6 و 7 هستند.
    میانه: $ \frac{6 + 7}{2} = 6.5 $
  • گام 2: داده‌ها را به دو نیمه تقسیم کنید. در داده‌های زوج، میانه خود یک داده نیست، بنابراین کل داده‌ها به دو نیمه مساوی 4 تایی تقسیم می‌شوند.
    نیمه پایین (داده‌های قبل از میانه): 1, 3, 4, 6
    نیمه بالا (داده‌های بعد از میانه): 7, 9, 11, 12
  • گام 3: چارک سوم (Q3) میانه نیمه بالا است. تعداد داده‌های نیمه بالا 4 عدد است. میانه این نیمه میانگین دو عدد وسط آن یعنی 9 و 11 خواهد بود.
    میانگین آنها: $ \frac{9 + 11}{2} = 10 $
  • نتیجه: چارک سوم (Q3) برای این داده‌ها برابر 10 است.

کاربرد عملی چارک سوم در تحلیل داده‌های واقعی

چارک سوم به تنهایی اطلاعات مفیدی می‌دهد، اما معمولاً در کنار سایر چارک‌ها برای ترسیم تصویر کامل‌تری از توزیع داده‌ها استفاده می‌شود. یکی از مهمترین کاربردهای آن، محاسبه «دامنه بین چارکی»1 (IQR) است. IQR از تفریق چارک اول از چارک سوم به دست می‌آید: $ IQR = Q3 - Q1 $.

مثال کاربردی: فرض کنید مدیر یک فروشگاه اینترنتی هستید و می‌خواهید میزان رضایت مشتریان را از زمان تحویل کالا (بر حسب روز) بررسی کنید. داده‌های زمان تحویل برای 15 سفارش آخر به شرح زیر است (مرتب شده):

1, 2, 2, 3, 3, 3, 4, 4, 5, 5, 6, 7, 8, 9, 10
  • چارک اول (Q1): میانه نیمه پایین داده‌ها. میانه کل داده‌ها عدد 4 (داده هشتم) است. نیمه پایین: 1, 2, 2, 3, 3, 3, 4. میانه این نیمه (داده چهارم) عدد 3 است. بنابراین Q1 = 3.
  • چارک سوم (Q3): میانه نیمه بالای داده‌ها. نیمه بالا: 5, 5, 6, 7, 8, 9, 10. میانه این نیمه (داده چهارم) عدد 7 است. بنابراین Q3 = 7.
  • دامنه بین چارکی (IQR): $ IQR = Q3 - Q1 = 7 - 3 = 4 $ روز.

عدد 4 نشان می‌دهد که 50% میانی داده‌ها (از چارک اول تا سوم) در بازه‌ای به طول 4 روز پراکنده شده‌اند. هر چه این عدد کوچک‌تر باشد، تمرکز داده‌ها بیشتر و پراکندگی کمتر است. همچنین از IQR برای شناسایی داده‌های پرت استفاده می‌شود. معمولاً داده‌هایی که فاصله آنها از Q1 و Q3 بیشتر از 1.5 × IQR باشد، پرت محسوب می‌شوند. در این مثال، کران بالای داده‌های غیرپرت برابر است با: $ Q3 + 1.5 \times IQR = 7 + (1.5 \times 4) = 13 $. بنابراین داده 10 که نزدیک به این کران است، پرت نیست، اما اگر داده‌ای مثلاً 15 داشتیم، به عنوان داده پرت شناسایی می‌شد.

فرمول‌های کلیدی:
موقعیت چارک سوم (بر اساس روش وزنی): $ P_{75} = \frac{3(n+1)}{4} $ که در آن n تعداد داده‌هاست. اگر حاصل عددی مانند k به اضافه یک کسر (مثلاً 7.25) باشد، Q3 برابر است با: $ X_k + 0.25 \times (X_{k+1} - X_k) $.

مقایسه چارک سوم با سایر معیارهای مرکزی و پراکندگی

معیار آماری نماد تعریف ویژگی کلیدی
میانگین $\bar{x}$ مجموع داده‌ها تقسیم بر تعداد آنها حساس به داده‌های پرت
میانه (Q2) $Q_2$ مقدار وسط داده‌های مرتب شده مقاوم در برابر داده‌های پرت
چارک اول $Q_1$ میانه نیمه پایین داده‌ها مرز 25% داده‌ها
چارک سوم $Q_3$ میانه نیمه بالای داده‌ها مرز 75% داده‌ها
دامنه بین چارکی $IQR$ $Q_3 - Q_1$ پراکندگی 50% میانی داده‌ها

چالش‌های مفهومی

❓ چالش 1: اگر داده‌ها تعدادشان کم باشد، آیا محاسبه چارک سوم همچنان معنا دارد؟
پاسخ: بله، اما تفسیر آن باید با احتیاط بیشتری همراه باشد. در مجموعه‌های خیلی کوچک (مثلاً کمتر از 5 داده)، مفهوم 75% داده‌ها ممکن است با یک داده منطبق شود و چارک سوم بیشتر نقش یک داده خاص را ایفا کند تا یک مرز آماری. در این موارد، بهتر است به جای تکیه بر چارک‌ها، به خود داده‌ها نگاه کنیم. اما از نظر ریاضی، همیشه می‌توان موقعیت چارک سوم را محاسبه کرد.
❓ چالش 2: چرا گاهی اوقات چارک سوم با روش‌های مختلف، اعداد متفاوتی به دست می‌دهد؟
پاسخ: نرم‌افزارهای آماری و کتاب‌های درسی از روش‌های متفاوتی برای درون‌یابی (میانگین‌گیری) موقعیت چارک‌ها استفاده می‌کنند. برخی روش‌ها از فرمول $ \frac{n+1}{4} $ برای موقعیت چارک‌ها استفاده می‌کنند و برخی دیگر از $ \frac{n}{4} + 0.5 $ یا روش‌های وزنی دیگر. این تفاوت در روش‌ها به ویژه در داده‌های با حجم کم، می‌تواند منجر به نتایج کمی متفاوت شود. مهم این است که در یک تحلیل، از یک روش ثابت استفاده کنیم و روش خود را شفاف بیان کنیم.
❓ چالش 3: آیا چارک سوم همیشه بزرگتر از میانه است؟
پاسخ: بله، طبق تعریف، چارک سوم میانه نیمه بالای داده‌ها است، بنابراین همیشه از میانه (که مرز بین دو نیمه است) بزرگ‌تر یا مساوی خواهد بود. تساوی زمانی رخ می‌دهد که تعداد زیادی از داده‌ها در نیمه بالا و پایین مقدار یکسانی داشته باشند (مثلاً همه داده‌ها یکسان باشند).

پاورقی

1 چارک (Quartile): هر یک از سه مقدار (Q1، Q2، Q3) که مجموعه داده‌های مرتب شده را به چهار بخش مساوی تقسیم می‌کنند.
2 دامنه بین چارکی (Interquartile Range - IQR): معیاری برای سنجش پراکندگی آماری که برابر با اختلاف بین چارک سوم و چارک اول است و محدوده 50% میانی داده‌ها را نشان می‌دهد.
3 داده پرت (Outlier): داده‌ای که به طور قابل ملاحظه‌ای از سایر داده‌ها فاصله دارد و معمولاً بر اساس فاصله از چارک‌ها (بیشتر از 1.5 × IQR از چارک‌ها) شناسایی می‌شود.