چارک اول (Q1): میانهٔ نیمهٔ اولِ دادههای مرتبشده
تعریف و جایگاه چارک اول در آمار توصیفی
در علم آمار، برای درک بهتر یک مجموعه داده، تنها دانستن میانگین کافی نیست. ما نیاز داریم بدانیم دادهها چگونه در اطراف مرکز پخش شدهاند. اینجا است که مفهوم چارکها1 وارد میشوند. چارکها، دادههای مرتبشده را به چهار بخش مساوی تقسیم میکنند. چارک اول (Q1) که به عنوان چارک پایینی نیز شناخته میشود، مرز بین 25% نخست و 75% بعدی دادهها است. به عبارت سادهتر، اگر تمام دادهها را از کوچک به بزرگ مرتب کنیم، چارک اول عددی است که حداقل 25% دادهها از آن کوچکتر یا مساوی و حداقل 75% دادهها از آن بزرگتر یا مساوی هستند.
برای درک بهتر، فرض کنید یک معلم نمرات امتحان ریاضی 20 دانشآموز را به صورت زیر ثبت کرده است:
| ردیف دانشآموز | نمره (از 20) | وضعیت (مرتبشده) |
|---|---|---|
| 1 | 8 | پایینترین |
| 2 | 10 | |
| 3 | 11 | |
| 4 | 12 | |
| 5 | 13 | |
| 6 | 14 | چارک اول (Q1) |
| 7 | 14 | |
| 8 | 15 | |
| 9 | 16 | |
| 10 | 16 | |
| 11 | 17 | |
| 12 | 18 | |
| 13 | 18 | |
| 14 | 19 | |
| 15 | 19 | |
| 16 | 20 |
در این مثال، Q1 برابر با 14 است. یعنی 25% از دانشآموزان (5 نفر) نمرهای کمتر یا مساوی 14 کسب کردهاند. این عدد به ما میگوید که مرز بین دانشآموزان ضعیفتر و بقیه کجاست.
روشهای گامبهگام محاسبه چارک اول
محاسبه چارک اول بسته به تعداد دادهها (فرد یا زوج) و روش آماری مورد استفاده، کمی متفاوت است. در اینجا دو روش رایج و ساده را با مثال بررسی میکنیم.
روش 1: استفاده از میانه (روش میانهای)
در این روش، ابتدا میانه کل دادهها (Q2) را پیدا میکنیم. سپس دادهها را به دو نیمه تقسیم میکنیم: نیمه پایینی (دادههای کوچکتر از میانه) و نیمه بالایی (دادههای بزرگتر از میانه). چارک اول، میانه نیمه پایینی دادهها است.
مثال اول: تعداد دادهها فرد است. مجموعه داده: {2, 5, 7, 9, 11, 14, 18}
- مرتبسازی: دادهها از قبل مرتب هستند.
- پیدا کردن میانه (Q2): داده شماره 4ام (9) میانه است. (n=7)
- نیمه پایینی: دادههای سمت چپ میانه یعنی {2, 5, 7}.
- میانه نیمه پایینی: داده وسط در این مجموعه، 5 است. بنابراین Q1 = 5.
مثال دوم: تعداد دادهها زوج است. مجموعه داده: {1, 3, 5, 7, 9, 11, 13, 15}
- مرتبسازی: دادهها از قبل مرتب هستند.
- پیدا کردن میانه (Q2): میانگین دو داده میانی ((7+9)/2 = 8) میانه است. (n=8)
- نیمه پایینی: دادههای سمت چپ میانه یعنی {1, 3, 5, 7}. (خود میانه را در هیچ یک از نیمهها قرار نمیدهیم.)
- میانه نیمه پایینی: برای مجموعه {1, 3, 5, 7} با 4 داده، میانه میانگین دو داده وسط (3 و 5) است: (3+5)/2 = 4. بنابراین Q1 = 4.
روش 2: استفاده از موقعیت (فرمول درونیابی)
در این روش، ابتدا موقعیت چارک اول را با فرمول زیر محاسبه کرده، سپس مقدار آن را پیدا میکنیم.
$ i = \frac{1}{4}(n+1) $
که در آن n تعداد کل دادهها است. اگر i عدد صحیحی باشد، Q1 برابر با داده iام است. در غیر این صورت، بین دو داده مجاور درونیابی خطی انجام میدهیم.
مثال: مجموعه داده {10, 22, 31, 45, 58, 62, 77} را در نظر بگیرید (n=7).
- موقعیت Q1: $ i = 0.25 \times (7+1) = 2 $
- چون i=2 یک عدد صحیح است، Q1 برابر با دومین داده در مجموعه مرتبشده است.
- داده دوم برابر 22 است. بنابراین Q1 = 22.
مقایسه چارک اول با سایر معیارهای مرکزی و پراکندگی
| معیار آماری | نماد | تعریف | حساسیت به دادههای پرت |
|---|---|---|---|
| میانگین | $\bar{x}$ | مجموع دادهها تقسیم بر تعداد آنها | زیاد |
| میانه (Q2) | $Q_2$ | مقدار وسط دادههای مرتبشده | کم |
| چارک اول (Q1) | $Q_1$ | میانه نیمه پایینی دادهها | کم |
| دامنه میانچارکی | $IQR$ | $Q_3 - Q_1$ | کم |
همانطور که مشاهده میکنید، چارک اول و به طور کلی چارکها، بر خلاف میانگین، تحت تأثیر مقادیر بسیار بزرگ یا بسیار کوچک (دادههای پرت) قرار نمیگیرند و تصویر مقاومتری از توزیع دادهها ارائه میدهند.
کاربرد عملی چارک اول در زندگی روزمره و علوم
چارک اول تنها یک مفهوم تئوری نیست، بلکه در بسیاری از زمینهها به طور عملی استفاده میشود. فرض کنید یک فروشنده اینترنتی هستید و میخواهید تحلیل کنید که مشتریان شما چقدر برای خرید هزینه میکنند.
فرض کنید هزینه خرید 100 مشتری اخیر را بر حسب هزار تومان به صورت زیر دارید (پس از مرتبسازی): 10, 12, 15, 17, 20, 22, ... , 250, 300. با محاسبه چارک اول متوجه میشوید که Q1 = 30 هزار تومان است. این یعنی 25% از مشتریان شما کمتر از 30 هزار تومان خرید کردهاند. شما میتوانید برای این گروه از مشتریان، پیشنهادات ویژه یا تخفیفهایی برای خریدهای بالای 30 هزار تومان طراحی کنید تا آنها را به خرید بیشتر ترغیب نمایید.
در علوم پزشکی، وقتی میگوییم "قد 25% از کودکان این منطقه کمتر از 120 سانتیمتر است"، در واقع از چارک اول برای تعیین حد پایینتر قد کودکان استفاده کردهایم. در حوزه آموزش، اگر چارک اول نمرات یک درس بسیار پایین باشد، به معلم هشدار میدهد که یک چهارم دانشآموزان در یادگیری مشکل جدی دارند و نیاز به توجه ویژه دارند.
چالشهای مفهومی
خیر. همانطور که در روش درونیابی دیدیم، اگر موقعیت چارک اول یک عدد اعشاری باشد (مثلاً i=3.25)، مقدار Q1 از طریق میانگینگیری وزنی بین دو داده به دست میآید و ممکن است عددی بین آنها باشد که در مجموعه دادهها وجود ندارد.
دادههای تکراری تأثیری در روش محاسبه ندارند. تمام دادهها (حتی مقادیر تکراری) در هنگام مرتبسازی نوشته میشوند. برای مثال مجموعه {2, 2, 3, 4, 4, 4, 5} دارای n=7 است. موقعیت Q1 برابر 2 بوده و داده دوم یعنی 2 به عنوان چارک اول در نظر گرفته میشود.
این تفاوت به دلیل وجود روشهای مختلف محاسبه چارکها (حداقل ۹ روش مختلف!) است. نرمافزارهای آماری مانند اکسل، SPSS و R ممکن است از روشهای متفاوتی استفاده کنند، به خصوص وقتی تعداد دادهها کم باشد. مهم این است که در یک تحلیل، از یک روش ثابت استفاده کنیم.
چارک اول (Q1) یک معیار آماری قدرتمند و مقاوم است که نقطه جدایی 25% پایینی دادهها از بقیه را نشان میدهد. برخلاف میانگین، تحت تأثیر دادههای پرت قرار نمیگیرد و تصویر دقیقتری از نحوه توزیع دادهها در بخش پایینی طیف ارائه میکند. با یادگیری روشهای محاسبه آن (چه با روش میانهای و چه با روش موقعیت) میتوانیم درک بهتری از دادههای خود در زمینههای مختلف مانند آموزش، اقتصاد، پزشکی و علوم اجتماعی داشته باشیم. این شاخص به همراه چارک سوم و میانه، ابزارهای اساسی برای تحلیل دادهها را تشکیل میدهند.
پاورقی
1 چارکها (Quartiles): مقادیری هستند که یک مجموعه داده مرتبشده را به چهار بخش مساوی تقسیم میکنند. سه چارک اصلی داریم: چارک اول (Q1)، چارک دوم (Q2 یا میانه) و چارک سوم (Q3).
2 میانه (Median): مقداری است که یک مجموعه داده مرتبشده را به دو نیمه مساوی تقسیم میکند. به عبارت دیگر، 50% دادهها از میانه کوچکتر و 50% بزرگتر هستند.
3 داده پرت (Outlier): دادهای است که به طور قابل توجهی از سایر دادهها فاصله دارد و میتواند محاسبات آماری مانند میانگین را تحت تأثیر قرار دهد.
4 دامنه میانچارکی (Interquartile Range - IQR): معیاری برای سنجش پراکندگی دادهها است که از تفاوت بین چارک سوم و چارک اول به دست میآید (IQR = Q3 - Q1) و نشاندهنده محدوده 50% میانی دادهها است.