گاما رو نصب کن!

{{ number }}
اعلان ها
اعلان جدیدی وجود ندارد!
کاربر جدید

جستجو

پربازدیدها: #{{ tag.title }}

میتونی لایو بذاری!

چارک: عددی که داده‌های مرتب‌شده را به چهار بخش تقریباً مساوی تقسیم می‌کند.

بروزرسانی شده در: 11:38 1404/12/7 مشاهده: 11     دسته بندی: کپسول آموزشی

چارک‌ها: کلید درک توزیع داده‌ها در چهار بخش مساوی

آشنایی با چارک اول، دوم و سوم، نحوه محاسبه و کاربرد آن‌ها در تحلیل داده‌های روزمره
چارک‌ها (Quartiles) مقادیری هستند که یک مجموعه داده‌ی مرتب‌شده را به چهار بخش تقریباً مساوی تقسیم می‌کنند. با کمک چارک‌ها می‌توانیم پراکندگی داده‌ها را بهتر ببینیم، مقادیر پرت را تشخیص دهیم و دید عمیق‌تری نسبت به میانگین به دست آوریم. این مقاله به زبان ساده، روش محاسبه، تفسیر و کاربردهای عملی چارک‌ها را در موقعیت‌های واقعی توضیح می‌دهد.

چارک چیست؟ تعریف و مفاهیم پایه‌ای

وقتی مجموعه‌ای از داده‌ها را به ترتیب از کوچکترین به بزرگترین مرتب می‌کنیم، چارک‌ها نقاطی هستند که این داده‌ها را به چهار قسمت مساوی از نظر تعداد داده تقسیم می‌کنند. به عبارت دیگر، هر قسمت شامل ۲۵٪ از داده‌هاست. سه نقطه به نام‌های چارک اول، چارک دوم و چارک سوم وجود دارد:

  • چارک اول (Q1) که با آن آشنا می‌شویم، مقداری است که ۲۵٪ از داده‌ها از آن کمتر و ۷۵٪ از آن بیشتر هستند. به این مقدار، چارک پایینی یا صدک ۲۵ نیز می‌گویند.
  • چارک دوم (Q2) در واقع همان میانه (Median) است. این مقدار، داده‌ها را به دو بخش مساوی تقسیم می‌کند؛ ۵۰٪ داده‌ها کمتر از آن و ۵۰٪ بیشتر از آن هستند. به آن صدک ۵۰ هم می‌گویند.
  • چارک سوم (Q3) مقداری است که ۷۵٪ داده‌ها از آن کمتر و ۲۵٪ داده‌ها از آن بیشتر هستند. به این مقدار، چارک بالایی یا صدک ۷۵ گفته می‌شود.

برای درک بهتر، فرض کنید نمرات یک امتحان را از کمترین به بیشترین مرتب کرده‌ایم. چارک اول نشان‌دهنده‌ی نمره‌ای است که ۲۵٪ از دانش‌آموزان نمره‌ای کمتر از آن گرفته‌اند. چارک دوم نمره‌ای است که نیمی از دانش‌آموزان کمتر از آن و نیمی بیشتر از آن گرفته‌اند. چارک سوم نیز نمره‌ای است که ۷۵٪ دانش‌آموزان نمره‌ای کمتر از آن کسب کرده‌اند.

روش‌های محاسبه چارک‌ها به زبان ساده

برای محاسبه چارک‌ها، ابتدا باید داده‌ها را به صورت صعودی مرتب کنیم. سپس موقعیت یا اندیس هر چارک را پیدا می‌کنیم. دو روش رایج برای این کار وجود دارد که در ادامه با مثال توضیح می‌دهیم.

روش اول: استفاده از میانه‌ی نیمه‌ها

در این روش، ابتدا میانه (Q2) کل داده‌ها را پیدا می‌کنیم. سپس داده‌ها را به دو نیمه (پایینی و بالایی) تقسیم می‌کنیم. Q1 میانه‌ی نیمه‌ی پایینی داده‌ها و Q3 میانه‌ی نیمه‌ی بالایی داده‌ها خواهد بود. اگر تعداد داده‌ها فرد باشد، معمولاً خود میانه را در هیچ‌یک از نیمه‌ها قرار نمی‌دهیم.

مثال: نمرات ۱۰ دانش‌آموز: ۱۲, ۱۵, ۱۷, ۱۸, ۲۰, ۲۲, ۲۵, ۲۷, ۳۰, ۳۵

  • داده‌ها مرتب هستند. میانه (Q2) میانگین دو داده‌ی پنجم و ششم: (۲۰ + ۲۲) / ۲ = ۲۱
  • نیمه‌ی پایینی (داده‌های کمتر از میانه): ۱۲, ۱۵, ۱۷, ۱۸, ۲۰ → میانه‌ی این نیمه (Q1) داده‌ی سوم یعنی ۱۷
  • نیمه‌ی بالایی (داده‌های بیشتر از میانه): ۲۲, ۲۵, ۲۷, ۳۰, ۳۵ → میانه‌ی این نیمه (Q3) داده‌ی سوم یعنی ۲۷
فرمول موقعیت اگر موقعیت (اندیس) چارک را با فرمول $ Q_k = \frac{k(n+1)}{4} $ محاسبه کنیم ($k=1,2,3$ برای چارک‌های اول تا سوم و $n$ تعداد داده‌هاست)، اگر عدد به‌دست‌آده عدد صحیح نبود، بین دو داده‌ی اطراف درون‌یابی می‌کنیم. این روش دقیق‌تری است.

کاربرد عملی: تحلیل نمرات با استفاده از چارک‌ها

فرض کنید معلم یک کلاس هستید و می‌خواهید عملکرد دانش‌آموزان را در یک آزمون تحلیل کنید. نمرات ۲۰ دانش‌آموز به صورت زیر است: ۱۰, ۱۲, ۱۴, ۱۵, ۱۵, ۱۶, ۱۷, ۱۸, ۱۸, ۱۹, ۲۰, ۲۰, ۲۱, ۲۲, ۲۳, ۲۵, ۲۸, ۳۰, ۳۲, ۳۵

با محاسبه چارک‌ها می‌توانید بفهمید که ۲۵٪ پایین کلاس چه محدوده نمره‌ای دارند و شاید نیاز به کمک بیشتر دارند. همچنین ۲۵٪ برتر کلاس چه کسانی هستند. در این مثال:

  • Q1 حدوداً ۱۶ است. یعنی ۲۵٪ دانش‌آموزان نمره‌ای کمتر از ۱۶ گرفته‌اند.
  • Q2 (میانه) حدوداً ۱۹/۵ است. یعنی نیمی از کلاس نمره‌ای کمتر از ۱۹/۵ و نیمی بیشتر گرفته‌اند.
  • Q3 حدوداً ۲۴ است. یعنی ۷۵٪ دانش‌آموزان نمره‌ای کمتر از ۲۴ کسب کرده‌اند و ۲۵٪ باقی‌مانده نمره‌ای بالاتر از آن دارند.

با این اطلاعات، معلم می‌تواند دانش‌آموزانی را که در چارک اول هستند (کم‌نمره‌ترین‌ها) شناسایی کرده و برنامه‌ی تقویتی برای آن‌ها در نظر بگیرد.

مقایسه چارک‌ها با سایر معیارهای آماری

چارک‌ها اطلاعات بیشتری نسبت به میانگین به ما می‌دهند و در کنار آن برای درک بهتر توزیع داده‌ها استفاده می‌شوند. در جدول زیر، چارک‌ها را با سایر معیارها مقایسه می‌کنیم:

معیار آماری تعریف کاربرد اصلی مقاوم بودن در برابر داده‌ی پرت
میانگین مجموع داده‌ها تقسیم بر تعداد آن‌ها مرکزیت داده‌ها ضعیف
میانه (Q2) داده‌ی وسط پس از مرتب‌سازی مرکزیت مقاوم در برابر داده‌ی پرت قوی
چارک اول و سوم مرز‌های ۲۵٪ و ۷۵٪ داده‌ها تشخیص پراکندگی و داده‌های پرت قوی
دامنه بین چارکی (IQR) تفاوت Q3 و Q1 پراکندگی نیمه‌ی میانی داده‌ها قوی

چالش‌های مفهومی

❓ اگر به داده‌ها یک مقدار خیلی بزرگ اضافه کنیم، کدام چارک بیشتر تغییر می‌کند؟

پاسخ: چارک سوم (Q3) و به طور کلی چارک‌ها نسبت به میانگین در برابر داده‌های پرت مقاوم‌تر هستند، اما اگر داده‌ی پرت خیلی بزرگ به مجموعه اضافه شود، ممکن است Q3 کمی افزایش یابد، به خصوص اگر داده‌ی جدید در نیمه‌ی بالایی قرار گیرد. با این حال، تغییر آن بسیار کمتر از تغییری است که در میانگین رخ می‌دهد.

❓ آیا چارک‌ها فقط برای داده‌های عددی کاربرد دارند؟

پاسخ: بله، چارک‌ها برای داده‌های ترتیبی (ordinal) که بتوان آن‌ها را مرتب کرد، نیز قابل محاسبه هستند. مثلاً می‌توانیم چارک‌های سطوح تحصیلات (دیپلم، کارشناسی، کارشناسی ارشد، دکتری) را اگر بتوانیم برای آن‌ها کد عددی در نظر بگیریم، محاسبه کنیم، اما تفسیر آن ممکن است ساده نباشد. کاربرد اصلی چارک‌ها برای داده‌های کمی (interval/ratio) است.

❓ رابطه بین چارک‌ها و جعبه‌ای (Box Plot) چیست؟

پاسخ: نمودار جعبه‌ای (Box Plot) دقیقاً بر اساس چارک‌ها ساخته می‌شود. در این نمودار، یک جعبه از Q1 تا Q3 کشیده می‌شود که نشان‌دهنده‌ی دامنه بین چارکی (IQR) است. خطی در داخل جعبه، مکان Q2 (میانه) را نشان می‌دهد. همچنین خطوطی از جعبه به بیرون کشیده می‌شوند (سبیل‌ها) که معمولاً تا نقاطی به فاصله $ 1/5 \times IQR $ از چارک‌ها ادامه دارند و نقاط فراتر از آن به عنوان داده‌ی پرت در نظر گرفته می‌شوند.

? جمع‌بندی: چارک‌ها ابزارهایی قدرتمند و ساده برای درک عمیق‌تر از چگونگی پخش شدن داده‌ها هستند. آن‌ها با تقسیم داده‌های مرتب‌شده به چهار بخش مساوی، نقاط کلیدی توزیع را مشخص می‌کنند. برخلاف میانگین، چارک‌ها در برابر داده‌های پرت مقاوم بوده و تصویر واقعی‌تری از وضعیت داده‌ها، به ویژه در حضور مقادیر غیرعادی، ارائه می‌دهند. از تحلیل نمرات دانش‌آموزان تا بررسی درآمد در یک جامعه، چارک‌ها بینش‌های ارزشمندی فراهم می‌کنند که مقدمه‌ای برای تحلیل‌های آماری پیشرفته‌تر مانند دامنه بین چارکی (IQR) و نمودارهای جعبه‌ای است.

پاورقی

1 چارک (Quartile): هر یک از سه نقطه‌ای که یک مجموعه داده‌ی مرتب‌شده را به چهار بخش مساوی تقسیم می‌کند.

2 میانه (Median): مقداری که یک مجموعه داده‌ی مرتب‌شده را به دو بخش مساوی تقسیم می‌کند. همان چارک دوم است.

3 دامنه بین چارکی (Interquartile Range - IQR): معیاری برای پراکندگی که از تفریق چارک اول از چارک سوم به دست می‌آید و نشان‌دهنده‌ی محدوده‌ای است که ۵۰٪ میانی داده‌ها در آن قرار دارند.

4 داده‌ی پرت (Outlier): داده‌ای که به طور قابل توجهی از سایر داده‌ها فاصله دارد و می‌تواند تحلیل‌های آماری مانند میانگین را تحت تأثیر قرار دهد.