گاما رو نصب کن!

{{ number }}
اعلان ها
اعلان جدیدی وجود ندارد!
کاربر جدید

جستجو

پربازدیدها: #{{ tag.title }}

میتونی لایو بذاری!

چارک اول (Q1): میانهٔ نیمهٔ اولِ داده‌های مرتب‌شده

بروزرسانی شده در: 11:45 1404/12/7 مشاهده: 7     دسته بندی: کپسول آموزشی

چارک اول (Q1): میانهٔ نیمهٔ اولِ داده‌های مرتب‌شده

آشنایی با مفهوم چارک اول به عنوان یکی از کلیدی‌ترین شاخص‌های آماری برای درک پراکندگی و تمرکز داده‌ها
چارک اول (Q1) نقطه‌ای در یک مجموعه داده‌های مرتب‌شده است که دقیقاً 25% از داده‌ها در سمت چپ آن و 75% باقی‌مانده در سمت راست آن قرار می‌گیرند. این شاخص به همراه چارک دوم (میانه) و چارک سوم، نمای کاملی از نحوه توزیع داده‌ها در اختیار ما می‌گذارد. در این مقاله با روش محاسبه، تفسیر و کاربردهای عملی چارک اول در موقعیت‌های روزمره و علمی آشنا خواهیم شد.

تعریف و جایگاه چارک اول در آمار توصیفی

در علم آمار، برای درک بهتر یک مجموعه داده، تنها دانستن میانگین کافی نیست. ما نیاز داریم بدانیم داده‌ها چگونه در اطراف مرکز پخش شده‌اند. اینجا است که مفهوم چارک‌ها1 وارد می‌شوند. چارک‌ها، داده‌های مرتب‌شده را به چهار بخش مساوی تقسیم می‌کنند. چارک اول (Q1) که به عنوان چارک پایینی نیز شناخته می‌شود، مرز بین 25% نخست و 75% بعدی داده‌ها است. به عبارت ساده‌تر، اگر تمام داده‌ها را از کوچک به بزرگ مرتب کنیم، چارک اول عددی است که حداقل 25% داده‌ها از آن کوچک‌تر یا مساوی و حداقل 75% داده‌ها از آن بزرگ‌تر یا مساوی هستند.

برای درک بهتر، فرض کنید یک معلم نمرات امتحان ریاضی 20 دانش‌آموز را به صورت زیر ثبت کرده است:

ردیف دانش‌آموز نمره (از 20) وضعیت (مرتب‌شده)
1 8 پایین‌ترین
2 10
3 11
4 12
5 13
6 14 چارک اول (Q1)
7 14
8 15
9 16
10 16
11 17
12 18
13 18
14 19
15 19
16 20

در این مثال، Q1 برابر با 14 است. یعنی 25% از دانش‌آموزان (5 نفر) نمره‌ای کمتر یا مساوی 14 کسب کرده‌اند. این عدد به ما می‌گوید که مرز بین دانش‌آموزان ضعیف‌تر و بقیه کجاست.

نکته مهم چارک اول با صدک 25ام (P25) برابر است. همچنین در نمودار جعبه‌ای (Box Plot)، چارک اول نمایانگر لبه سمت چپ جعبه است.

روش‌های گام‌به‌گام محاسبه چارک اول

محاسبه چارک اول بسته به تعداد داده‌ها (فرد یا زوج) و روش آماری مورد استفاده، کمی متفاوت است. در اینجا دو روش رایج و ساده را با مثال بررسی می‌کنیم.

روش 1: استفاده از میانه (روش میانه‌ای)

در این روش، ابتدا میانه کل داده‌ها (Q2) را پیدا می‌کنیم. سپس داده‌ها را به دو نیمه تقسیم می‌کنیم: نیمه پایینی (داده‌های کوچک‌تر از میانه) و نیمه بالایی (داده‌های بزرگ‌تر از میانه). چارک اول، میانه نیمه پایینی داده‌ها است.

مثال اول: تعداد داده‌ها فرد است. مجموعه داده: {2, 5, 7, 9, 11, 14, 18}

  • مرتب‌سازی: داده‌ها از قبل مرتب هستند.
  • پیدا کردن میانه (Q2): داده شماره 4ام (9) میانه است. (n=7)
  • نیمه پایینی: داده‌های سمت چپ میانه یعنی {2, 5, 7}.
  • میانه نیمه پایینی: داده وسط در این مجموعه، 5 است. بنابراین Q1 = 5.

مثال دوم: تعداد داده‌ها زوج است. مجموعه داده: {1, 3, 5, 7, 9, 11, 13, 15}

  • مرتب‌سازی: داده‌ها از قبل مرتب هستند.
  • پیدا کردن میانه (Q2): میانگین دو داده میانی ((7+9)/2 = 8) میانه است. (n=8)
  • نیمه پایینی: داده‌های سمت چپ میانه یعنی {1, 3, 5, 7}. (خود میانه را در هیچ یک از نیمه‌ها قرار نمی‌دهیم.)
  • میانه نیمه پایینی: برای مجموعه {1, 3, 5, 7} با 4 داده، میانه میانگین دو داده وسط (3 و 5) است: (3+5)/2 = 4. بنابراین Q1 = 4.

روش 2: استفاده از موقعیت (فرمول درون‌یابی)

در این روش، ابتدا موقعیت چارک اول را با فرمول زیر محاسبه کرده، سپس مقدار آن را پیدا می‌کنیم.

فرمول موقعیت چارک اول:
$ i = \frac{1}{4}(n+1) $
که در آن n تعداد کل داده‌ها است. اگر i عدد صحیحی باشد، Q1 برابر با داده iام است. در غیر این صورت، بین دو داده مجاور درون‌یابی خطی انجام می‌دهیم.

مثال: مجموعه داده {10, 22, 31, 45, 58, 62, 77} را در نظر بگیرید (n=7).

  • موقعیت Q1: $ i = 0.25 \times (7+1) = 2 $
  • چون i=2 یک عدد صحیح است، Q1 برابر با دومین داده در مجموعه مرتب‌شده است.
  • داده دوم برابر 22 است. بنابراین Q1 = 22.

مقایسه چارک اول با سایر معیارهای مرکزی و پراکندگی

معیار آماری نماد تعریف حساسیت به داده‌های پرت
میانگین $\bar{x}$ مجموع داده‌ها تقسیم بر تعداد آنها زیاد
میانه (Q2) $Q_2$ مقدار وسط داده‌های مرتب‌شده کم
چارک اول (Q1) $Q_1$ میانه نیمه پایینی داده‌ها کم
دامنه میان‌چارکی $IQR$ $Q_3 - Q_1$ کم

همانطور که مشاهده می‌کنید، چارک اول و به طور کلی چارک‌ها، بر خلاف میانگین، تحت تأثیر مقادیر بسیار بزرگ یا بسیار کوچک (داده‌های پرت) قرار نمی‌گیرند و تصویر مقاوم‌تری از توزیع داده‌ها ارائه می‌دهند.

کاربرد عملی چارک اول در زندگی روزمره و علوم

چارک اول تنها یک مفهوم تئوری نیست، بلکه در بسیاری از زمینه‌ها به طور عملی استفاده می‌شود. فرض کنید یک فروشنده اینترنتی هستید و می‌خواهید تحلیل کنید که مشتریان شما چقدر برای خرید هزینه می‌کنند.

فرض کنید هزینه خرید 100 مشتری اخیر را بر حسب هزار تومان به صورت زیر دارید (پس از مرتب‌سازی): 10, 12, 15, 17, 20, 22, ... , 250, 300. با محاسبه چارک اول متوجه می‌شوید که Q1 = 30 هزار تومان است. این یعنی 25% از مشتریان شما کمتر از 30 هزار تومان خرید کرده‌اند. شما می‌توانید برای این گروه از مشتریان، پیشنهادات ویژه یا تخفیف‌هایی برای خریدهای بالای 30 هزار تومان طراحی کنید تا آن‌ها را به خرید بیشتر ترغیب نمایید.

در علوم پزشکی، وقتی می‌گوییم "قد 25% از کودکان این منطقه کمتر از 120 سانتی‌متر است"، در واقع از چارک اول برای تعیین حد پایین‌تر قد کودکان استفاده کرده‌ایم. در حوزه آموزش، اگر چارک اول نمرات یک درس بسیار پایین باشد، به معلم هشدار می‌دهد که یک چهارم دانش‌آموزان در یادگیری مشکل جدی دارند و نیاز به توجه ویژه دارند.

چالش‌های مفهومی

آیا چارک اول همیشه یکی از داده‌های موجود در مجموعه است؟
خیر. همانطور که در روش درون‌یابی دیدیم، اگر موقعیت چارک اول یک عدد اعشاری باشد (مثلاً i=3.25)، مقدار Q1 از طریق میانگین‌گیری وزنی بین دو داده به دست می‌آید و ممکن است عددی بین آن‌ها باشد که در مجموعه داده‌ها وجود ندارد.
اگر داده‌های تکراری داشته باشیم، محاسبه Q1 چگونه تغییر می‌کند؟
داده‌های تکراری تأثیری در روش محاسبه ندارند. تمام داده‌ها (حتی مقادیر تکراری) در هنگام مرتب‌سازی نوشته می‌شوند. برای مثال مجموعه {2, 2, 3, 4, 4, 4, 5} دارای n=7 است. موقعیت Q1 برابر 2 بوده و داده دوم یعنی 2 به عنوان چارک اول در نظر گرفته می‌شود.
چرا گاهی اوقات کتاب‌های مختلف، مقادیر متفاوتی برای Q1 یک مجموعه داده نشان می‌دهند؟
این تفاوت به دلیل وجود روش‌های مختلف محاسبه چارک‌ها (حداقل ۹ روش مختلف!) است. نرم‌افزارهای آماری مانند اکسل، SPSS و R ممکن است از روش‌های متفاوتی استفاده کنند، به خصوص وقتی تعداد داده‌ها کم باشد. مهم این است که در یک تحلیل، از یک روش ثابت استفاده کنیم.
جمع‌بندی
چارک اول (Q1) یک معیار آماری قدرتمند و مقاوم است که نقطه جدایی 25% پایینی داده‌ها از بقیه را نشان می‌دهد. برخلاف میانگین، تحت تأثیر داده‌های پرت قرار نمی‌گیرد و تصویر دقیق‌تری از نحوه توزیع داده‌ها در بخش پایینی طیف ارائه می‌کند. با یادگیری روش‌های محاسبه آن (چه با روش میانه‌ای و چه با روش موقعیت) می‌توانیم درک بهتری از داده‌های خود در زمینه‌های مختلف مانند آموزش، اقتصاد، پزشکی و علوم اجتماعی داشته باشیم. این شاخص به همراه چارک سوم و میانه، ابزارهای اساسی برای تحلیل داده‌ها را تشکیل می‌دهند.

پاورقی

1 چارک‌ها (Quartiles): مقادیری هستند که یک مجموعه داده مرتب‌شده را به چهار بخش مساوی تقسیم می‌کنند. سه چارک اصلی داریم: چارک اول (Q1)، چارک دوم (Q2 یا میانه) و چارک سوم (Q3).

2 میانه (Median): مقداری است که یک مجموعه داده مرتب‌شده را به دو نیمه مساوی تقسیم می‌کند. به عبارت دیگر، 50% داده‌ها از میانه کوچک‌تر و 50% بزرگ‌تر هستند.

3 داده پرت (Outlier): داده‌ای است که به طور قابل توجهی از سایر داده‌ها فاصله دارد و می‌تواند محاسبات آماری مانند میانگین را تحت تأثیر قرار دهد.

4 دامنه میان‌چارکی (Interquartile Range - IQR): معیاری برای سنجش پراکندگی داده‌ها است که از تفاوت بین چارک سوم و چارک اول به دست می‌آید (IQR = Q3 - Q1) و نشان‌دهنده محدوده 50% میانی داده‌ها است.