گاما رو نصب کن!

{{ number }}
اعلان ها
اعلان جدیدی وجود ندارد!
کاربر جدید

جستجو

پربازدیدها: #{{ tag.title }}

میتونی لایو بذاری!

چارک دوم (Q2): همان میانهٔ کل داده‌ها

بروزرسانی شده در: 11:52 1404/12/7 مشاهده: 7     دسته بندی: کپسول آموزشی

چارک دوم (Q2) : همان میانهٔ کل داده‌ها

نقطه‌ای که توزیع داده‌ها را به دو نیمهٔ مساوی تقسیم می‌کند؛ از مفاهیم بنیادی آمار توصیفی برای تحلیل داده‌ها
در این مقاله با زبانی ساده و با کمک مثال‌های ملموس، به بررسی چارک دوم (Q2) یا همان میانه می‌پردازیم. می‌آموزیم که این شاخص آماری چگونه از داده‌ها در برابر مقادیر پرت محافظت کرده و تصویر دقیق‌تری از وضعیت مرکز داده‌ها نسبت به میانگین ارائه می‌دهد. روش محاسبه آن برای داده‌های فرد و زوج، جایگاه آن در کنار دیگر چارک‌ها و کاربردهای عملی آن در زندگی روزمره و تحلیل‌های علمی، محورهای اصلی این مقاله را تشکیل می‌دهند.

جایگاه چارک دوم در میان شاخص‌های مرکزی

در علم آمار، برای درک یک مجموعه داده، معمولاً به دنبال یک عدد هستیم که نماینده خوبی برای تمام داده‌ها باشد. این عدد را «شاخص مرکزی» می‌نامیم. معروف‌ترین این شاخص‌ها، میانگین1 است، اما میانگین در برابر داده‌های بسیار بزرگ یا بسیار کوچک (داده‌های پرت) آسیب‌پذیر است. اینجاست که چارک دوم (Q2) یا میانه2 اهمیت پیدا می‌کند. چارک دوم دقیقاً نقطهٔ میانی داده‌ها پس از مرتب‌سازی آن‌هاست. به عبارت ساده‌تر، حداقل 50% از داده‌ها از چارک دوم کوچک‌تر یا مساوی آن هستند و حداقل 50% از داده‌ها از آن بزرگ‌تر یا مساوی آن هستند. این ویژگی باعث می‌شود میانه یک معیار مقاوم (Robust) در مقابل داده‌های پرت باشد. برای درک بهتر، تصور کنید در یک کلاس، 10 دانش‌آموز با نمرات 10, 12, 14, 15, 16, 17, 18, 19, 20, 100 داریم. میانگین نمرات تحت تأثیر نمره 100 که یک دادهٔ پرت است، بسیار بالا می‌رود و نماینده خوبی برای عملکرد کلاس نیست. اما میانه که همان نمرهٔ نفر پنجم و ششم (16 و 17) است، عددی حدود 16.5 خواهد بود که به واقعیت نزدیک‌تر است.

روش محاسبه گام‌به‌گام چارک دوم

محاسبه چارک دوم بسیار ساده است و تنها در دو گام اصلی انجام می‌شود. بیایید این گام‌ها را با دو مثال عددی بررسی کنیم. گام اول: مرتب‌سازی داده‌ها اولین و مهم‌ترین قدم، مرتب کردن داده‌ها به ترتیب صعودی (از کوچک به بزرگ) است. گام دوم: یافتن مقدار میانی در این گام، بسته به تعداد داده‌ها (فرد یا زوج بودن)، دو حالت پیش می‌آید:
  • اگر تعداد داده‌ها فرد باشد: چارک دوم برابر با داده‌ای است که دقیقاً در وسط قرار دارد. موقعیت دادهٔ میانی از فرمول $\frac{n+1}{2}$ به دست می‌آید که در آن $n$ تعداد کل داده‌هاست.
  • اگر تعداد داده‌ها زوج باشد: در این حالت دو دادهٔ وسطی وجود دارند. چارک دوم برابر با میانگین این دو داده است. این دو داده در موقعیت‌های $\frac{n}{2}$ و $\frac{n}{2} + 1$ قرار دارند.
برای روشن شدن موضوع، به مثال‌های زیر توجه کنید:
مثال 1 (تعداد داده فرد): نمرات 5 دانش‌آموز به این شرح است: 8, 6, 10, 7, 9.
ابتدا مرتب می‌کنیم: 6, 7, 8, 9, 10.
تعداد داده‌ها $n=5$ است. موقعیت میانه $\frac{5+1}{2}=3$ است. سومین داده برابر 8 است. بنابراین چارک دوم (Q2) برابر 8 است.
مثال 2 (تعداد داده زوج): سن 6 نفر در یک خانواده: 32, 45, 12, 8, 36, 40.
مرتب می‌کنیم: 8, 12, 32, 36, 40, 45.
تعداد داده‌ها $n=6$ است. دو دادهٔ وسطی در موقعیت‌های $\frac{6}{2}=3$ و $\frac{6}{2}+1=4$ قرار دارند. دادهٔ سوم 32 و دادهٔ چهارم 36 است. میانه برابر است با میانگین این دو: $\frac{32+36}{2}=34$.

چارک دوم در کنار سایر چارک‌ها

چارک‌ها داده‌ها را به چهار قسمت مساوی تقسیم می‌کنند.
  • چارک اول (Q1): میانهٔ نیمهٔ پایینی داده‌ها (صدک 25ام).
  • چارک دوم (Q2): میانهٔ کل داده‌ها (صدک 50ام).
  • چارک سوم (Q3): میانهٔ نیمهٔ بالایی داده‌ها (صدک 75ام).
تفاوت بین چارک سوم و اول، دامنه بین چارکی3 (IQR) نامیده می‌شود که معیاری برای سنجش پراکندگی داده‌هاست. جدول زیر مقایسه‌ای بین این سه شاخص مهم ارائه می‌دهد:
نام شاخص نماد درصد داده‌های کمتر نام دیگر مفهوم
چارک اول Q1 25% میانه پایینی مرز یک‌چهارم پایینی داده‌ها
چارک دوم Q2 50% میانه مرکز داده‌ها و نقطه تعادل
چارک سوم Q3 75% میانه بالایی مرز یک‌چهارم بالایی داده‌ها

کاربردهای عملی چارک دوم در زندگی واقعی

شاید فکر کنید میانه تنها یک مفهوم کتاب درسی است، اما هر روز بدون آن که متوجه باشیم با آن سر و کار داریم. در بازار مسکن: وقتی گزارشی از قیمت مسکن در یک محله می‌شنوید، معمولاً از «قیمت میانه» استفاده می‌شود، نه میانگین. دلیل آن هم واضح است: وجود چند خانه بسیار گران یا بسیار ارزان، میانگین را به شدت تحت تأثیر قرار می‌دهد و تصویر نادرستی از قیمت‌های رایج به خریداران می‌دهد. قیمت میانه نشان می‌دهد که نیمی از خانه‌های فروخته شده در این محله، قیمتی کمتر از این عدد داشته‌اند. در تحلیل درآمد: سازمان‌های بین‌المللی مانند بانک جهانی برای مقایسه رفاه مردم کشورها، از «درآمد میانه» استفاده می‌کنند. این شاخص بهتر از درآمد متوسط می‌تواند نشان دهد که یک فرد معمولی در آن کشور چه وضعیت درآمدی دارد، زیرا تحت تأثیر درآمدهای بسیار بالای یک درصد ثروتمند جامعه قرار نمی‌گیرد. در آموزش: معلمان برای تحلیل نمرات یک امتحان، اگر با داده‌های پرت (چند نمره بسیار بالا یا بسیار پایین) مواجه شوند، به جای میانگین، از میانه برای گزارش نمره نماینده کلاس استفاده می‌کنند تا قضاوت عادلانه‌تری درباره سطح علمی دانش‌آموزان داشته باشند.

چالش‌های مفهومی

۱. چرا در داده‌های زوج، میانه همیشه یکی از داده‌های موجود نیست؟
در داده‌های زوج، دو داده وسط داریم که ممکن است با هم برابر نباشند. برای تعیین یک نقطه مرکزی واحد، ناچاریم از میانگین آن دو استفاده کنیم. این مقدار جدید، لزوماً در مجموعه داده‌های اولیه وجود ندارد، اما بهترین تخمین از نقطه‌ای است که داده‌ها را به دو نیمه مساوی تقسیم می‌کند.
۲. آیا میانه همیشه از میانگین به مرکز داده‌ها نزدیک‌تر است؟
نه همیشه. اگر توزیع داده‌ها متقارن و بدون داده پرت باشد، میانه و میانگین تقریباً بر هم منطبق هستند. اما در توزیع‌های نامتقارن (چوله)، میانه در مرکز توده اصلی داده‌ها قرار دارد، در حالی که میانگین به سمت دُم کشیده‌تر توزیع متمایل می‌شود. بنابراین میانه برای داده‌های پرت «مقاوم» است، نه لزوماً نزدیک‌تر به همه داده‌ها.
۳. اگر به مجموعه داده‌ها یک عدد بسیار بزرگ اضافه کنیم، چارک دوم چگونه تغییر می‌کند؟
کمترین تغییر را خواهد داشت. اگر داده‌ها را مرتب کنیم، عدد بسیار بزرگ به انتهای لیست می‌رود و ممکن است حتی جفت داده‌های میانی را جابه‌جا نکند، مگر اینکه تعداد داده‌ها آنقدر کم باشد که این عدد جدید، تعریف نیمه‌های بالا و پایین را تغییر دهد. به همین دلیل می‌گوییم میانه یک آماره مقاوم است.
جمع‌بندی
چارک دوم یا میانه، یکی از کاربردی‌ترین و مهم‌ترین شاخص‌های گرایش مرکزی در آمار است. برخلاف میانگین، تحت تأثیر مقادیر پرت قرار نمی‌گیرد و تصویری واقعی‌تر از مرکزیت داده‌ها، به‌ویژه در توزیع‌های نامتقارن، ارائه می‌دهد. درک صحیح مفهوم میانه، که به سادگی با مرتب‌سازی داده‌ها و یافتن مقدار میانی به دست می‌آید، برای تحلیل هر نوع داده‌ای از اقتصاد و علوم اجتماعی گرفته تا مهندسی و پزشکی، ضروری است. این شاخص در کنار چارک‌های اول و سوم، پایه‌ای برای محاسبه دامنه بین چارکی و تشخیص داده‌های پرت است.

پاورقی

1 واژه فارسی: میانگین (Mean): حاصل جمع تمام مقادیر داده‌ها تقسیم بر تعداد آن‌ها.
2 واژه فارسی: میانه (Median): مقداری که مجموعه داده‌های مرتب شده را به دو نیمه مساوی تقسیم می‌کند.
3 واژه فارسی: دامنه بین چارکی (Interquartile Range - IQR): تفاوت بین چارک سوم و چارک اول که معیاری برای پراکندگی داده‌ها است.