تفسیر نمودار جعبهای: نتیجهگیری دربارهٔ مرکز و پراکندگی دادهها
۱. نمودار جعبهای از چه اجزایی تشکیل شده است؟
نمودار جعبهای، خلاصهای از یک یا چند مجموعه داده را بر اساس پنج عدد اصلی نمایش میدهد. این پنج عدد عبارتند از: کمترین مقدار (Min)، اولین چارک (Q1)، میانه (Q2)، سومین چارک (Q3) و بیشترین مقدار (Max). تصور کنید نمرات یک امتحان دشوار ریاضی در دو کلاس مختلف را داریم. به جای نگاه کردن به لیست بلندبالای ۴۰ نمره برای هر کلاس، میتوانیم این پنج عدد را محاسبه کنیم و وضعیت هر کلاس را در یک نگاه ببینیم.
| جزء نمودار | نماد آماری | توضیح مفهومی |
|---|---|---|
| خط انتهای پایین (سبیل پایین) | Min | کوچکترین مقدار در مجموعه داده (که دور از بقیه نباشد). |
| لبه پایین جعبه | چارک اول (Q1) | ۲۵٪ دادهها از این مقدار کمتر هستند. |
| خط داخل جعبه | میانه (Q2) | ۵۰٪ دادهها از این مقدار کمتر و ۵۰٪ بیشتر هستند (مرکز دادهها). |
| لبه بالایی جعبه | چارک سوم (Q3) | ۷۵٪ دادهها از این مقدار کمتر هستند. |
| خط انتهای بالا (سبیل بالا) | Max | بزرگترین مقدار در مجموعه داده (که دور از بقیه نباشد). |
۲. نتیجهگیری درباره مرکز دادهها: اهمیت میانه
میانه ($Q_2$) نقطهای است که دادهها را به دو نیمه مساوی تقسیم میکند. برخلاف میانگین، میانه تحت تأثیر دادههای بسیار بزرگ یا بسیار کوچک (دادههای پرت) قرار نمیگیرد. برای مثال، اگر در یک کلاس، نمره یک دانشآموز به جای $15$ اشتباهاً $100$ ثبت شود، میانگین به شدت افزایش مییابد اما میانه تقریباً ثابت میماند. بنابراین، میانه تصویر واقعیتری از "مرکز" دادهها ارائه میدهد، بهخصوص وقتی دادهها نامتقارن باشند.
مثال عینی: فرض کنید حقوق ماهانه پنج کارمند در یک شرکت کوچک به این ترتیب است: $12$، $13$، $14$، $15$ و $50$ میلیون تومان. میانگین حقوق حدود $20.8$ میلیون تومان است، در حالی که میانه $14$ میلیون تومان است. عدد $14$ نمایندهی بسیار بهتری برای شرایط اکثریت کارمندان است.
۳. تحلیل پراکندگی دادهها با دامنه میانچارکی (IQR)
دامنه میانچارکی ($IQR$) که از تفریق چارک اول از چارک سوم به دست میآید ($IQR = Q_3 - Q_1$)، نشاندهنده محدودهای است که $50\%$ میانی دادهها در آن قرار دارند. هرچه این دامنه بزرگتر باشد، پراکندگی دادهها در نیمه میانی بیشتر است. در نمودار جعبهای، این دامنه با ارتفاع (یا طول) خود جعبه نمایش داده میشود.
نکته کلیدی: دامنه میانچارکی نسبت به دامنه کلی دادهها (Max - Min) بسیار مقاومتر است و تحت تأثیر دادههای پرت قرار نمیگیرد.
برای درک بهتر، دو نمودار جعبهای را تصور کنید: یکی برای نمرات کلاس A با جعبهای پهن (IQR بزرگ) و دیگری برای کلاس B با جعبهای باریک (IQR کوچک). این یعنی دانشآموزان کلاس A از نظر نمرات، تنوع و پراکندگی بیشتری دارند (از خوب تا عالی و ضعیف) در حالی که عملکرد دانشآموزان کلاس B یکنواختتر و به هم نزدیکتر است.
۴. کاربرد عملی: مقایسه دو مجموعه داده با نمودار جعبهای
فرض کنید میخواهیم عملکرد دو فروشنده، علی و رضا، را در طول $30$ روز کاری مقایسه کنیم. جدول زیر آمار خلاصهشده فروش روزانه آنها (به میلیون تومان) را نشان میدهد.
| فروشنده | حداقل | چارک اول (Q1) | میانه (Q2) | چارک سوم (Q3) | حداکثر | IQR |
|---|---|---|---|---|---|---|
| علی | 5 | 8 | 10 | 12 | 15 | 4 |
| رضا | 2 | 6 | 10 | 14 | 20 | 8 |
نتیجهگیری: میانه هر دو فروشنده برابر $10$ میلیون تومان است، یعنی عملکرد مرکزی آنها مشابه است. اما $IQR$ رضا ($8$) دو برابر علی ($4$) است. این نشان میدهد فروش روزانه رضا بسیار نوسانتر و پراکندهتر از علی است. علی عملکردی پایدار و قابل پیشبینی دارد، در حالی که رضا روزهای فروش بسیار کم و بسیار زیادی را تجربه میکند.
۵. چالشهای مفهومی
این وضعیت نشان میدهد که توزیع دادهها نامتقارن و اصطلاحاً "چوله به راست" است. به این معنی که $50\%$ پایینی دادهها (از Min تا میانه) در فضای کوچکی متمرکز شدهاند، در حالی که $50\%$ بالایی (از میانه تا Max) در فضای وسیعتری پخش شدهاند. به عبارت دیگر، یک دم بلند به سمت راست (اعداد بزرگتر) وجود دارد.
دادههای پرت معمولاً به عنوان نقاطی جدا از سبیلها نمایش داده میشوند. یک قانون رایج برای تشخیص داده پرت این است: هر دادهای که فاصله آن از لبه جعبه بیشتر از $1.5 \times IQR$ باشد، به عنوان یک داده پرت ملایم در نظر گرفته میشود. اگر فاصله از $3 \times IQR$ بیشتر شود، به عنوان داده پرت شدید شناخته میشود.
بله، این اتفاق میافتد. زمانی که تمام دادهها درون محدوده چارک اول و سوم قرار گیرند، یا حداقل و حداکثر دادهها دقیقاً برابر با Q1 و Q3 باشند، سبیلی وجود نخواهد داشت. این حالت نشان میدهد که تمام دادهها در نیمه میانی متمرکز شدهاند و پراکندگی بسیار کمی در دو انتهای توزیع وجود دارد.
نمودار جعبهای با ارائهی بصری میانه، چارکها و دامنه میانچارکی، ابزاری سریع و کارآمد برای تحلیل مقدماتی دادهها است. با نگاه به موقعیت میانه میتوان تقارن یا چولگی توزیع را حدس زد. با اندازهگیری IQR میتوان پراکندگی نیمه میانی دادهها را سنجید و با مشاهده دادههای پرت میتوان به وجود مقادیر غیرعادی یا استثنایی در مجموعه داده پیبرد. این نمودار، داستان دادهها را در یک قاب ساده و قابل فهم خلاصه میکند.
پاورقی
2 دامنه میانچارکی (Interquartile Range - IQR): معیاری از پراکندگی آماری که برابر با اختلاف بین چارک سوم و چارک اول است.
3 داده پرت (Outlier): مشاهدهای که به طور قابل توجهی از سایر مشاهدات در یک نمونه فاصله دارد و میتواند نشانه خطا در اندازهگیری یا یک ناهنجاری واقعی باشد.