گاما رو نصب کن!

{{ number }}
اعلان ها
اعلان جدیدی وجود ندارد!
کاربر جدید

جستجو

پربازدیدها: #{{ tag.title }}

میتونی لایو بذاری!

تفسیر نمودار جعبه‌ای: نتیجه‌گیری دربارهٔ مرکز و پراکندگی داده‌ها با توجه به میانه، چارک‌ها و دامنهٔ میان‌چارکی

بروزرسانی شده در: 13:59 1404/12/7 مشاهده: 14     دسته بندی: کپسول آموزشی

تفسیر نمودار جعبه‌ای: نتیجه‌گیری دربارهٔ مرکز و پراکندگی داده‌ها

با کمک میانه، چارک‌ها و دامنه میان‌چارکی، داستان پشت داده‌ها را کشف کنید.
نمودار جعبه‌ای (Box Plot) یک ابزار بصری قدرتمند برای خلاصه‌سازی توزیع داده‌ها است. با تمرکز بر میانه (مرکز داده‌ها)، چارک‌ها (تقسیم‌بندی داده‌ها) و دامنه میان‌چارکی (IQR) می‌توانیم به سرعت درباره‌ی پراکندگی، تقارن و وجود داده‌های پرت در یک مجموعه اطلاعاتی نتیجه‌گیری کنیم. این مقاله شما را با تفسیر گام‌به‌گام این مفاهیم آشنا می‌کند.

۱. نمودار جعبه‌ای از چه اجزایی تشکیل شده است؟

نمودار جعبه‌ای، خلاصه‌ای از یک یا چند مجموعه داده را بر اساس پنج عدد اصلی نمایش می‌دهد. این پنج عدد عبارتند از: کمترین مقدار (Min)، اولین چارک (Q1)، میانه (Q2)، سومین چارک (Q3) و بیشترین مقدار (Max). تصور کنید نمرات یک امتحان دشوار ریاضی در دو کلاس مختلف را داریم. به جای نگاه کردن به لیست بلندبالای ۴۰ نمره برای هر کلاس، می‌توانیم این پنج عدد را محاسبه کنیم و وضعیت هر کلاس را در یک نگاه ببینیم.

جزء نمودار نماد آماری توضیح مفهومی
خط انتهای پایین (سبیل پایین) Min کوچک‌ترین مقدار در مجموعه داده (که دور از بقیه نباشد).
لبه پایین جعبه چارک اول (Q1) ۲۵٪ داده‌ها از این مقدار کمتر هستند.
خط داخل جعبه میانه (Q2) ۵۰٪ داده‌ها از این مقدار کمتر و ۵۰٪ بیشتر هستند (مرکز داده‌ها).
لبه بالایی جعبه چارک سوم (Q3) ۷۵٪ داده‌ها از این مقدار کمتر هستند.
خط انتهای بالا (سبیل بالا) Max بزرگ‌ترین مقدار در مجموعه داده (که دور از بقیه نباشد).

۲. نتیجه‌گیری درباره مرکز داده‌ها: اهمیت میانه

میانه ($Q_2$) نقطه‌ای است که داده‌ها را به دو نیمه مساوی تقسیم می‌کند. برخلاف میانگین، میانه تحت تأثیر داده‌های بسیار بزرگ یا بسیار کوچک (داده‌های پرت) قرار نمی‌گیرد. برای مثال، اگر در یک کلاس، نمره یک دانش‌آموز به جای $15$ اشتباهاً $100$ ثبت شود، میانگین به شدت افزایش می‌یابد اما میانه تقریباً ثابت می‌ماند. بنابراین، میانه تصویر واقعی‌تری از "مرکز" داده‌ها ارائه می‌دهد، به‌خصوص وقتی داده‌ها نامتقارن باشند.

مثال عینی: فرض کنید حقوق ماهانه پنج کارمند در یک شرکت کوچک به این ترتیب است: $12$، $13$، $14$، $15$ و $50$ میلیون تومان. میانگین حقوق حدود $20.8$ میلیون تومان است، در حالی که میانه $14$ میلیون تومان است. عدد $14$ نماینده‌ی بسیار بهتری برای شرایط اکثریت کارمندان است.

فرمول تعیین موقعیت میانه: اگر تعداد داده‌ها $n$ باشد، موقعیت میانه در داده‌های مرتب شده برابر است با $\frac{n+1}{2}$مین داده.

۳. تحلیل پراکندگی داده‌ها با دامنه میان‌چارکی (IQR)

دامنه میان‌چارکی ($IQR$) که از تفریق چارک اول از چارک سوم به دست می‌آید ($IQR = Q_3 - Q_1$)، نشان‌دهنده محدوده‌ای است که $50\%$ میانی داده‌ها در آن قرار دارند. هرچه این دامنه بزرگ‌تر باشد، پراکندگی داده‌ها در نیمه میانی بیشتر است. در نمودار جعبه‌ای، این دامنه با ارتفاع (یا طول) خود جعبه نمایش داده می‌شود.

نکته کلیدی: دامنه میان‌چارکی نسبت به دامنه کلی داده‌ها (Max - Min) بسیار مقاوم‌تر است و تحت تأثیر داده‌های پرت قرار نمی‌گیرد.

برای درک بهتر، دو نمودار جعبه‌ای را تصور کنید: یکی برای نمرات کلاس A با جعبه‌ای پهن (IQR بزرگ) و دیگری برای کلاس B با جعبه‌ای باریک (IQR کوچک). این یعنی دانش‌آموزان کلاس A از نظر نمرات، تنوع و پراکندگی بیشتری دارند (از خوب تا عالی و ضعیف) در حالی که عملکرد دانش‌آموزان کلاس B یکنواخت‌تر و به هم نزدیک‌تر است.

۴. کاربرد عملی: مقایسه دو مجموعه داده با نمودار جعبه‌ای

فرض کنید می‌خواهیم عملکرد دو فروشنده، علی و رضا، را در طول $30$ روز کاری مقایسه کنیم. جدول زیر آمار خلاصه‌شده فروش روزانه آن‌ها (به میلیون تومان) را نشان می‌دهد.

فروشنده حداقل چارک اول (Q1) میانه (Q2) چارک سوم (Q3) حداکثر IQR
علی 5 8 10 12 15 4
رضا 2 6 10 14 20 8

نتیجه‌گیری: میانه هر دو فروشنده برابر $10$ میلیون تومان است، یعنی عملکرد مرکزی آن‌ها مشابه است. اما $IQR$ رضا ($8$) دو برابر علی ($4$) است. این نشان می‌دهد فروش روزانه رضا بسیار نوسان‌تر و پراکنده‌تر از علی است. علی عملکردی پایدار و قابل پیش‌بینی دارد، در حالی که رضا روزهای فروش بسیار کم و بسیار زیادی را تجربه می‌کند.

۵. چالش‌های مفهومی

۱. اگر میانه درون جعبه به لبه پایین نزدیک‌تر باشد، این موضوع چه معنایی دارد؟
این وضعیت نشان می‌دهد که توزیع داده‌ها نامتقارن و اصطلاحاً "چوله به راست" است. به این معنی که $50\%$ پایینی داده‌ها (از Min تا میانه) در فضای کوچکی متمرکز شده‌اند، در حالی که $50\%$ بالایی (از میانه تا Max) در فضای وسیع‌تری پخش شده‌اند. به عبارت دیگر، یک دم بلند به سمت راست (اعداد بزرگ‌تر) وجود دارد.
۲. تفاوت داده پرت (Outlier) با یک داده عادی در نمودار جعبه‌ای چیست؟
داده‌های پرت معمولاً به عنوان نقاطی جدا از سبیل‌ها نمایش داده می‌شوند. یک قانون رایج برای تشخیص داده پرت این است: هر داده‌ای که فاصله آن از لبه جعبه بیشتر از $1.5 \times IQR$ باشد، به عنوان یک داده پرت ملایم در نظر گرفته می‌شود. اگر فاصله از $3 \times IQR$ بیشتر شود، به عنوان داده پرت شدید شناخته می‌شود.
۳. آیا ممکن است یک نمودار جعبه‌ای سبیل نداشته باشد؟
بله، این اتفاق می‌افتد. زمانی که تمام داده‌ها درون محدوده چارک اول و سوم قرار گیرند، یا حداقل و حداکثر داده‌ها دقیقاً برابر با Q1 و Q3 باشند، سبیلی وجود نخواهد داشت. این حالت نشان می‌دهد که تمام داده‌ها در نیمه میانی متمرکز شده‌اند و پراکندگی بسیار کمی در دو انتهای توزیع وجود دارد.
جمع‌بندی
نمودار جعبه‌ای با ارائه‌ی بصری میانه، چارک‌ها و دامنه میان‌چارکی، ابزاری سریع و کارآمد برای تحلیل مقدماتی داده‌ها است. با نگاه به موقعیت میانه می‌توان تقارن یا چولگی توزیع را حدس زد. با اندازه‌گیری IQR می‌توان پراکندگی نیمه میانی داده‌ها را سنجید و با مشاهده داده‌های پرت می‌توان به وجود مقادیر غیرعادی یا استثنایی در مجموعه داده پی‌برد. این نمودار، داستان داده‌ها را در یک قاب ساده و قابل فهم خلاصه می‌کند.

پاورقی

1 چارک (Quartile): نقاطی که یک مجموعه داده مرتب شده را به چهار بخش برابر تقسیم می‌کنند. چارک اول (Q1) میانه نیمه پایینی داده‌ها و چارک سوم (Q3) میانه نیمه بالایی داده‌ها است.
2 دامنه میان‌چارکی (Interquartile Range - IQR): معیاری از پراکندگی آماری که برابر با اختلاف بین چارک سوم و چارک اول است.
3 داده پرت (Outlier): مشاهده‌ای که به طور قابل توجهی از سایر مشاهدات در یک نمونه فاصله دارد و می‌تواند نشانه خطا در اندازه‌گیری یا یک ناهنجاری واقعی باشد.