دادهٔ دورافتاده: تشخیص، تأثیر و مدیریت نقاط پرت در آمار
دادهٔ دورافتاده چیست؟ تعریف و شهود اولیه
در یک مجموعه داده، گاهی مشاهدهای وجود دارد که با بقیهٔ دادهها تفاوت چشمگیری دارد. به این مشاهده، دادهٔ دورافتاده1 یا نقطهٔ پرت میگویند. به زبان ساده، دادهای است که در میان سایر دادهها غیرعادی به نظر میرسد و فاصلهٔ زیادی از آنها دارد. تصور کنید در کلاسی، قد همهٔ دانشآموزان بین 150 تا 170 سانتیمتر است، اما قد یک دانشآموز 200 سانتیمتر ثبت شده باشد. این دانشآموز یک دادهٔ دورافتاده محسوب میشود. این اتفاق میتواند ناشی از خطای اندازهگیری، خطای ثبت اطلاعات، یا یک ویژگی واقعی اما نادر باشد.
مثال علمی دیگر: در یک آزمایش زیستشناسی، وزن موشهای صحرایی بالغ معمولاً بین 200 تا 250 گرم است. اگر وزن یک موش 400 گرم ثبت شود، این مقدار یک دادهٔ دورافتاده است. شاید این موش بیمار بوده یا بهدرستی وزن نشده است.
نمودار جعبهای: ابزاری بصری برای شناسایی نقاط پرت
یکی از بهترین و سادهترین روشها برای پیدا کردن دادههای دورافتاده، استفاده از نمودار جعبهای2 است. این نمودار اطلاعات آماری مهمی مانند میانه، چارکها و دامنهٔ بینچارکی را به صورت تصویری نشان میدهد. ساختار نمودار جعبهای به این صورت است که یک جعبه از چارک اول ($Q_1$) تا چارک سوم ($Q_3$) کشیده میشود و خطی درون آن محل میانه ($Q_2$) را نشان میدهد. سپس دو خط (سبیل) از جعبه به سمت پایینترین و بالاترین دادهای که در محدودهٔ نرمال هستند، کشیده میشود.
برای مثال، فرض کنید مجموعه دادهای از نمرات یک آزمون داریم: 10, 12, 14, 15, 16, 18, 35. در این مجموعه، عدد 35 به وضوح با بقیه فاصله دارد. با محاسبهٔ چارکها خواهیم دید که این نقطه خارج از محدودهٔ نرمال قرار میگیرد و در نمودار جعبهای به صورت یک نقطهٔ جداگانه در سمت راست (یا بالا) نمودار ظاهر میشود.
| معیار آماری | تأثیرپذیری از دادهٔ دورافتاده | دلیل |
|---|---|---|
| میانگین | بسیار زیاد | از مجموع همهٔ دادهها محاسبه میشود. |
| میانه | بسیار کم | فقط به دادهٔ وسط وابسته است. |
| دامنه | بسیار زیاد | فاصلهٔ بین بیشینه و کمینه است. |
| دامنهٔ بینچارکی (IQR) | بسیار کم | به دادههای میانی وابسته است. |
کاربرد عملی: تأثیر دادههای دورافتاده در زندگی روزمره
فرض کنید میخواهید میانگین درآمد ماهانهٔ همسایههای خود در یک کوچه را محاسبه کنید. درآمد 9 خانواده بین 10 تا 15 میلیون تومان است، اما درآمد یک خانواده 100 میلیون تومان است. اگر میانگین را محاسبه کنید، عددی به دست میآید که معرف درآمد اکثر همسایهها نیست و بسیار بالاتر از واقعیت است. اینجا دادهٔ 100 میلیون تومان یک دادهٔ دورافتاده است و میانگین را منحرف کرده است. در چنین شرایطی، گزارش میانه3 (درآمد خانوادهٔ وسط) تصویر دقیقتری از وضعیت عمومی درآمدها ارائه میدهد.
مثال دیگر در پزشکی: در یک مطالعه روی فشار خون بیماران، اگر فشار خون یک بیمار به اشتباه 200/120 ثبت شود در حالی که مقدار واقعی 120/80 بوده، این دادهٔ نادرست میتواند نتیجهٔ تحقیق را تحت تأثیر قرار دهد و به یک نتیجهگیری اشتباه دربارهٔ اثربخشی یک دارو منجر شود.
چالشهای مفهومی
سؤال ۱: آیا هر دادهٔ غیرعادی لزوماً یک دادهٔ دورافتاده و اشتباه است؟
خیر. گاهی دادههای دورافتاده نشاندهندهٔ یک پدیدهٔ جدید و مهم هستند. برای مثال، در اکتشافات نجومی، یک ستاره با درخشندگی بسیار غیرعادی میتواند نشانهٔ یک ابرنواختر یا یک نوع ستارهٔ ناشناخته باشد. در این موارد، دادهٔ دورافتاده نه تنها اشتباه نیست، بلکه ارزشمندترین دادهٔ مجموعه است و باید به دقت بررسی شود.
سؤال ۲: هنگام مواجهه با یک دادهٔ دورافتاده در تحلیل خود، چه اقداماتی باید انجام دهیم؟
اولین قدم، بررسی صحت داده است. آیا در هنگام ثبت یا وارد کردن داده خطایی رخ داده است؟ اگر خطا بود، آن را تصحیح میکنیم. اگر خطایی در کار نبود، باید بررسی کنیم که آیا این داده متعلق به همان جامعهٔ آماری مورد نظر ما است یا خیر. اگر متعلق نباشد، میتوانیم آن را حذف کنیم. اما اگر داده صحیح و متعلق به جامعه باشد، بهتر است تحلیل را هم با حضور و هم بدون حضور آن انجام دهیم و نتایج را گزارش کنیم.
سؤال ۳: چرا در نمودار جعبهای از عدد 1.5 برای تشخیص دادهٔ دورافتاده استفاده میشود؟
این عدد یک قانون سرانگشتی است که توسط آماردان جان توکی پیشنهاد شد. استفاده از $1.5 \times IQR$ یک مرز مناسب برای تشخیص نقاطی است که به احتمال زیاد پرت هستند. این مرز به گونهای تنظیم شده که در توزیع نرمال، حدود 0.7٪ از دادهها را به عنوان نقطهٔ پرت شناسایی کند. انتخاب این عدد یک قرارداد پذیرفتهشده در آمار است.
دادهٔ دورافتاده یا نقطهٔ پرت، مشاهدهای است که فاصلهٔ زیادی از سایر دادهها دارد و به راحتی در نمودار جعبهای به عنوان یک نقطهٔ مجزا قابل شناسایی است. این دادهها تأثیر بسیار زیادی بر برخی معیارهای آماری مانند میانگین و دامنه دارند، اما تأثیر کمی بر میانه و دامنهٔ بینچارکی میگذارند. برخورد صحیح با دادههای دورافتاده نیازمند دقت و بررسی است؛ گاهی باید آنها را به عنوان خطا حذف کرد و گاهی به عنوان یک کشف جدید، آنها را ارج نهاد. درک این مفهوم برای تحلیلهای آماری دقیق و جلوگیری از نتیجهگیریهای گمراهکننده ضروری است.
پاورقی
1 دادهٔ دورافتاده (Outlier): مشاهدهای در یک مجموعه داده که از نظر آماری با سایر مشاهدات فاصلهٔ معنیداری دارد و احتمالاً از یک توزیع متفاوت یا به دلیل خطا ایجاد شده است.
2 نمودار جعبهای (Box Plot): یک روش استاندارد برای نمایش گرافیکی گروهی از دادههای عددی از طریق چارکها و نشان دادن پراکندگی و مرکزیت دادهها.
3 میانه (Median): مقداری که یک مجموعه داده را به دو نیمهٔ مساوی تقسیم میکند؛ به طوری که نیمی از دادهها بزرگتر یا مساوی آن و نیمی دیگر کوچکتر یا مساوی آن باشند.