گاما رو نصب کن!

{{ number }}
اعلان ها
اعلان جدیدی وجود ندارد!
کاربر جدید

جستجو

پربازدیدها: #{{ tag.title }}

میتونی لایو بذاری!

دادهٔ دورافتاده: داده‌ای که نسبت به بقیهٔ داده‌ها فاصلهٔ غیرعادی دارد و در نمودار جعبه‌ای به صورت جداگانه دیده می‌شود.

بروزرسانی شده در: 13:52 1404/12/7 مشاهده: 18     دسته بندی: کپسول آموزشی

دادهٔ دورافتاده: تشخیص، تأثیر و مدیریت نقاط پرت در آمار

آشنایی با مفهوم داده‌های پرت، نقش آنها در تحلیل‌های آماری و روش‌های برخورد با این نقاط دور از انتظار
در این مقاله با مفهوم دادهٔ دورافتاده (نقطهٔ پرت) آشنا می‌شوید. یاد می‌گیرید که چگونه این داده‌ها را در نمودار جعبه‌ای شناسایی کنید، تأثیر آنها بر میانگین و دامنهٔ تغییرات چقدر است، و در مواجهه با این نقاط غیرعادی چه رویکردهایی باید اتخاذ کرد. مثال‌های علمی و ساده از دنیای واقعی، درک این مفهوم کلیدی در آمار را برای شما آسان‌تر می‌کند.

دادهٔ دورافتاده چیست؟ تعریف و شهود اولیه

در یک مجموعه داده، گاهی مشاهده‌ای وجود دارد که با بقیهٔ داده‌ها تفاوت چشمگیری دارد. به این مشاهده، دادهٔ دورافتاده1 یا نقطهٔ پرت می‌گویند. به زبان ساده، داده‌ای است که در میان سایر داده‌ها غیرعادی به نظر می‌رسد و فاصلهٔ زیادی از آنها دارد. تصور کنید در کلاسی، قد همهٔ دانش‌آموزان بین 150 تا 170 سانتی‌متر است، اما قد یک دانش‌آموز 200 سانتی‌متر ثبت شده باشد. این دانش‌آموز یک دادهٔ دورافتاده محسوب می‌شود. این اتفاق می‌تواند ناشی از خطای اندازه‌گیری، خطای ثبت اطلاعات، یا یک ویژگی واقعی اما نادر باشد.

مثال علمی دیگر: در یک آزمایش زیست‌شناسی، وزن موش‌های صحرایی بالغ معمولاً بین 200 تا 250 گرم است. اگر وزن یک موش 400 گرم ثبت شود، این مقدار یک دادهٔ دورافتاده است. شاید این موش بیمار بوده یا به‌درستی وزن نشده است.

نمودار جعبه‌ای: ابزاری بصری برای شناسایی نقاط پرت

یکی از بهترین و ساده‌ترین روش‌ها برای پیدا کردن داده‌های دورافتاده، استفاده از نمودار جعبه‌ای2 است. این نمودار اطلاعات آماری مهمی مانند میانه، چارک‌ها و دامنهٔ بین‌چارکی را به صورت تصویری نشان می‌دهد. ساختار نمودار جعبه‌ای به این صورت است که یک جعبه از چارک اول ($Q_1$) تا چارک سوم ($Q_3$) کشیده می‌شود و خطی درون آن محل میانه ($Q_2$) را نشان می‌دهد. سپس دو خط (سبیل) از جعبه به سمت پایین‌ترین و بالاترین داده‌ای که در محدودهٔ نرمال هستند، کشیده می‌شود.

چگونه یک نقطه در نمودار جعبه‌ای دورافتاده محسوب می‌شود؟ هر داده‌ای که فاصلهٔ آن از چارک اول یا چارک سوم، بیشتر از $1.5 \times IQR$ باشد، به عنوان یک دادهٔ دورافتاده در نظر گرفته می‌شود و در نمودار به صورت یک نقطهٔ مجزا (معمولاً یک دایره یا ستاره) نمایش داده می‌شود. در اینجا $IQR = Q_3 - Q_1$ است که به آن دامنهٔ بین‌چارکی می‌گویند.

برای مثال، فرض کنید مجموعه داده‌ای از نمرات یک آزمون داریم: 10, 12, 14, 15, 16, 18, 35. در این مجموعه، عدد 35 به وضوح با بقیه فاصله دارد. با محاسبهٔ چارک‌ها خواهیم دید که این نقطه خارج از محدودهٔ نرمال قرار می‌گیرد و در نمودار جعبه‌ای به صورت یک نقطهٔ جداگانه در سمت راست (یا بالا) نمودار ظاهر می‌شود.

معیار آماری تأثیرپذیری از دادهٔ دورافتاده دلیل
میانگین بسیار زیاد از مجموع همهٔ داده‌ها محاسبه می‌شود.
میانه بسیار کم فقط به دادهٔ وسط وابسته است.
دامنه بسیار زیاد فاصلهٔ بین بیشینه و کمینه است.
دامنهٔ بین‌چارکی (IQR) بسیار کم به داده‌های میانی وابسته است.

کاربرد عملی: تأثیر داده‌های دورافتاده در زندگی روزمره

فرض کنید می‌خواهید میانگین درآمد ماهانهٔ همسایه‌های خود در یک کوچه را محاسبه کنید. درآمد 9 خانواده بین 10 تا 15 میلیون تومان است، اما درآمد یک خانواده 100 میلیون تومان است. اگر میانگین را محاسبه کنید، عددی به دست می‌آید که معرف درآمد اکثر همسایه‌ها نیست و بسیار بالاتر از واقعیت است. اینجا دادهٔ 100 میلیون تومان یک دادهٔ دورافتاده است و میانگین را منحرف کرده است. در چنین شرایطی، گزارش میانه3 (درآمد خانوادهٔ وسط) تصویر دقیق‌تری از وضعیت عمومی درآمدها ارائه می‌دهد.

مثال دیگر در پزشکی: در یک مطالعه روی فشار خون بیماران، اگر فشار خون یک بیمار به اشتباه 200/120 ثبت شود در حالی که مقدار واقعی 120/80 بوده، این دادهٔ نادرست می‌تواند نتیجهٔ تحقیق را تحت تأثیر قرار دهد و به یک نتیجه‌گیری اشتباه دربارهٔ اثربخشی یک دارو منجر شود.

چالش‌های مفهومی

سؤال ۱: آیا هر دادهٔ غیرعادی لزوماً یک دادهٔ دورافتاده و اشتباه است؟

خیر. گاهی داده‌های دورافتاده نشان‌دهندهٔ یک پدیدهٔ جدید و مهم هستند. برای مثال، در اکتشافات نجومی، یک ستاره با درخشندگی بسیار غیرعادی می‌تواند نشانهٔ یک ابرنواختر یا یک نوع ستارهٔ ناشناخته باشد. در این موارد، دادهٔ دورافتاده نه تنها اشتباه نیست، بلکه ارزشمندترین دادهٔ مجموعه است و باید به دقت بررسی شود.

سؤال ۲: هنگام مواجهه با یک دادهٔ دورافتاده در تحلیل خود، چه اقداماتی باید انجام دهیم؟

اولین قدم، بررسی صحت داده است. آیا در هنگام ثبت یا وارد کردن داده خطایی رخ داده است؟ اگر خطا بود، آن را تصحیح می‌کنیم. اگر خطایی در کار نبود، باید بررسی کنیم که آیا این داده متعلق به همان جامعهٔ آماری مورد نظر ما است یا خیر. اگر متعلق نباشد، می‌توانیم آن را حذف کنیم. اما اگر داده صحیح و متعلق به جامعه باشد، بهتر است تحلیل را هم با حضور و هم بدون حضور آن انجام دهیم و نتایج را گزارش کنیم.

سؤال ۳: چرا در نمودار جعبه‌ای از عدد 1.5 برای تشخیص دادهٔ دورافتاده استفاده می‌شود؟

این عدد یک قانون سرانگشتی است که توسط آماردان جان توکی پیشنهاد شد. استفاده از $1.5 \times IQR$ یک مرز مناسب برای تشخیص نقاطی است که به احتمال زیاد پرت هستند. این مرز به گونه‌ای تنظیم شده که در توزیع نرمال، حدود 0.7٪ از داده‌ها را به عنوان نقطهٔ پرت شناسایی کند. انتخاب این عدد یک قرارداد پذیرفته‌شده در آمار است.

جمع‌بندی
دادهٔ دورافتاده یا نقطهٔ پرت، مشاهده‌ای است که فاصلهٔ زیادی از سایر داده‌ها دارد و به راحتی در نمودار جعبه‌ای به عنوان یک نقطهٔ مجزا قابل شناسایی است. این داده‌ها تأثیر بسیار زیادی بر برخی معیارهای آماری مانند میانگین و دامنه دارند، اما تأثیر کمی بر میانه و دامنهٔ بین‌چارکی می‌گذارند. برخورد صحیح با داده‌های دورافتاده نیازمند دقت و بررسی است؛ گاهی باید آنها را به عنوان خطا حذف کرد و گاهی به عنوان یک کشف جدید، آنها را ارج نهاد. درک این مفهوم برای تحلیل‌های آماری دقیق و جلوگیری از نتیجه‌گیری‌های گمراه‌کننده ضروری است.

پاورقی

1 دادهٔ دورافتاده (Outlier): مشاهده‌ای در یک مجموعه داده که از نظر آماری با سایر مشاهدات فاصلهٔ معنی‌داری دارد و احتمالاً از یک توزیع متفاوت یا به دلیل خطا ایجاد شده است.

2 نمودار جعبه‌ای (Box Plot): یک روش استاندارد برای نمایش گرافیکی گروهی از داده‌های عددی از طریق چارک‌ها و نشان دادن پراکندگی و مرکزیت داده‌ها.

3 میانه (Median): مقداری که یک مجموعه داده را به دو نیمهٔ مساوی تقسیم می‌کند؛ به طوری که نیمی از داده‌ها بزرگ‌تر یا مساوی آن و نیمی دیگر کوچک‌تر یا مساوی آن باشند.