گاما رو نصب کن!

{{ number }}
اعلان ها
اعلان جدیدی وجود ندارد!
کاربر جدید

جستجو

پربازدیدها: #{{ tag.title }}

میتونی لایو بذاری!

آمار توصیفی: شاخه‌ای از آمار برای تنظیم، خلاصه‌سازی و نمایش داده‌ها

بروزرسانی شده در: 14:22 1404/12/6 مشاهده: 21     دسته بندی: کپسول آموزشی

آمار توصیفی: هنر خلاصه‌سازی و نمایش داده‌ها

آشنایی با مفاهیم مرکزی، شاخص‌های پراکندگی و روش‌های مصورسازی داده‌ها برای درک ساده‌تر دنیای پیرامون
آمار توصیفی به عنوان یکی از شاخه‌های بنیادین علم آمار، به ما ابزارهایی برای سازمان‌دهی، خلاصه‌سازی و ارائه‌ی داده‌ها می‌دهد. این شاخه از آمار، برخلاف آمار استنباطی که به نتیجه‌گیری درباره‌ی جمعیت‌های بزرگ می‌پردازد، صرفاً به توصیف همان داده‌هایی که در دست داریم، محدود می‌شود. در این مقاله با مفاهیم کلیدی مانند شاخص‌های مرکزی، شاخص‌های پراکندگی و جدول‌ها و نمودارها آشنا می‌شویم و یاد می‌گیریم چگونه با استفاده از آن‌ها، داده‌های خام را به اطلاعاتی مفید و قابل فهم تبدیل کنیم.

شاخص‌های گرایش مرکزی: نقطه‌ی تعادل داده‌ها

شاخص‌های گرایش مرکزی سعی دارند یک مقدار مشخص را به عنوان نماینده‌ی تمام داده‌ها معرفی کنند. این مقادیر به ما می‌گویند که «مرکز» داده‌ها کجاست و بیشتر داده‌ها حول چه مقداری جمع شده‌اند. سه شاخص اصلی در این بخش عبارتند از میانگین، میانه و نما.

میانگین1 (Mean): همان معدلی است که همه ما با آن آشنا هستیم. برای محاسبه‌ی آن، کافی است همه‌ی داده‌ها را با هم جمع کرده و بر تعداد آن‌ها تقسیم کنیم. برای مثال، فرض کنید نمرات یک دانش‌آموز در 5 درس به صورت زیر باشد: 18, 15, 16, 20, 14. میانگین نمرات او برابر است با:
$ \frac{18 + 15 + 16 + 20 + 14}{5} = \frac{83}{5} = 16.6 $
میانه2 (Median): مقداری است که داده‌ها را پس از مرتب‌سازی (از کوچک به بزرگ) به دو قسمت مساوی تقسیم می‌کند. نیمی از داده‌ها از میانه کوچک‌تر و نیمی دیگر از آن بزرگ‌تر هستند. در مثال نمرات، ابتدا داده‌ها را مرتب می‌کنیم: 14, 15, 16, 18, 20. چون تعداد داده‌ها فرد است (5 تا)، میانه همان داده‌ی سوم، یعنی 16 است.

نما3 (Mode): مقداری است که بیشترین فراوانی را در بین داده‌ها دارد. اگر در یک کلاس، نمرات 10 دانش‌آموز به صورت 12, 15, 12, 17, 12, 14, 18, 12, 16, 15 باشد، نمره‌ی 12 چهار بار تکرار شده و بیش از بقیه دیده می‌شود. بنابراین نما برابر 12 است. یک مجموعه داده می‌تواند بیش از یک نما یا اصلاً نما نداشته باشد.

شاخص‌های پراکندگی: میزان تغییرپذیری داده‌ها

صرف دانستن مرکز داده‌ها کافی نیست. برای مثال، دو کلاس می‌توانند میانگین نمره‌ی یکسانی داشته باشند، اما یکی دانش‌آموزانی با نمرات بسیار نزدیک به هم و دیگری دانش‌آموزانی با نمرات بسیار پراکنده داشته باشد. شاخص‌های پراکندگی میزان این تغییرپذیری را اندازه می‌گیرند.
شاخص پراکندگی توضیح مثال (اعداد 1, 3, 5, 7, 9)
دامنه4 (Range) اختلاف بین بزرگ‌ترین و کوچک‌ترین مقدار. $ 9 - 1 = 8 $
واریانس5 (Variance) میانگین مجذور فاصله‌ی هر داده از میانگین. $ 8 $ (برای جامعه)
انحراف معیار6 (Standard Deviation) جذر واریانس. واحدی هم‌سطح با داده‌ها دارد. $ \sqrt{8} \approx 2.83 $

کاربرد عملی: مقایسه‌ی عملکرد دو فروشنده

فرض کنید مدیر یک فروشگاه هستید و می‌خواهید عملکرد دو فروشنده را در 6 روز متوالی مقایسه کنید. تعداد فروش روزانه آن‌ها به شرح زیر است:
  • فروشنده الف: 20, 18, 23, 19, 21, 19
  • فروشنده ب: 5, 10, 30, 25, 15, 35
میانگین فروش هر دو فروشنده برابر 20 است. اما اگر فقط به میانگین نگاه کنیم، متوجه تفاوت آن‌ها نمی‌شویم. با محاسبه‌ی انحراف معیار، متوجه می‌شویم که فروشنده‌ی الف عملکردی پایدار دارد (انحراف معیار پایین) در حالی که فروشنده‌ی ب روزهای بسیار خوب و بسیار بدی داشته است (انحراف معیار بالا). اینجاست که آمار توصیفی با ارائه‌ی هر دو شاخص (مرکزی و پراکندگی) به ما دید کامل‌تری می‌دهد.

جدول‌ها و نمودارها: مصورسازی داده‌ها

ارائه‌ی داده‌ها در قالب جدول و نمودار، درک الگوها و روندها را بسیار ساده‌تر می‌کند. یکی از رایج‌ترین روش‌ها برای نمایش فراوانی داده‌ها، استفاده از جدول توزیع فراوانی7 است. به عنوان مثال، نمرات 20 دانش‌آموز در یک آزمون را در نظر بگیرید:
دسته‌ی نمرات فراوانی (تعداد دانش‌آموزان) فراوانی نسبی (درصد)
0 - 10 2 10%
11 - 15 5 25%
16 - 18 8 40%
19 - 20 5 25%
جمع 20 100%
علاوه بر جدول، نمودارهایی مانند نمودار میله‌ای برای داده‌های کیفی و هیستوگرام برای داده‌های کمی، و نمودار جعبه‌ای8 برای نمایش همزمان میانه، چارک‌ها و داده‌های پرت، ابزارهای بسیار مفیدی هستند.

چالش‌های مفهومی

چالش اول: اگر در داده‌ها یک مقدار خیلی بزرگ یا خیلی کوچک (داده‌ی پرت) وجود داشته باشد، کدام شاخص مرکزی بیشتر تحت تأثیر قرار می‌گیرد؟

پاسخ: میانگین بیشترین تأثیر را از داده‌های پرت می‌پذیرد، چون در محاسبه‌ی آن از تمام مقادیر استفاده می‌شود. میانه که بر اساس جایگاه داده‌ها تعیین می‌شود، در برابر داده‌های پرت مقاوم است. به همین دلیل در مواردی مانند حقوق افراد در یک سازمان، معمولاً از میانه به جای میانگین استفاده می‌شود.

چالش دوم: آیا ممکن است میانگین یک مجموعه داده از همه‌ی داده‌ها بزرگ‌تر باشد؟

پاسخ: خیر، میانگین همیشه بین کوچک‌ترین و بزرگ‌ترین مقدار داده‌ها قرار می‌گیرد. این یک ویژگی ریاضی میانگین است. میانگین یک نوع «معدل» است و نمی‌تواند از حداقل داده‌ها کمتر یا از حداکثر آن‌ها بیشتر شود.

چالش سوم: واریانس و انحراف معیار هر دو پراکندگی را می‌سنجند. پس چرا هر دو را داریم؟

پاسخ: واریانس برای بسیاری از محاسبات آماری بعدی (مثل آمار استنباطی) کاربرد دارد. اما مشکل آن این است که واحدی مربع واحد داده‌ها دارد (مثلاً اگر داده‌ها «سانتی‌متر» باشند، واریانس «سانتی‌متر مربع» می‌شود) که تفسیر آن دشوار است. انحراف معیار با جذر گرفتن از واریانس، واحد را به واحد اصلی داده‌ها برمی‌گرداند و تفسیر آن به عنوان «میزان پراکندگی متوسط داده‌ها از میانگین» بسیار ساده‌تر است.

جمع‌بندی
آمار توصیفی ابزاری قدرتمند برای تبدیل داده‌های خام و آشفته به اطلاعاتی منظم و قابل فهم است. با استفاده از شاخص‌های مرکزی (مانند میانگین، میانه و نما) مرکز ثقل داده‌ها را پیدا می‌کنیم و با کمک شاخص‌های پراکندگی (مانند دامنه، واریانس و انحراف معیار) از میزان تغییرات و پایداری آن‌ها آگاه می‌شویم. در نهایت، با بهره‌گیری از جدول‌ها و نمودارها، می‌توانیم این اطلاعات را به شکلی جذاب و گویا به دیگران ارائه دهیم. به خاطر داشته باشیم که آمار توصیفی تنها به توصیف همان داده‌هایی که در اختیار داریم می‌پردازد و برای نتیجه‌گیری درباره‌ی جامعه‌های بزرگ‌تر باید از آمار استنباطی کمک بگیریم.

پاورقی

1 میانگین (Mean): حاصل جمع همه‌ی مقادیر تقسیم بر تعداد آن‌ها.
2 میانه (Median): مقداری که داده‌های مرتب شده را به دو نیمه‌ی مساوی تقسیم می‌کند.
3 نما (Mode): مقداری که بیشترین فراوانی را در یک مجموعه داده دارد.
4 دامنه (Range): اختلاف بین بزرگ‌ترین و کوچک‌ترین مقدار در یک مجموعه داده.
5 واریانس (Variance): میانگین مجذور انحرافات هر داده از میانگین. معیاری برای سنجش پراکندگی.
6 انحراف معیار (Standard Deviation): جذر واریانس که پراکندگی داده‌ها را بر حسب واحد خود داده‌ها نشان می‌دهد.
7 جدول توزیع فراوانی (Frequency Distribution Table): جدولی که داده‌ها را به دسته‌هایی تقسیم کرده و تعداد مشاهدات هر دسته را نشان می‌دهد.
8 نمودار جعبه‌ای (Box Plot): نموداری که خلاصه‌ای از داده‌ها شامل میانه، چارک‌ها و داده‌های پرت را نشان می‌دهد.