داده: الفبای زبان آمار
داده چیست؟ از مشاهده تا ثبت
به زبان خیلی ساده، داده یعنی یک سری اطلاعات خام که از راههای مختلف به دست میآوریم. این اطلاعات میتواند حاصل یک مشاهده، یک آزمایش علمی، یا یک نظرسنجی ساده باشد. برای مثال، وقتی مربی ورزشی قد و وزن بازیکنان تیم فوتبال مدرسه را یادداشت میکند، در حال جمعآوری داده است. یا وقتی یک هواشناس دمای هوا را هر روز در یک ساعت مشخص مینویسد، او هم دارد داده ثبت میکند. این دادهها به تنهایی ممکن است معنی خاصی ندهند، اما وقتی کنار هم قرار میگیرند و تحلیل میشوند، میتوانند اطلاعات ارزشمندی در اختیار ما بگذارند. به عبارت دیگر، داده مادهٔ خامی است که پس از پردازش به اطلاعات مفید تبدیل میشود.
انواع داده: کمی و کیفی
دادهها را میتوان بر اساس ویژگیهایشان به دو دستهٔ کلی تقسیم کرد: دادههای کمی و دادههای کیفی. دادههای کمی آنهایی هستند که با اعداد و ارقام سروکار دارند و میشود روی آنها عملیات ریاضی انجام داد، مثل سن، قد، دما یا تعداد اعضای خانواده. در مقابل، دادههای کیفی توصیفکنندهٔ ویژگیها و صفاتی هستند که با عدد قابل اندازهگیری نیستند، مانند رنگ چشم، نوع خودرو، یا نظر یک فرد در مورد یک فیلم.
| نوع داده | توضیح | مثالها | عملیات ریاضی |
|---|---|---|---|
| کمی (عددی) | قابل شمارش یا اندازهگیری با عدد | وزن (۶۰ کیلوگرم)، تعداد خواهر و برادر (۲ نفر) | مجاز |
| کیفی (توصیفی) | بیانکنندهٔ ویژگی و دستهبندی | جنسیت، رشتهٔ تحصیلی (ریاضی، تجربی) | غیرمجاز |
دادههای کمی خود به دو زیرگروه گسسته و پیوسته تقسیم میشوند. دادههای گسسته فقط مقادیر مشخص و جدا از هم میتوانند بگیرند (مثل تعداد فرزندان خانواده که فقط اعداد طبیعی است)، در حالی که دادههای پیوسته هر مقداری در یک بازه میتوانند داشته باشند (مثل قد یک فرد که میتواند ۱۷۰/۵ سانتیمتر باشد).
جامعه و نمونه: همه یا تعدادی؟
در علم آمار، به مجموعهٔ کاملی از افراد یا اشیاء که میخواهیم دربارهشان تحقیق کنیم، جامعه1 میگویند. اما معمولاً بررسی همهٔ اعضای یک جامعه کار دشوار، پرهزینه و گاهی غیرممکن است. به همین دلیل، آمارگیران بخشی از جامعه را انتخاب میکنند که به آن نمونه2 میگویند. نمونه باید معرف خوبی برای کل جامعه باشد تا بتوان نتایج بهدستآمده از آن را به کل جامعه تعمیم داد.
کاربرد روزمره داده در زندگی ما
شاید فکر کنید داده و آمار فقط در کتابهای درسی کاربرد دارد، اما اینطور نیست. ما هر روز بدون آنکه متوجه باشیم، با داده سروکار داریم و از آن استفاده میکنیم. برای مثال:
- پیشبینی هوا: سازمان هواشناسی با جمعآوری دادههای دما، فشار هوا و رطوبت از ایستگاههای مختلف (نمونههایی از جو زمین)، وضعیت هوای فردا را پیشبینی میکند.
- نظرخواهیها: قبل از انتخابات، نظرسنجیهایی از گروه کوچکی از مردم (نمونه) انجام میشود تا مشخص شود کدام کاندیدا شانس بیشتری برای پیروزی در کل کشور (جامعه) دارد.
- کیفیت کالاها: یک کارخانهٔ چیپس برای اطمینان از کیفیت محصولاتش، هر روز چند بسته را به صورت تصادفی از خط تولید برمیدارد (نمونه) و آنها را از نظر طعم و بستهبندی بررسی میکند. اگر نمونهها خوب بودند، نتیجه میگیرند که همهٔ محصولات آن روز (جامعه) خوب هستند.
چالشهای مفهومی در درک داده
داده، مادهٔ خام و پردازشنشده است (مثل تکههای آجر). اطلاعات، دادههایی هستند که معنیدار شده و در یک بافت خاص قرار گرفتهاند (مثل دیواری که با چیدن منظم آن آجرها ساخته شده است). برای مثال، اعداد ۱۴، ۱۲، ۱۸ داده هستند، اما اگر بگوییم «میانگین نمرات سه دانشآموز در امتحان علوم ۱۴/۶ است»، این یک اطلاعات مفید است.
اگر نمونه تصادفی نباشد، ممکن است دچار سوگیری شود و نمایندهٔ خوبی برای کل جامعه نباشد. مثلاً اگر برای نظرسنجی دربارهٔ محبوبیت یک خواننده، فقط از دانشآموزان یک کلاس موسیقی سوال کنید، نتیجهٔ کار شما با واقعیت (نظر کل دانشآموزان مدرسه) تفاوت زیادی خواهد داشت.
خیر! گاهی اعداد برای کدگذاری دادههای کیفی استفاده میشوند. برای مثال، اگر برای جنسیت در یک پرسشنامه، عدد ۱ را برای مرد و ۲ را برای زن در نظر بگیریم، این اعداد معنای کمی ندارند و نمیتوان میانگین آنها را حساب کرد. اینجا اعداد نقش یک برچسب را دارند.
پاورقی
1 جامعه (Population): در آمار، به مجموعهٔ کامل از تمام افراد، اشیاء یا مشاهداتی که مورد نظر یک مطالعه است، جامعه گفته میشود.
2 نمونه (Sample): زیرمجموعهای از جامعه که برای انجام مطالعه و نتیجهگیری دربارهٔ کل جامعه انتخاب میشود.