طبقهبندی دادهها در کاوشگری: کلید کشف دنیای اطلاعات
داده چیست و چرا باید آن را طبقهبندی کنیم؟
همه چیز به دادهها برمیگردد! دادهها واقعیتهای خام و دستنخوردهای هستند که به خودی خود معنی خاصی ندارند. مثلاً، اعداد 160، 45 و 12 فقط چند عدد هستند. اما اگر بگوییم اینها به ترتیب قد، وزن و سن یک دانشآموز هستند، ناگهان تبدیل به اطلاعات میشوند. طبقهبندی، یعنی مرتبکردن و گروهبندی این دادههای خام بر اساس ویژگیهای مشترک. این کار مانند این است که اسباببازیهای خود را بر اساس رنگ، اندازه یا نوع در جعبههای مختلف بچینید؛ پیدا کردن و استفاده از آنها بسیار آسانتر میشود.
انواع اصلی دادهها را بشناسیم
دادهها را میتوان به دو دستهٔ اصلی تقسیم کرد. شناخت این دو دسته، اولین قدم برای طبقهبندی صحیح است.
| نوع داده | توضیح | مثال |
|---|---|---|
| دادههای عددی (کمی) | دادههایی که با اعداد نشان داده میشوند و میتوان روی آنها عملیات ریاضی (جمع، میانگین و...) انجام داد. | قد، وزن، نمرهٔ امتحان، تعداد گلهای یک بازیکن |
| دادههای دستهای (کیفی) | دادههایی که برای توصیف یک ویژگی یا دسته به کار میروند. آنها را نمیتوان با اعداد اندازه گرفت. | رنگ مو، نام شهر، نوع میوه، گروه خونی |
حالا فرض کنید میخواهید پروندهای از تمام دانشآموزان کلاس تهیه کنید. دادههای عددی را در یک ستون (مثل سن یا معدل) و دادههای دستهای را در ستونی دیگر (مثل جنسیت یا علاقهمندی ورزشی) قرار میدهید. این همان پایه و اساس طبقهبندی است!
چگونه دادههای عددی را جزئیتر طبقهبندی کنیم؟
دادههای عددی خود به دو نوع مهم تقسیم میشوند:
۱. دادههای گسسته: این دادهها فقط میتوانند مقادیر صحیح و مشخص داشته باشند. بین دو عدد متوالی، عدد دیگری وجود ندارد. مثلاً «تعداد اعضای خانواده» یک دادهٔ گسسته است. شما نمیتوانید 4.5 نفر در خانواده داشته باشید! یا «تعداد ماشینهای یک پارکینگ».
۲. دادههای پیوسته: این دادهها میتوانند هر مقداری در یک بازه را بگیرند. آنها قابل تقسیم به بخشهای کوچکتر هستند. مثلاً «قد» یک دادهٔ پیوسته است. قد یک نفر میتواند 165.5 سانتیمتر، 165.55 یا حتی دقیقتر باشد. «وزن» و «دمای هوا» دیگر مثالهای این نوع داده هستند.
کاوش در دادههای دستهای: اسمی و ترتیبی
دادههای دستهای (کیفی) نیز دو زیرمجموعه دارند:
۱. دادههای اسمی: این دادهها فقط نامگذاری میکنند و ترتیب یا اولویت خاصی بین آنها وجود ندارد. مثل «رنگ چشم» (آبی، قهوهای، سبز) یا «شهر محل سکونت». گفتن اینکه «قهوهای از آبی بهتر است» معنایی ندارد.
۲. دادههای ترتیبی: این دادهها علاوه بر نام، یک ترتیب یا رتبه نیز دارند. اما فاصله بین رتبهها مشخص نیست. مثلاً «نمرهٔ کیفی در مدرسه» (ضعیف، متوسط، خوب، عالی). میدانیم که «عالی» از «خوب» بهتر است، اما نمیدانیم دقیقاً چقدر بهتر. «سطح رضایت» (خیلی ناراضی، ناراضی، بیتفاوت، راضی، بسیار راضی) مثال دیگری است.
یک پروژهٔ کاوشگری: تحلیل بازی بسکتبال
بیایید با یک مثال واقعی همه چیز را تمرین کنیم. فرض کنید شما سرمربی یک تیم بسکتبال مدرسه هستید و دادههای بازیکنان خود را جمعآوری کردهاید:
| نام بازیکن | قد (سانتیمتر) | تعداد گلهای سهامتیازی | پست بازی | سطح مهارت |
|---|---|---|---|---|
| علی | 185 | 12 | شوتینگ گارد | عالی |
| پارسا | 195 | 2 | سنتر | متوسط |
| سارا | 172 | 8 | پوینت گارد | خوب |
حالا بیایید این دادهها را طبقهبندی کنیم:
- قد: دادهٔ عددی پیوسته.
- تعداد گلهای سهامتیازی: دادهٔ عددی گسسته.
- پست بازی: دادهٔ دستهای اسمی (ترتیبی بین پستها وجود ندارد).
- سطح مهارت: دادهٔ دستهای ترتیبی (ترتیب دارد: ضعیف < متوسط < خوب < عالی).
حالا شما به عنوان کاوشگر داده میتوانید از این طبقهبندی استفاده کنید. مثلاً میتوانید بفهمید که بازیکنان با پست «شوتینگ گارد» به طور متوسط چند گل سهامتیازی میزنند یا آیا بین قد و پست بازی رابطهای وجود دارد یا نه. اینها سؤالاتی هستند که طبقهبندی دادهها پاسخ دادن به آنها را ممکن میسازد.
اشتباهات رایج و پرسشهای مهم
اگرچه کد ملی با عدد نوشته میشود، اما یک دادهٔ دستهای اسمی است. زیرا این اعداد فقط برای شناسایی و نامگذاری افراد به کار میروند. شما نمیتوانید کد ملی دو نفر را با هم جمع بزنید یا میانگین بگیرید! آنها را فقط میشمارید و دستهبندی میکنید (مثلاً کدهای ملی که با عدد ۱ شروع میشوند). شماره تلفن و کد پستی نیز چنین هستند.
بزرگترین اشتباه، قاطی کردن دادههای عددی و دستهای است. مثلاً اگر از مردم بخواهید میزان رضایت خود از ۱ تا ۵ امتیاز دهند، شما یک عدد دریافت میکنید. اما این عدد، یک دادهٔ عددی واقعی نیست، بلکه یک دادهٔ ترتیبی است که با عدد نشان داده شده. چون فاصله بین امتیاز ۴ و ۵ لزوماً با فاصله بین امتیاز ۱ و ۲ برابر نیست. برای تحلیل چنین دادههایی باید بسیار careful بود.
شما هر روز از طبقهبندی استفاده میکنید! وقتی آهنگهای خود در تلفن همراه را بر اساس سبک (پاپ، راک، سنتی) یا خواننده مرتب میکنید، در حال کاوشگری دادهها هستید. وقتی برای خرید میوه، آنها را بر اساس نوع (سیب، پرتقال) و سپس بر اساس تازگی دستهبندی میکنید، همین کار را انجام میدهید. این مهارت به شما کمک میکند تا در درسها، پروژهها و حتی زندگی روزمره، تصمیمهای هوشمندانهتری بگیرید.
پاورقی
1داده (Data): واقعیتهای خام و ثبتشده دربارهٔ یک چیز. معادل انگلیسی: Data.
2اطلاعات (Information): دادههایی که پردازش، سازماندهی و تفسیر شدهاند تا معنادار شوند. معادل انگلیسی: Information.
3کاوشگری دادهها (Data Exploration): فرآیند بررسی اولیهٔ دادهها برای یافتن الگوها، ناهنجاریها و بینشهای کلی. معادل انگلیسی: Data Exploration.
