نمودار بافتنگاشت (هیستوگرام): پلی میان دادههای خام و الگوهای پنهان
۱. از دادههای خام تا نخستین نگاه: بافتنگاشت چیست؟
فرض کنید نمرات یک امتحان ریاضی از ۲۰ را برای 30 دانشآموز دارید. نمرات خام به صورت یک لیست طولانی از اعداد هستند. آیا میتوانید با یک نگاه بگویید که بیشتر دانشآموزان چه نمرهای گرفتهاند؟ یا چند نفر نمرهٔ عالی کسب کردهاند؟ اینجا جایی است که بافتنگاشت وارد عمل میشود. بافتنگاشت (Histogram) یک نمودار آماری است که توزیع یک مجموعه دادهٔ پیوسته را نشان میدهد. در این نمودار، محدودهٔ دادهها به چند بازهٔ مساوی (دسته یا Bin) تقسیم میشود. سپس بر روی هر بازه، یک ستون عمودی رسم میگردد که ارتفاع آن متناسب با تعداد دادههایی است که در آن بازه قرار میگیرند (فراوانی). برخلاف نمودار میلهای، ستونها در بافتنگاشت به هم میچسبند تا بر پیوستگی دادهها تأکید کنند. برای درک بهتر، به یک مثال ساده از زندگی روزمره توجه کنید: فرض کنید مسئول یک کتابخانه هستید و میخواهید بدانید که مراجعهکنندگان معمولاً چند دقیقه در کتابخانه میمانند. میتوانید مدت زمان ماندن 50 نفر را ثبت کنید. یک بافتنگاشت از این دادهها به شما نشان میدهد که آیا بیشتر افراد بازدیدهای کوتاه (۱۵-۰ دقیقه) دارند، یا بازدیدهای بلندمدت (۶۰-۴۵ دقیقه). این اطلاعات میتواند در برنامهریزی ساعات کاری یا طراحی فضا کمککننده باشد.۲. اجزای اصلی و گامهای ساخت یک بافتنگاشت
ساخت یک بافتنگاشت نیازمند طی کردن چند گام ساده اما مهم است. بیایید این گامها را با یک مثال عملی دنبال کنیم: قد 20 دانشآموز (بر حسب سانتیمتر) به این شرح است: 145, 152, 148, 155, 160, 149, 151, 158, 162, 147, 153, 157, 150, 156, 159, 146, 154, 161, 148, 163. گام اول: تعیین محدوده (Range) ابتدا بزرگترین و کوچکترین مقدار را پیدا میکنیم. بزرگترین مقدار: 163، کوچکترین مقدار: 145. محدوده = بزرگترین - کوچکترین = 163 - 145 = 18 سانتیمتر. گام دوم: تعیین تعداد دستهها (Number of Bins) تعداد دستهها معمولاً بین 5 تا 20 انتخاب میشود. یک قانون سرانگشتی، جذر تعداد دادههاست. جذر 20 حدود 4.5 است، بنابراین میتوانیم 5 دسته را انتخاب کنیم. گام سوم: تعیین پهنای دسته (Bin Width) پهنا = محدوده ÷ تعداد دستهها = 18 ÷ 5 = 3.6. برای سادگی، آن را به 4 گرد میکنیم. توجه کنید که با این کار محدودهٔ ما کمی بزرگتر میشود و باید نقطهٔ شروع را طوری تنظیم کنیم که همهٔ دادهها را پوشش دهد. گام چهارم: تشکیل دستهها و شمارش فراوانی از کمی پایینتر از کوچکترین داده شروع میکنیم، مثلاً از 144.5. - دسته ۱: ۱۴۴.۵ - ۱۴۸.۵ ← دادهها: ۱۴۵, ۱۴۸, ۱۴۹, ۱۴۷, ۱۴۶, ۱۴۸ ← فراوانی: ۶ - دسته ۲: ۱۴۸.۵ - ۱۵۲.۵ ← دادهها: ۱۵۲, ۱۵۱, ۱۵۰ ← فراوانی: ۳ - دسته ۳: ۱۵۲.۵ - ۱۵۶.۵ ← دادهها: ۱۵۵, ۱۵۳, ۱۵۴, ۱۵۶ ← فراوانی: ۴ - دسته ۴: ۱۵۶.۵ - ۱۶۰.۵ ← دادهها: ۱۶۰, ۱۵۸, ۱۵۷, ۱۵۹ ← فراوانی: ۴ - دسته ۵: ۱۶۰.۵ - ۱۶۴.۵ ← دادهها: ۱۶۲, ۱۶۱, ۱۶۳ ← فراوانی: ۳ حالا میتوانید جدول فراوانی زیر را مشاهده کنید:| شماره دسته | کران پایین (شامل) | کران بالا (غیرشامل) | فراوانی |
|---|---|---|---|
| ۱ | ۱۴۴.۵ | ۱۴۸.۵ | ۶ |
| ۲ | ۱۴۸.۵ | ۱۵۲.۵ | ۳ |
| ۳ | ۱۵۲.۵ | ۱۵۶.۵ | ۴ |
| ۴ | ۱۵۶.۵ | ۱۶۰.۵ | ۴ |
| ۵ | ۱۶۰.۵ | ۱۶۴.۵ | ۳ |
۳. کاربرد عملی: چگونه از بافتنگاشت برای تصمیمگیری استفاده کنیم؟
بافتنگاشت تنها یک تصویر زیبا نیست، بلکه ابزاری برای تحلیل و تصمیمگیری است. یک فروشگاه اینترنتی میخواهد استراتژی تخفیف خود را تنظیم کند. آنها دادههای مربوط به مبلغ خرید ۱۰۰۰ مشتری را در یک ماه جمعآوری میکنند. با رسم یک بافتنگاشت از این دادهها، ممکن است الگوهای زیر را مشاهده کنند:- خریدهای خرد: ستونی بلند در بازهٔ ۵۰-۰ هزار تومان نشان میدهد که تعداد زیادی از مشتریان خریدهای کوچک انجام میدهند. این میتواند به معنای نیاز به ارائهٔ محصولات ارزانتر یا بستههای کوچکتر باشد.
- خریدهای متوسط: یک توزیع نرمال (به شکل زنگوله) در بازهٔ ۲۰۰-۱۰۰ هزار تومان نشاندهندهٔ هستهٔ اصلی مشتریان است. تخفیفهای فصلی میتوانند روی این گروه هدفگیری شوند.
- خریدهای کلان: دنبالهای بلند و کشیده در سمت راست نمودار (بازههای بالاتر) نشاندهندهٔ مشتریان ویژه است که ممکن است نیاز به خدمات اختصاصی داشته باشند.
۴. چالشهای مفهومی در درک بافتنگاشت
❓ سؤال ۱: تفاوت بافتنگاشت با نمودار میلهای در چیست؟ چرا ستونها در بافتنگاشت به هم چسبیده هستند؟
✅ پاسخ: تفاوت اصلی در نوع دادههاست. نمودار میلهای برای دادههای گسسته یا دستهای (مثل نوع خودرو یا تعداد فرزندان) استفاده میشود و بین میلهها فاصله هست. بافتنگاشت برای دادههای پیوسته (مثل دما، وزن، زمان) کاربرد دارد و چسبیدگی ستونها نمادی از پیوستگی دادههاست. یعنی مقدار میتواند هر عددی در طول محور باشد و مرز مشخصی بین دستهها وجود ندارد.
❓ سؤال ۲: اگر تعداد دستهها را خیلی کم یا خیلی زیاد انتخاب کنیم، چه اتفاقی برای شکل توزیع میافتد؟
✅ پاسخ: اگر تعداد دستهها خیلی کم باشد (پهنای دسته زیاد)، اطلاعات جزئی از بین میرود و نمودار بسیار ساده و خشن میشود. ممکن است الگوهای مهم پنهان بمانند. اگر تعداد دستهها خیلی زیاد باشد (پهنای دسته کم)، نمودار پرنوسان و نویزی میشود و ممکن است تصویر کلی از دست برود. انتخاب بهینه یکی از چالشهای اصلی در رسم بافتنگاشت است.
❓ سؤال ۳: عبارت «کران بالا غیرشامل» در جدول فراوانی به چه معناست؟ مثلاً در دسته [۱۴۸.۵, ۱۵۲.۵) چه دادههایی قرار میگیرند؟
✅ پاسخ: علامت کروشه [ به معنای «شامل» و پرانتز ) به معنای «غیرشامل» است. یعنی دادهای که دقیقاً برابر ۱۴۸.۵ باشد در این دسته قرار میگیرد، اما دادهای که برابر ۱۵۲.۵ باشد در این دسته قرار نمیگیرد و به دستهٔ بعدی ([۱۵۲.۵, ۱۵۶.۵)) تعلق میگیرد. این قانون از شمارش دوبارهٔ یک داده در دو دستهٔ مجاور جلوگیری میکند.
بافتنگاشت (هیستوگرام) یک ابزار قدرتمند و بصری برای درک توزیع دادههای پیوسته است. با تبدیل دادههای خام به دستههای منظم و نمایش فراوانی آنها با ستونهای بههمچسبیده، میتوانیم به سرعت الگوهایی مانند چولگی، تقارن، پراکندگی و مرکزیت دادهها را تشخیص دهیم. انتخاب تعداد مناسب دستهها کلید ترسیم یک بافتنگاشت مفید است. از علوم پایه و مهندسی گرفته تا بازاریابی و اقتصاد، این نمودار به ما کمک میکند تا از پشت اعداد، داستان دادهها را بخوانیم و تصمیمات آگاهانهتری بگیریم.
پاورقی
1 بافتنگاشت (Histogram): نمایش گرافیکی از توزیع یک مجموعه دادهٔ پیوسته که در آن دادهها به دستههای مساوی تقسیم شده و فراوانی هر دسته با ارتفاع یک ستون نشان داده میشود.2 دادههای پیوسته (Continuous Data): دادههایی که میتوانند هر مقدار عددی را در یک بازهٔ مشخص اختیار کنند، مانند دما، قد یا زمان.
3 دسته یا Bin: بازهای از مقادیر که دادهها در آن گروهبندی میشوند. پهنای دسته تأثیر مستقیمی بر شکل نهایی نمودار دارد.
4 فراوانی (Frequency): تعداد دفعاتی که یک مقدار یا داده در یک دستهٔ خاص تکرار شده است.
5 توزیع نرمال (Normal Distribution): یک توزیع احتمالی متقارن و زنگولهای شکل که در آن میانگین، میانه و مد با هم برابر هستند و بسیاری از پدیدههای طبیعی از آن پیروی میکنند.