گاما رو نصب کن!

{{ number }}
اعلان ها
اعلان جدیدی وجود ندارد!
کاربر جدید

جستجو

پربازدیدها: #{{ tag.title }}

میتونی لایو بذاری!

نمودار بافت‌نگاشت: نامی برای نمایش داده‌های پیوسته به صورت دسته‌بندی‌شده با ستون‌های پیوسته

بروزرسانی شده در: 14:48 1404/12/6 مشاهده: 17     دسته بندی: کپسول آموزشی

نمودار بافت‌نگاشت (هیستوگرام): پلی میان داده‌های خام و الگوهای پنهان

آشنایی با نحوه تبدیل داده‌های پیوسته به دسته‌های بصری و کشف توزیع فراوانی به زبان ساده
در این مقاله با یکی از پرکاربردترین ابزارهای آمار توصیفی به نام «بافت‌نگاشت» یا «هیستوگرام» آشنا می‌شویم. یاد می‌گیریم که چگونه داده‌های خام و پیوسته (مانند قد دانش‌آموزان یا دمای هوا) را به دسته‌های منظم تقسیم کرده و با رسم ستون‌های به‌هم‌چسبیده، الگوی توزیع آن‌ها را مشاهده کنیم. مفاهیمی مانند تعداد دسته‌ها، فراوانی و کران‌های دسته، همراه با مثال‌های ملموس از زندگی روزمره بررسی خواهند شد.

۱. از داده‌های خام تا نخستین نگاه: بافت‌نگاشت چیست؟

فرض کنید نمرات یک امتحان ریاضی از ۲۰ را برای 30 دانش‌آموز دارید. نمرات خام به صورت یک لیست طولانی از اعداد هستند. آیا می‌توانید با یک نگاه بگویید که بیشتر دانش‌آموزان چه نمره‌ای گرفته‌اند؟ یا چند نفر نمرهٔ عالی کسب کرده‌اند؟ اینجا جایی است که بافت‌نگاشت وارد عمل می‌شود. بافت‌نگاشت (Histogram) یک نمودار آماری است که توزیع یک مجموعه دادهٔ پیوسته را نشان می‌دهد. در این نمودار، محدودهٔ داده‌ها به چند بازهٔ مساوی (دسته یا Bin) تقسیم می‌شود. سپس بر روی هر بازه، یک ستون عمودی رسم می‌گردد که ارتفاع آن متناسب با تعداد داده‌هایی است که در آن بازه قرار می‌گیرند (فراوانی). برخلاف نمودار میله‌ای، ستون‌ها در بافت‌نگاشت به هم می‌چسبند تا بر پیوستگی داده‌ها تأکید کنند. برای درک بهتر، به یک مثال ساده از زندگی روزمره توجه کنید: فرض کنید مسئول یک کتابخانه هستید و می‌خواهید بدانید که مراجعه‌کنندگان معمولاً چند دقیقه در کتابخانه می‌مانند. می‌توانید مدت زمان ماندن 50 نفر را ثبت کنید. یک بافت‌نگاشت از این داده‌ها به شما نشان می‌دهد که آیا بیشتر افراد بازدیدهای کوتاه (۱۵-۰ دقیقه) دارند، یا بازدیدهای بلندمدت (۶۰-۴۵ دقیقه). این اطلاعات می‌تواند در برنامه‌ریزی ساعات کاری یا طراحی فضا کمک‌کننده باشد.
فرمول کلیدی ارتفاع هر ستون در بافت‌نگاشت نشان‌دهندهٔ فراوانی داده‌ها در آن دسته است. اگر داده‌ها را با $x_i$ و تعداد دسته‌ها را با $k$ نشان دهیم، ارتفاع ستون $j$ام برابر است با تعداد $x_i$هایی که در بازهٔ $[L_j, U_j)$ قرار دارند.

۲. اجزای اصلی و گام‌های ساخت یک بافت‌نگاشت

ساخت یک بافت‌نگاشت نیازمند طی کردن چند گام ساده اما مهم است. بیایید این گام‌ها را با یک مثال عملی دنبال کنیم: قد 20 دانش‌آموز (بر حسب سانتی‌متر) به این شرح است: 145, 152, 148, 155, 160, 149, 151, 158, 162, 147, 153, 157, 150, 156, 159, 146, 154, 161, 148, 163. گام اول: تعیین محدوده (Range) ابتدا بزرگترین و کوچکترین مقدار را پیدا می‌کنیم. بزرگترین مقدار: 163، کوچکترین مقدار: 145. محدوده = بزرگترین - کوچکترین = 163 - 145 = 18 سانتی‌متر. گام دوم: تعیین تعداد دسته‌ها (Number of Bins) تعداد دسته‌ها معمولاً بین 5 تا 20 انتخاب می‌شود. یک قانون سرانگشتی، جذر تعداد داده‌هاست. جذر 20 حدود 4.5 است، بنابراین می‌توانیم 5 دسته را انتخاب کنیم. گام سوم: تعیین پهنای دسته (Bin Width) پهنا = محدوده ÷ تعداد دسته‌ها = 18 ÷ 5 = 3.6. برای سادگی، آن را به 4 گرد می‌کنیم. توجه کنید که با این کار محدودهٔ ما کمی بزرگتر می‌شود و باید نقطهٔ شروع را طوری تنظیم کنیم که همهٔ داده‌ها را پوشش دهد. گام چهارم: تشکیل دسته‌ها و شمارش فراوانی از کمی پایین‌تر از کوچکترین داده شروع می‌کنیم، مثلاً از 144.5. - دسته ۱: ۱۴۴.۵ - ۱۴۸.۵ ← داده‌ها: ۱۴۵, ۱۴۸, ۱۴۹, ۱۴۷, ۱۴۶, ۱۴۸ ← فراوانی: ۶ - دسته ۲: ۱۴۸.۵ - ۱۵۲.۵ ← داده‌ها: ۱۵۲, ۱۵۱, ۱۵۰ ← فراوانی: ۳ - دسته ۳: ۱۵۲.۵ - ۱۵۶.۵ ← داده‌ها: ۱۵۵, ۱۵۳, ۱۵۴, ۱۵۶ ← فراوانی: ۴ - دسته ۴: ۱۵۶.۵ - ۱۶۰.۵ ← داده‌ها: ۱۶۰, ۱۵۸, ۱۵۷, ۱۵۹ ← فراوانی: ۴ - دسته ۵: ۱۶۰.۵ - ۱۶۴.۵ ← داده‌ها: ۱۶۲, ۱۶۱, ۱۶۳ ← فراوانی: ۳ حالا می‌توانید جدول فراوانی زیر را مشاهده کنید:
شماره دسته کران پایین (شامل) کران بالا (غیرشامل) فراوانی
۱ ۱۴۴.۵ ۱۴۸.۵ ۶
۲ ۱۴۸.۵ ۱۵۲.۵ ۳
۳ ۱۵۲.۵ ۱۵۶.۵ ۴
۴ ۱۵۶.۵ ۱۶۰.۵ ۴
۵ ۱۶۰.۵ ۱۶۴.۵ ۳

۳. کاربرد عملی: چگونه از بافت‌نگاشت برای تصمیم‌گیری استفاده کنیم؟

بافت‌نگاشت تنها یک تصویر زیبا نیست، بلکه ابزاری برای تحلیل و تصمیم‌گیری است. یک فروشگاه اینترنتی می‌خواهد استراتژی تخفیف خود را تنظیم کند. آنها داده‌های مربوط به مبلغ خرید ۱۰۰۰ مشتری را در یک ماه جمع‌آوری می‌کنند. با رسم یک بافت‌نگاشت از این داده‌ها، ممکن است الگوهای زیر را مشاهده کنند:
  • خریدهای خرد: ستونی بلند در بازهٔ ۵۰-۰ هزار تومان نشان می‌دهد که تعداد زیادی از مشتریان خریدهای کوچک انجام می‌دهند. این می‌تواند به معنای نیاز به ارائهٔ محصولات ارزان‌تر یا بسته‌های کوچک‌تر باشد.
  • خریدهای متوسط: یک توزیع نرمال (به شکل زنگوله) در بازهٔ ۲۰۰-۱۰۰ هزار تومان نشان‌دهندهٔ هستهٔ اصلی مشتریان است. تخفیف‌های فصلی می‌توانند روی این گروه هدف‌گیری شوند.
  • خریدهای کلان: دنباله‌ای بلند و کشیده در سمت راست نمودار (بازه‌های بالاتر) نشان‌دهندهٔ مشتریان ویژه است که ممکن است نیاز به خدمات اختصاصی داشته باشند.
به این ترتیب، یک نمودار ساده می‌تواند استراتژی کسب‌وکار را شکل دهد. مثلاً می‌توان برای گروه اول، پیشنهاد خرید چند محصول به صورت همزمان با تخفیف ویژه طراحی کرد تا میانگین خرید را بالا ببرد.

۴. چالش‌های مفهومی در درک بافت‌نگاشت

❓ سؤال ۱: تفاوت بافت‌نگاشت با نمودار میله‌ای در چیست؟ چرا ستون‌ها در بافت‌نگاشت به هم چسبیده هستند؟

✅ پاسخ: تفاوت اصلی در نوع داده‌هاست. نمودار میله‌ای برای داده‌های گسسته یا دسته‌ای (مثل نوع خودرو یا تعداد فرزندان) استفاده می‌شود و بین میله‌ها فاصله هست. بافت‌نگاشت برای داده‌های پیوسته (مثل دما، وزن، زمان) کاربرد دارد و چسبیدگی ستون‌ها نمادی از پیوستگی داده‌هاست. یعنی مقدار می‌تواند هر عددی در طول محور باشد و مرز مشخصی بین دسته‌ها وجود ندارد.

❓ سؤال ۲: اگر تعداد دسته‌ها را خیلی کم یا خیلی زیاد انتخاب کنیم، چه اتفاقی برای شکل توزیع می‌افتد؟

✅ پاسخ: اگر تعداد دسته‌ها خیلی کم باشد (پهنای دسته زیاد)، اطلاعات جزئی از بین می‌رود و نمودار بسیار ساده و خشن می‌شود. ممکن است الگوهای مهم پنهان بمانند. اگر تعداد دسته‌ها خیلی زیاد باشد (پهنای دسته کم)، نمودار پرنوسان و نویزی می‌شود و ممکن است تصویر کلی از دست برود. انتخاب بهینه یکی از چالش‌های اصلی در رسم بافت‌نگاشت است.

❓ سؤال ۳: عبارت «کران بالا غیرشامل» در جدول فراوانی به چه معناست؟ مثلاً در دسته [۱۴۸.۵, ۱۵۲.۵) چه داده‌هایی قرار می‌گیرند؟

✅ پاسخ: علامت کروشه [ به معنای «شامل» و پرانتز ) به معنای «غیرشامل» است. یعنی داده‌ای که دقیقاً برابر ۱۴۸.۵ باشد در این دسته قرار می‌گیرد، اما داده‌ای که برابر ۱۵۲.۵ باشد در این دسته قرار نمی‌گیرد و به دستهٔ بعدی ([۱۵۲.۵, ۱۵۶.۵)) تعلق می‌گیرد. این قانون از شمارش دوبارهٔ یک داده در دو دستهٔ مجاور جلوگیری می‌کند.

جمع‌بندی
بافت‌نگاشت (هیستوگرام) یک ابزار قدرتمند و بصری برای درک توزیع داده‌های پیوسته است. با تبدیل داده‌های خام به دسته‌های منظم و نمایش فراوانی آن‌ها با ستون‌های به‌هم‌چسبیده، می‌توانیم به سرعت الگوهایی مانند چولگی، تقارن، پراکندگی و مرکزیت داده‌ها را تشخیص دهیم. انتخاب تعداد مناسب دسته‌ها کلید ترسیم یک بافت‌نگاشت مفید است. از علوم پایه و مهندسی گرفته تا بازاریابی و اقتصاد، این نمودار به ما کمک می‌کند تا از پشت اعداد، داستان داده‌ها را بخوانیم و تصمیمات آگاهانه‌تری بگیریم.

پاورقی

1 بافت‌نگاشت (Histogram): نمایش گرافیکی از توزیع یک مجموعه دادهٔ پیوسته که در آن داده‌ها به دسته‌های مساوی تقسیم شده و فراوانی هر دسته با ارتفاع یک ستون نشان داده می‌شود.
2 داده‌های پیوسته (Continuous Data): داده‌هایی که می‌توانند هر مقدار عددی را در یک بازهٔ مشخص اختیار کنند، مانند دما، قد یا زمان.
3 دسته یا Bin: بازه‌ای از مقادیر که داده‌ها در آن گروه‌بندی می‌شوند. پهنای دسته تأثیر مستقیمی بر شکل نهایی نمودار دارد.
4 فراوانی (Frequency): تعداد دفعاتی که یک مقدار یا داده در یک دستهٔ خاص تکرار شده است.
5 توزیع نرمال (Normal Distribution): یک توزیع احتمالی متقارن و زنگوله‌ای شکل که در آن میانگین، میانه و مد با هم برابر هستند و بسیاری از پدیده‌های طبیعی از آن پیروی می‌کنند.