تاریخچهٔ آمار: از شمارش تا علم داده
دوران باستان: سرشماری و ثبت دادههای دولتی
تاریخ آمار به حدود ۴۰۰۰ سال پیش بازمیگردد، زمانی که تمدنهای اولیه برای ادارهٔ قلمرو خود نیاز به شمارش داشتند. بابلیها و مصریها با ثبت اطلاعات مربوط به زاد و ولد، داراییها و محصولات کشاورزی، نخستین گامها را در این مسیر برداشتند [1]. در ایران باستان نیز این دانش جایگاه ویژهای داشت. واژهٔ «آمار» ریشه در زبان پارسی دارد و از کلمهٔ اوستایی «مر» به معنای شمردن گرفته شده است [1].
در زمان هخامنشیان، به ویژه داریوش بزرگ، تشکیلات منظمی برای جمعآوری آمار وجود داشت. اطلاعات به دست آمده برای تنظیم دفاتر مالیاتی و نظامی و همچنین بودجهٔ کشور استفاده میشد [1]. ساسانیان نیز در این زمینه بسیار پیشرفته بودند؛ در دورهٔ انوشیروان، سرشماری دقیقی برای تعیین مالیات سرانه انجام میشد که در آن سن افراد (بین ۲۰ تا ۵۰ سال) و میزان ثروتشان ثبت میگردید [1].
<!-- مثال علمی کوتاه -->برای مثال، در تختجمشید، کتیبههایی به دست آمده که نشان میدهد کارگران پروژههای ساختمانی بر اساس جنسیت و مهارت دستهبندی میشدند و دستمزد آنها (که اغلب به صورت جنسی بود) ثبت میگردید. این یک نمونهٔ اولیه از تجزیه و تحلیل دادههای نیروی کار است.
قرون وسطی و رنسانس: تولد نظریهٔ احتمال
پس از دورهٔ باستان، علم آمار برای قرنها بیشتر به همان شکل توصیفی و دولتی ادامه یافت. اما نقطهٔ عطف بزرگ در قرن هفدهم رخ داد. علاقهٔ اشراف زادگان ایتالیایی به بازیهای قمار، ذهن ریاضیدانان را به خود جلب کرد. چه طور میشود شانس برنده شدن را محاسبه کرد؟
جرولامو کاردانو۱، ریاضیدان ایتالیایی، در کتاب «بازیها و شانس» روشهای تقلب را فاش کرد، اما مهمتر از آن، پایههای نخستین محاسبهٔ احتمال را بنا نهاد [1]. چند دهه بعد، مکاتبات معروف بین بلز پاسکال۲ و پیر دو فرما۳ در فرانسه، منجر به شکلگیری رسمی «نظریهٔ احتمال» شد. آنها مسئلهای به نام «مسئلهٔ تقسیم» را حل کردند: اگر دو بازیکر تصمیم بگیرند پیش از پایان بازی، پول شرطبندی را بین خود تقسیم کنند، سهم عادلانهٔ هر کس چقدر است؟
قرن نوزدهم: اوجگیری آمار استنباطی
در قرن نوزدهم، آمار از یک علم صرفاً توصیفی (شمارش و گزارش) به علمی استنباطی تبدیل شد که سعی داشت از روی دادههای محدود، در مورد کل جامعه نتیجهگیری کند. در این دوره شاهد ظهور چهرههای شاخصی هستیم:
- آدولف کُتله۴، ستارهشناس و ریاضیدان بلژیکی، مفهوم «انسان متوسط» را مطرح کرد و نشان داد که چگونه بسیاری از پدیدههای اجتماعی مانند جرم و جنایت، از الگوهای آماری پایدار پیروی میکنند.
- فرانسیس گالتون۵، پسرعموی داروین، با مطالعه روی نخودها و قد انسانها، مفهوم همبستگی (Correlation) را کشف کرد. او متوجه شد اگر پدری قدبلند باشد، پسرش نیز معمولاً بلندقد است اما نه به اندازهٔ پدر. این پدیده را «رجعت به سوی میانگین» نامید.
- کارل پیرسون۶، کارهای گالتون را توسعه داد و ضریب همبستگی پیرسون را که هنوز هم پرکاربردترین معیار برای سنجش رابطه بین دو متغیر است، معرفی کرد.
| ویژگی | آمار توصیفی | آمار استنباطی |
|---|---|---|
| هدف | خلاصهسازی و توصیف دادهها | نتیجهگیری و تعمیم از نمونه به جامعه |
| ابزارها | نمودارها، میانگین، میانه، انحراف معیار | آزمون فرض، فاصله اطمینان، تحلیل رگرسیون |
| مثال تاریخی | سرشماریهای ایران باستان | کارهای گالتون روی رجعت به میانگین |
قرن بیستم: انقلاب فیشر و آمار مدرن
اگر بخواهیم تنها یک نام را به عنوان پدر آمار مدرن معرفی کنیم، آن شخص بدون شک رونالد فیشر۷ بریتانیایی است. فیشر در اوایل قرن بیستم، پایههای بسیاری از روشهایی که امروزه در دانشگاهها تدریس میشود را بنا نهاد [1].
او که در ایستگاه تحقیقات کشاورزی در راثمستد کار میکرد، با دادههای مربوط به محصولات کشاورزی مواجه بود. پرسش اصلی این بود: آیا نوع جدید کود باعث افزایش معنیدار محصول میشود یا تغییرات مشاهده شده صرفاً تصادفی است؟ برای پاسخ به این پرسشها، فیشر روش تحلیل واریانس (ANOVA)۸ را ابداع کرد [7].
فیشر همچنین مفاهیم بسیار مهم دیگری مانند «حداکثر درستنمایی»، «تصادفیسازی» در طراحی آزمایشها و «آزمون دقیق فیشر» را معرفی کرد. همزمان با او، یرزی نِیمان۹ و اِگون پیرسون (پسر کارل پیرسون) نظریهٔ «آزمون فرضهای آماری» را به شکلی که امروز میشناسیم، فرموله کردند و مفاهیم خطای نوع اول (α) و نوع دوم (β) را وارد آمار کردند.
کاربردهای امروزی: آمار در عصر دیجیتال
امروزه علم آمار دیگر محدود به دولتها یا کشاورزی نیست. ردپای آن را در همه جا میتوان دید:
- پزشکی و داروسازی: هر داروی جدیدی که وارد بازار میشود، نتیجهٔ کارآزماییهای بالینی است که با روشهای آماری دقیق طراحی و تحلیل شدهاند. برای مثال، برای اطمینان از اثربخشی یک واکسن، دانشمندان آمار ابتلا را در گروه دریافتکننده واکسن و گروه دارونما مقایسه میکنند [4].
- اقتصاد و بازاریابی: شرکتها با تحلیل دادههای فروش و رفتار مشتریان، استراتژیهای قیمتگذاری و تبلیغاتی خود را تنظیم میکنند. پیشبینی نرخ تورم یا بیکاری توسط بانکهای مرکزی نیز بدون مدلهای آماری ممکن نیست [2].
- هواشناسی: پیشبینی وضع هوا برای فردا یا هفتهٔ آینده، بر اساس مدلهای عظیم آماری انجام میشود که دادههای هزاران ایستگاه هواشناسی و ماهواره را پردازش میکنند [4].
- ورزش: در ورزشهای مدرن، از آمار برای کشف استعدادها، طراحی تاکتیک و ارزیابی عملکرد بازیکنان استفاده میشود. برای مثال، «moneyball» در بیسبال.
چالشهای مفهومی در یادگیری آمار
خیر، یکی از مهمترین هشدارهای آمار این است که همبستگی (تغییر همزمان دو متغیر) هرگز به تنهایی ثابت نمیکند که یکی علت دیگری است. مثال معروف: تعداد لکلکها در یک شهر با تعداد نوزادان متولد شده همبستگی مثبت دارد، اما واضح است که لکلکها نیاوردهاند! هر دو متغیر ممکن است به عامل سومی (مثلاً توسعهٔ شهری) وابسته باشند.
اغلب به دلیل نادیده گرفتن «مخرج» یا «جامعهٔ پایه». برای مثال، اگر گزارهای بگوید «موادغذایی X خطر سرطان را ۵۰٪ کاهش میدهد»، ممکن است گمراهکننده باشد. اگر خطر پایه ۲ نفر در هر ۱۰۰۰ نفر باشد، کاهش ۵۰٪ یعنی رسیدن به ۱ نفر در ۱۰۰۰ نفر، که تأثیر آنچنانی ندارد [5].
آمار بر اساس «احتمال» کار میکند، نه «یقین». وقتی هواشناسی میگوید احتمال باران ۳۰٪ است، یعنی از هر ۱۰ بار تکرار شرایط مشابه، ۳ بار باران میبارد. حتی اگر باران نیاید، پیشبینی لزوماً غلط نبوده است، زیرا به آن ۷۰٪ احتمال «نباریدن» هم توجه نشده بود [4].
پاورقی
2 واژه فارسی (Pascal): بلز پاسکال، ریاضیدان، فیزیکدان و فیلسوف فرانسوی قرن هفدهم، یکی از بنیانگذاران نظریهٔ احتمال.
3 واژه فارسی (Fermat): پیر دو فرما، وکیل و ریاضیدان شهیر فرانسوی که به همراه پاسکال، پایههای حساب احتمالات را بنا نهاد.
4 واژه فارسی (Quetelet): آدولف کتله، ستارهشناس و آماردان بلژیکی که کاربرد آمار را در علوم اجتماعی رواج داد.
5 واژه فارسی (Galton): فرانسیس گالتون، محقق بریتانیایی و پیشگام در استفاده از آمار برای مطالعهٔ وراثت و معرفی مفهوم همبستگی.
6 واژه فارسی (Pearson): کارل پیرسون، ریاضیدان بریتانیایی که آمار ریاضی را بنیان نهاد و ضریب همبستگی معروف را توسعه داد.
7 واژه فارسی (Fisher): رونالد فیشر، آماردان و زیستشناس تکاملی بریتانیایی، از بزرگترین چهرههای علم آمار در قرن بیستم و مبدع روش تحلیل واریانس.
8 واژه فارسی (Analysis of Variance): روشی آماری برای مقایسه میانگین بیش از دو گروه، که توسط رونالد فیشر ابداع شد.
9 واژه فارسی (Neyman): یرزی نِیمان، آماردان لهستانی-آمریکایی که نظریهٔ کلاسیک آزمون فرض را تکمیل کرد.