چگونه افزایش حجم نمونه، طول بازه اطمینان را کوچکتر میکند؟
۱. بازه اطمینان چیست و چرا به n وابسته است؟
در آمار، وقتی بخواهیم میانگین یک جامعهٔ بزرگ را تخمین بزنیم، معمولاً از روی یک نمونه این کار را انجام میدهیم. اما به جای اینکه فقط یک عدد (مثلاً ۳۲ سانتیمتر) را گزارش کنیم، یک بازه اطمینان (Confidence Interval) ارائه میدهیم که با احتمال مشخصی (مثلاً ۹۵٪) میانگین واقعی درون آن قرار دارد. فرمول پایه برای میانگین نمونه به صورت زیر است:
در این فرمول، $\bar{x}$ میانگین نمونه، $z$ ضریب اطمینان (مثلاً $1.96$ برای سطح اطمینان ۹۵٪)، $\sigma$ انحراف معیار جامعه و $n$ حجم نمونه است. قسمت $ \frac{\sigma}{\sqrt{n}} $ را خطای استاندارد مینامند. طول بازه اطمینان برابر است با دو برابر مقدار $ z \times \frac{\sigma}{\sqrt{n}} $. دقت کنید که در مخرج کسر، $\sqrt{n}$ قرار دارد؛ یعنی هر چه $n$ بزرگتر شود، خطای استاندارد کوچکتر میشود و در نتیجه طول بازه کاهش مییابد.
۲. نقش جذر n در کوچکشدن بازه اطمینان
خاصیت مهم این است که طول بازه اطمینان با $ \frac{1}{\sqrt{n}} $ متناسب است، نه با $ \frac{1}{n} $. یعنی اگر تعداد نمونه را ۴ برابر کنید، طول بازه نصف میشود (چون $\sqrt{4}=2$). این رابطه نشان میدهد که برای کاهش قابل توجه طول بازه، باید افزایش نسبتاً زیادی در حجم نمونه ایجاد کنیم. به عنوان مثال، اگر بخواهیم طول بازه را به یکدهم برسانیم، باید $n$ را ۱۰۰ برابر کنیم.
بیایید یک مثال عملی ببینیم: فرض کنید انحراف معیار قد دانشآموزان یک مدرسه برابر ۵ سانتیمتر باشد. اگر از روی یک نمونهٔ ۲۵ نفره میانگین را تخمین بزنیم، خطای استاندارد برابر $ 5 / \sqrt{25} = 1 $ سانتیمتر خواهد بود. اما اگر نمونه را به ۱۰۰ نفر افزایش دهیم، خطای استاندارد به $ 5 / \sqrt{100} = 0.5 $ سانتیمتر کاهش مییابد. در نتیجه، بازه اطمینان ۹۵٪ از $ \bar{x} \pm 1.96 $ به $ \bar{x} \pm 0.98 $ تغییر میکند که نشاندهندهٔ دقت بسیار بالاتر است.
| حجم نمونه (n) | خطای استاندارد ($ \frac{\sigma}{\sqrt{n}} $) | نصف طول بازه ($ z \times SE $) | طول کل بازه (تغییر نسبی) |
|---|---|---|---|
| n=16 | $ \sigma / 4 $ | $ 1.96 \times (\sigma/4) $ | 0.98 \sigma (مرجع) |
| n=64 | $ \sigma / 8 $ | $ 1.96 \times (\sigma/8) $ | 0.49 \sigma (نصف شد) |
| n=256 | $ \sigma / 16 $ | $ 1.96 \times (\sigma/16) $ | 0.245 \sigma (یک چهارم) |
۳. کاربرد عملی: نظرسنجی از دانشآموزان
فرض کنید میخواهیم میانگین زمان مطالعهٔ روزانه دانشآموزان یک دبیرستان را تخمین بزنیم. از روی یک نمونهٔ اولیهٔ ۳۰ نفره، بازه اطمینان ۹۵٪ برابر با $ 2.5 \pm 0.4 $ ساعت به دست آمده است (طول بازه ۰.۸ ساعت). معلم آمار تصمیم میگیرد تعداد نمونه را به ۱۲۰ نفر افزایش دهد. با توجه به فرمول، خطای استاندارد جدید به اندازهٔ $ \sqrt{30/120} = \sqrt{0.25} = 0.5 $ برابر مقدار قبلی میشود. بنابراین طول بازه جدید برابر $ 0.8 \times 0.5 = 0.4 $ ساعت خواهد بود. یعنی بازهٔ اطمینان به $ 2.5 \pm 0.2 $ ساعت تبدیل میشود که بسیار دقیقتر است. این افزایش دقت، هزینهٔ جمعآوری دادهٔ بیشتر را توجیه میکند.
۴. چالشهای مفهومی (پرسش و پاسخ)
پاسخ: خیر. چون در فرمول $ z \times \frac{\sigma}{\sqrt{n}} $ با افزایش n، مقدار $ \frac{1}{\sqrt{n}} $ به سمت صفر میل میکند اما هرگز کاملاً صفر نمیشود. در عمل برای n بسیار بزرگ (مثلاً چند میلیون)، طول بازه بسیار کوچک ولی مثبت باقی میماند.
پاسخ: زیرا واریانس میانگین نمونه برابر با $ \frac{\sigma^2}{n} $ است (طبق قضیه حد مرکزی1). انحراف معیار میانگین که همان خطای استاندارد است، جذر واریانس میشود: $ \frac{\sigma}{\sqrt{n}} $. این یک نتیجهٔ ریاضی از جمع متغیرهای تصادفی مستقل است.
پاسخ: خیر. ضریب z (مثل $1.96$ برای ۹۵٪ یا $2.58$ برای ۹۹٪) فقط طول پایه را بزرگ یا کوچک میکند، اما رابطهٔ معکوس با $ \sqrt{n} $ بدون تغییر باقی میماند. یعنی در هر سطح اطمینانی، افزایش n باعث کاهش طول بازه میشود.
پاورقی
1 قضیه حد مرکزی (Central Limit Theorem): قضیهای در آمار که میگوید اگر حجم نمونه به اندازه کافی بزرگ باشد، توزیع میانگین نمونهها نزدیک به توزیع نرمال است، بدون توجه به شکل توزیع جامعه اصلی.