حدود سیگما: شناسایی کرانههای دادهها در توزیع نرمال
مبانی حد سیگما: از واریانس تا انحراف معیار
برای درک حدود سیگما، ابتدا باید با مفاهیم پراکندگی دادهها آشنا شویم. وقتی مجموعهای از اعداد داریم، فقط دانستن میانگین کافی نیست؛ باید بدانیم دادهها چقدر از میانگین فاصله دارند. به این فاصله، انحراف میگوییم. اما جمع کردن انحرافها (چون مثبت و منفی دارند) ما را به صفر میرساند. برای حل این مشکل، از مجذور انحرافها استفاده میکنیم. میانگین این مجذورها واریانس نام دارد. برای برگشت به واحد اصلی دادهها، جذر واریانس را محاسبه میکنیم که همان انحراف معیار است و آن را با نماد σ (سیگمای کوچک) نمایش میدهند. حدود سیگما، بازههایی هستند که با ضرب کردن این انحراف معیار در اعداد طبیعی (1σ, 2σ, 3σ, ...) حول میانگین رسم میشوند.
- حد پایین بازه $k\sigma$: $\mu - k\sigma$
- حد بالای بازه $k\sigma$: $\mu + k\sigma$
به عنوان مثال، اگر میانگین نمرات یک کلاس 70 و انحراف معیار 5 باشد، بازه 1σ برابر است با (70-5, 70+5) یعنی 65 تا 75. این بازه نشان میدهد که انتظار داریم اکثر نمرات دانشآموزان در این محدوده قرار گیرد.
قانون تجربی: رمزگشایی بازههای ۱σ، ۲σ و ۳σ
در آمار، برای توزیعهای نرمال (به شکل زنگوله)، قانونی به نام قانون تجربی یا قانون ۶۸-۹۵-۹۹.۷ وجود دارد. این قانون به طور دقیق مشخص میکند چه نسبتی از دادهها در هر یک از بازههای سیگما قرار میگیرند. این قانون پایه و اساس بسیاری از تحلیلهای آماری و کنترل کیفیت است.
| بازه | فرمول بازه | درصد دادهها | تفسیر |
|---|---|---|---|
| 1σ | $\mu \pm 1\sigma$ | 68.27% | بیش از دو سوم دادهها در این محدوده هستند. |
| 2σ | $\mu \pm 2\sigma$ | 95.45% | فقط 4.5% دادهها خارج از این بازه هستند. |
| 3σ | $\mu \pm 3\sigma$ | 99.73% | تقریباً تمام دادهها در این بازه جای میگیرند. |
فرض کنید یک کارخانه چیپس میخواهد وزن چیپسهای تولیدی خود را کنترل کند. اگر میانگین وزن 100 گرم و انحراف معیار 5 گرم باشد، بازه 3σ یعنی (100-15, 100+15) یا 85 تا 115 گرم. طبق قانون، 99.73% از چیپسها باید در این محدوده وزنی باشند. اگر چیپسی با وزن 80 گرم پیدا شود، یعنی یک دادهٔ نادر و خارج از کنترل است و دستگاه باید بررسی شود.
کاربرد عملی: شناسایی نقاط پرت و کنترل فرآیند
یکی از مهمترین کاربردهای حدود سیگما، تشخیص نقاط پرت (Outliers) است. نقطه پرت به دادهای گفته میشود که فاصله زیادی با سایر دادهها دارد و معمولاً خارج از بازه 3σ قرار میگیرد. در علم مدیریت کیفیت یا شش سیگما1، از این حدود برای ترسیم نمودارهای کنترلی استفاده میشود. در این نمودارها، یک خط مرکزی برای میانگین و دو خط کران بالا و پایین (معمولاً 3σ) رسم میشود. تا زمانی که دادهها بین این دو کران نوسان کنند، فرآیند «تحت کنترل» است. اما اگر دادهای از کرانها عبور کند یا الگوی خاصی مانند ۷ نقطه متوالی در یک سمت خط میانگین ظاهر شود، فرآیند «خارج از کنترل» اعلام شده و نیاز به بررسی دارد.
مثال عینی در یک مدرسه، مسؤول ثبتنام قد دانشآموزان را اندازه میگیرد. میانگین قد 160 سانتیمتر و انحراف معیار 10 سانتیمتر است. با استفاده از حدود سیگما، بازهها به دست میآیند. دانشآموزی با قد 195 سانتیمتر (بیشتر از 3σ) ثبتنام میکند. مسؤول بلافاصله متوجه میشود که این مقدار میتواند یک خطای اندازهگیری یا یک دانشآموز بسیار خاص (نقطه پرت) باشد. با بررسی مجدد، متوجه میشود که عدد 195 اشتباه تایپ شده و مقدار صحیح 159 بوده است. در اینجا حد 3σ به عنوان یک هشدار برای خطاهای انسانی عمل کرد.
چالشهای مفهومی
آیا حدود سیگما برای همه توزیعهای داده کاربرد دارد؟
خیر. قانون تجربی (۶۸-۹۵-۹۹.۷) دقیقاً فقط برای توزیعهای نرمال معتبر است. برای توزیعهای غیرنرمال، از قضیه چبیشف استفاده میشود که میگوید حداقل (1 - 1/k^2) از دادهها در بازه kσ قرار میگیرند. مثلاً برای k=2، حداقل 75% دادهها در این بازه هستند، نه الزاماً 95%.
چرا در برخی منابع از حدود 6σ صحبت میشود؟
حدود 6σ در مدیریت کیفیت فراگیر مطرح است. اگر فاصله بین میانگین و نزدیکترین حد مشخصات محصول را 6σ در نظر بگیریم، میزان خطا به کمتر از 3.4 خطا در یک میلیون فرصت میرسد. این بدان معناست که فرآیند چنان دقیق است که حتی با در نظر گرفتن جابجاییهای کوچک در میانگین، تقریباً هیچ محصول معیوبی تولید نمیشود. این یک استاندارد بسیار بالای کیفیت است.
چگونه میتوان فهمید یک داده در کدام بازه سیگما قرار دارد؟
برای این کار، مقدار نمره استاندارد یا z-score را محاسبه میکنیم. فرمول آن $z = \frac{x - \mu}{\sigma}$ است. این عدد نشان میدهد که داده مورد نظر چند انحراف معیار از میانگین فاصله دارد. برای مثال، اگر $z = 1.5$ باشد، یعنی داده 1.5σ بالای میانگین قرار دارد. این روش، مبنایی برای مقایسه دادهها از توزیعهای مختلف است.
جمعبندی
پاورقی
1 شش سیگما (Six Sigma): مجموعهای از تکنیکها و ابزارهای مدیریت کیفیت که برای بهبود فرآیندها با هدف کاهش خطاها و نقصها تا سطح ۳.۴ نقص در یک میلیون محصول به کار میرود.
2 انحراف معیار (Standard Deviation): معیاری برای سنجش پراکندگی دادهها از میانگین که با نماد σ نشان داده میشود.
3 توزیع نرمال (Normal Distribution): توزیع احتمالی متقارن و زنگولهای شکلی که بسیاری از پدیدههای طبیعی از آن پیروی میکنند.