گاما رو نصب کن!

{{ number }}
اعلان ها
اعلان جدیدی وجود ندارد!
کاربر جدید

جستجو

پربازدیدها: #{{ tag.title }}

میتونی لایو بذاری!

حدود سیگما: اعدادی که نشان می‌دهند جمع از کدام شماره شروع و تا کدام شماره ادامه دارد.

بروزرسانی شده در: 19:36 1404/12/6 مشاهده: 10     دسته بندی: کپسول آموزشی

حدود سیگما: شناسایی کرانه‌های داده‌ها در توزیع نرمال

با بررسی مفهوم انحراف معیار و قانون تجربی، بازه‌های پراکندگی داده‌ها حول میانگین را محاسبه و تفسیر می‌کنیم.
در این مقاله با مفهوم حدود سیگما (Sigma Limits) آشنا می‌شویم؛ اعدادی که مشخص می‌کنند جمع داده‌ها از چه مقداری شروع و تا کجا ادامه دارد. با استفاده از انحراف معیار و میانگین، بازه‌های اطمینان معروف ۶۸-۹۵-۹۹.۷ را در توزیع نرمال بررسی کرده و با مثال‌های عددی، کاربرد آن‌ها در تحلیل داده‌های روزمره و فرآیندهای کنترلی را یاد می‌گیریم.

مبانی حد سیگما: از واریانس تا انحراف معیار

برای درک حدود سیگما، ابتدا باید با مفاهیم پراکندگی داده‌ها آشنا شویم. وقتی مجموعه‌ای از اعداد داریم، فقط دانستن میانگین کافی نیست؛ باید بدانیم داده‌ها چقدر از میانگین فاصله دارند. به این فاصله، انحراف می‌گوییم. اما جمع کردن انحراف‌ها (چون مثبت و منفی دارند) ما را به صفر می‌رساند. برای حل این مشکل، از مجذور انحراف‌ها استفاده می‌کنیم. میانگین این مجذورها واریانس نام دارد. برای برگشت به واحد اصلی داده‌ها، جذر واریانس را محاسبه می‌کنیم که همان انحراف معیار است و آن را با نماد σ (سیگمای کوچک) نمایش می‌دهند. حدود سیگما، بازه‌هایی هستند که با ضرب کردن این انحراف معیار در اعداد طبیعی (1σ, 2σ, 3σ, ...) حول میانگین رسم می‌شوند.

فرمول محاسبه حدود سیگما: اگر میانگین داده‌ها $\mu$ و انحراف معیار $\sigma$ باشد، آن‌گاه:
  • حد پایین بازه $k\sigma$: $\mu - k\sigma$
  • حد بالای بازه $k\sigma$: $\mu + k\sigma$

به عنوان مثال، اگر میانگین نمرات یک کلاس 70 و انحراف معیار 5 باشد، بازه برابر است با (70-5, 70+5) یعنی 65 تا 75. این بازه نشان می‌دهد که انتظار داریم اکثر نمرات دانش‌آموزان در این محدوده قرار گیرد.

قانون تجربی: رمزگشایی بازه‌های ۱σ، ۲σ و ۳σ

در آمار، برای توزیع‌های نرمال (به شکل زنگوله)، قانونی به نام قانون تجربی یا قانون ۶۸-۹۵-۹۹.۷ وجود دارد. این قانون به طور دقیق مشخص می‌کند چه نسبتی از داده‌ها در هر یک از بازه‌های سیگما قرار می‌گیرند. این قانون پایه و اساس بسیاری از تحلیل‌های آماری و کنترل کیفیت است.

بازه فرمول بازه درصد داده‌ها تفسیر
$\mu \pm 1\sigma$ 68.27% بیش از دو سوم داده‌ها در این محدوده هستند.
$\mu \pm 2\sigma$ 95.45% فقط 4.5% داده‌ها خارج از این بازه هستند.
$\mu \pm 3\sigma$ 99.73% تقریباً تمام داده‌ها در این بازه جای می‌گیرند.

فرض کنید یک کارخانه چیپس می‌خواهد وزن چیپس‌های تولیدی خود را کنترل کند. اگر میانگین وزن 100 گرم و انحراف معیار 5 گرم باشد، بازه یعنی (100-15, 100+15) یا 85 تا 115 گرم. طبق قانون، 99.73% از چیپس‌ها باید در این محدوده وزنی باشند. اگر چیپسی با وزن 80 گرم پیدا شود، یعنی یک دادهٔ نادر و خارج از کنترل است و دستگاه باید بررسی شود.

کاربرد عملی: شناسایی نقاط پرت و کنترل فرآیند

یکی از مهم‌ترین کاربردهای حدود سیگما، تشخیص نقاط پرت (Outliers) است. نقطه پرت به داده‌ای گفته می‌شود که فاصله زیادی با سایر داده‌ها دارد و معمولاً خارج از بازه قرار می‌گیرد. در علم مدیریت کیفیت یا شش سیگما1، از این حدود برای ترسیم نمودارهای کنترلی استفاده می‌شود. در این نمودارها، یک خط مرکزی برای میانگین و دو خط کران بالا و پایین (معمولاً ) رسم می‌شود. تا زمانی که داده‌ها بین این دو کران نوسان کنند، فرآیند «تحت کنترل» است. اما اگر داده‌ای از کران‌ها عبور کند یا الگوی خاصی مانند ۷ نقطه متوالی در یک سمت خط میانگین ظاهر شود، فرآیند «خارج از کنترل» اعلام شده و نیاز به بررسی دارد.

مثال عینی در یک مدرسه، مسؤول ثبت‌نام قد دانش‌آموزان را اندازه می‌گیرد. میانگین قد 160 سانتی‌متر و انحراف معیار 10 سانتی‌متر است. با استفاده از حدود سیگما، بازه‌ها به دست می‌آیند. دانش‌آموزی با قد 195 سانتی‌متر (بیشتر از ) ثبت‌نام می‌کند. مسؤول بلافاصله متوجه می‌شود که این مقدار می‌تواند یک خطای اندازه‌گیری یا یک دانش‌آموز بسیار خاص (نقطه پرت) باشد. با بررسی مجدد، متوجه می‌شود که عدد 195 اشتباه تایپ شده و مقدار صحیح 159 بوده است. در اینجا حد به عنوان یک هشدار برای خطاهای انسانی عمل کرد.

چالش‌های مفهومی

آیا حدود سیگما برای همه توزیع‌های داده کاربرد دارد؟

خیر. قانون تجربی (۶۸-۹۵-۹۹.۷) دقیقاً فقط برای توزیع‌های نرمال معتبر است. برای توزیع‌های غیرنرمال، از قضیه چبیشف استفاده می‌شود که می‌گوید حداقل (1 - 1/k^2) از داده‌ها در بازه قرار می‌گیرند. مثلاً برای k=2، حداقل 75% داده‌ها در این بازه هستند، نه الزاماً 95%.

چرا در برخی منابع از حدود صحبت می‌شود؟

حدود در مدیریت کیفیت فراگیر مطرح است. اگر فاصله بین میانگین و نزدیک‌ترین حد مشخصات محصول را در نظر بگیریم، میزان خطا به کمتر از 3.4 خطا در یک میلیون فرصت می‌رسد. این بدان معناست که فرآیند چنان دقیق است که حتی با در نظر گرفتن جابجایی‌های کوچک در میانگین، تقریباً هیچ محصول معیوبی تولید نمی‌شود. این یک استاندارد بسیار بالای کیفیت است.

چگونه می‌توان فهمید یک داده در کدام بازه سیگما قرار دارد؟

برای این کار، مقدار نمره استاندارد یا z-score را محاسبه می‌کنیم. فرمول آن $z = \frac{x - \mu}{\sigma}$ است. این عدد نشان می‌دهد که داده مورد نظر چند انحراف معیار از میانگین فاصله دارد. برای مثال، اگر $z = 1.5$ باشد، یعنی داده 1.5σ بالای میانگین قرار دارد. این روش، مبنایی برای مقایسه داده‌ها از توزیع‌های مختلف است.

جمع‌بندی

حدود سیگما ابزاری قدرتمند برای درک پراکندگی داده‌ها حول میانگین هستند. با استفاده از قانون تجربی، می‌توانیم پیش‌بینی کنیم که چه نسبتی از داده‌ها در بازه‌های ، و قرار می‌گیرند. این دانش به ما در تشخیص نقاط پرت، کنترل کیفیت فرآیندها و استانداردسازی داده‌ها کمک می‌کند. به خاطر داشته باشیم که کاربرد دقیق این قوانین به نرمال بودن توزیع داده‌ها وابسته است.

پاورقی

1 شش سیگما (Six Sigma): مجموعه‌ای از تکنیک‌ها و ابزارهای مدیریت کیفیت که برای بهبود فرآیندها با هدف کاهش خطاها و نقص‌ها تا سطح ۳.۴ نقص در یک میلیون محصول به کار می‌رود.
2 انحراف معیار (Standard Deviation): معیاری برای سنجش پراکندگی داده‌ها از میانگین که با نماد σ نشان داده می‌شود.
3 توزیع نرمال (Normal Distribution): توزیع احتمالی متقارن و زنگوله‌ای شکلی که بسیاری از پدیده‌های طبیعی از آن پیروی می‌کنند.