Run Test in Non-Parametric Inference | नॉन-पैरामीट्रिक अनुमान में रन परीक्षण
Run Test in Non-Parametric Inference | नॉन-पैरामीट्रिक अनुमान में रन परीक्षण
रन परीक्षण (Run Test)
परिचय
रन परीक्षण (Run Test) एक महत्वपूर्ण नॉन-पैरामीट्रिक सांख्यिकीय परीक्षण है जिसका उपयोग डेटा के क्रम (Sequence) या यादृच्छिकता (Randomness) को जांचने के लिए किया जाता है। यह परीक्षण यह निर्धारित करता है कि डेटा का क्रम यादृच्छिक (Random) है या किसी पैटर्न (Pattern) का अनुसरण करता है। यह रैंडमनेस की जांच के लिए एक सरल लेकिन शक्तिशाली उपकरण है और डेटा साइंस, मशीन लर्निंग, एवं गुणवत्ता नियंत्रण (Quality Control) में व्यापक रूप से उपयोग किया जाता है।
रन का अर्थ है — एक समान प्रकार के अवलोकनों (जैसे + या –, 1 या 0, M या F) का लगातार समूह। उदाहरण के लिए यदि एक अनुक्रम इस प्रकार है:
+ + – – + – + + –तो रन की संख्या होगी 6 (क्योंकि चिन्हों के समूह 6 बार बदले हैं)।
रन परीक्षण का उद्देश्य
- यह जाँचना कि डेटा यादृच्छिक रूप से व्यवस्थित है या नहीं।
- डेटा में किसी रुझान (Trend) या पैटर्न की उपस्थिति की पहचान।
- दो श्रेणियों के बीच असंतुलन या निर्भरता का निर्धारण।
रन की परिभाषा
“रन” किसी अनुक्रम में समान प्रतीकों (+ या –) का लगातार समूह होता है। उदाहरण:
+ + – – + – + + –इस अनुक्रम में कुल 6 रन हैं। रन की संख्या जितनी अधिक होगी, डेटा उतना यादृच्छिक होगा; और यदि रन की संख्या बहुत कम या बहुत अधिक है, तो डेटा यादृच्छिक नहीं है।
परिकल्पना का निर्माण
- शून्य परिकल्पना (H₀): अनुक्रम यादृच्छिक है।
- वैकल्पिक परिकल्पना (H₁): अनुक्रम यादृच्छिक नहीं है।
रन परीक्षण के प्रकार
- 1. साइन के आधार पर रन टेस्ट (Runs Test for Signs): जब डेटा + और – के रूप में हो।
- 2. माध्यक के चारों ओर रन टेस्ट (Runs Test about Median): जब डेटा संख्यात्मक हो और माध्यक को सीमा के रूप में लिया जाए।
- 3. दो श्रेणी वाले डेटा पर रन टेस्ट: जैसे Male-Female, Pass-Fail, आदि।
रन परीक्षण की प्रक्रिया
- डेटा अनुक्रम तैयार करें (जैसे +, –, 1, 0)।
- रन की संख्या (R) गिनें।
- n₁ = पहली श्रेणी के प्रतीकों की संख्या, n₂ = दूसरी श्रेणी के प्रतीकों की संख्या।
- रन की अपेक्षित संख्या और विचलन निकालें:
- Normal Approximation का उपयोग करके Z मान निकालें:
- Z के आधार पर निर्णय लें — यदि |Z| < Zα/2 → H₀ स्वीकार। अन्यथा H₀ अस्वीकार।
E(R) = [(2n₁n₂) / (n₁ + n₂)] + 1
Var(R) = [(2n₁n₂)(2n₁n₂ – n₁ – n₂)] / [(n₁ + n₂)²(n₁ + n₂ – 1)]
Z = (R – E(R)) / √Var(R)
उदाहरण
मान लीजिए किसी उत्पादन इकाई में 20 उत्पादों को “पास” (P) और “फेल” (F) के रूप में चिह्नित किया गया:
P P F P F F P P P F F P F F P P F P F F
यहाँ:
- n₁ = P की संख्या = 10
- n₂ = F की संख्या = 10
- रन की संख्या R = 12
अब अपेक्षित रन संख्या:
E(R) = [(2×10×10)/(20)] + 1 = 11
Var(R) = [(2×10×10)(40–20)] / [(400)(19)] = 7.37
अतः Z = (12 – 11) / √7.37 = 0.37 चूंकि |Z| = 0.37 < 1.96 (α = 0.05), इसलिए H₀ स्वीकार — डेटा यादृच्छिक है।
डेटा साइंस में उपयोग
- मॉडल के आउटपुट में पैटर्न या बायस की जांच।
- रैंडम सैम्पलिंग की पुष्टि।
- मशीन लर्निंग मॉडल में त्रुटि अनुक्रम की रैंडमनेस जांचना।
- गुणवत्ता नियंत्रण (Quality Control) और नेटवर्क डेटा एनालिटिक्स में उपयोग।
लाभ
- सरल और सहज प्रक्रिया।
- किसी वितरण की मान्यता आवश्यक नहीं।
- छोटे और बड़े दोनों सैंपल के लिए उपयोगी।
सीमाएँ
- केवल दो श्रेणियों वाले डेटा के लिए उपयुक्त।
- बहु-श्रेणी डेटा में जटिलता बढ़ती है।
- बहुत अधिक टाई वाले डेटा पर सटीक नहीं।
निष्कर्ष
रन परीक्षण नॉन-पैरामीट्रिक सांख्यिकी में एक शक्तिशाली उपकरण है जो यह निर्धारित करता है कि डेटा यादृच्छिक है या किसी पैटर्न का अनुसरण कर रहा है। डेटा साइंस, नेटवर्क एनालिटिक्स, मशीन लर्निंग मॉडल वैलिडेशन, और क्वालिटी कंट्रोल में यह परीक्षण अत्यंत उपयोगी है। यह सुनिश्चित करता है कि डेटा निष्पक्ष, स्वतंत्र और बायस-रहित है — जिससे विश्लेषण अधिक सटीक और विश्वसनीय बनता है।
Related Articles
Data Frame in R | R में डेटा फ़्रेम
R में डेटा फ़्रेम (Data Frame in R) परिचय R प्रोग...
Read More →Linear Model in R | R में रैखिक मॉडल
R में रैखिक मॉडल (Linear Model in R) परिचय R प्रोग...
Read More →Working with and Manipulating Data in R | R में डेटा पर कार्य करना और उसे संशोधित करना
R में डेटा पर कार्य करना और उसे संशोधित करना (Wo...
Read More →Writing Data in R | R में डेटा लिखना
R में डेटा लिखना (Writing Data in R) परिचय डेटा व...
Read More →