Run Test in Non-Parametric Inference | नॉन-पैरामीट्रिक अनुमान में रन परीक्षण

रन परीक्षण (Run Test)

परिचय

रन परीक्षण (Run Test) एक महत्वपूर्ण नॉन-पैरामीट्रिक सांख्यिकीय परीक्षण है जिसका उपयोग डेटा के क्रम (Sequence) या यादृच्छिकता (Randomness) को जांचने के लिए किया जाता है। यह परीक्षण यह निर्धारित करता है कि डेटा का क्रम यादृच्छिक (Random) है या किसी पैटर्न (Pattern) का अनुसरण करता है। यह रैंडमनेस की जांच के लिए एक सरल लेकिन शक्तिशाली उपकरण है और डेटा साइंस, मशीन लर्निंग, एवं गुणवत्ता नियंत्रण (Quality Control) में व्यापक रूप से उपयोग किया जाता है।

रन का अर्थ है — एक समान प्रकार के अवलोकनों (जैसे + या –, 1 या 0, M या F) का लगातार समूह। उदाहरण के लिए यदि एक अनुक्रम इस प्रकार है:

+ + – – + – + + –

तो रन की संख्या होगी 6 (क्योंकि चिन्हों के समूह 6 बार बदले हैं)।

रन परीक्षण का उद्देश्य

यह जाँचना कि डेटा यादृच्छिक रूप से व्यवस्थित है या नहीं।
डेटा में किसी रुझान (Trend) या पैटर्न की उपस्थिति की पहचान।
दो श्रेणियों के बीच असंतुलन या निर्भरता का निर्धारण।

रन की परिभाषा

“रन” किसी अनुक्रम में समान प्रतीकों (+ या –) का लगातार समूह होता है। उदाहरण:

+ + – – + – + + –

इस अनुक्रम में कुल 6 रन हैं। रन की संख्या जितनी अधिक होगी, डेटा उतना यादृच्छिक होगा; और यदि रन की संख्या बहुत कम या बहुत अधिक है, तो डेटा यादृच्छिक नहीं है।

परिकल्पना का निर्माण

शून्य परिकल्पना (H₀): अनुक्रम यादृच्छिक है।
वैकल्पिक परिकल्पना (H₁): अनुक्रम यादृच्छिक नहीं है।

रन परीक्षण के प्रकार

1. साइन के आधार पर रन टेस्ट (Runs Test for Signs): जब डेटा + और – के रूप में हो।
2. माध्यक के चारों ओर रन टेस्ट (Runs Test about Median): जब डेटा संख्यात्मक हो और माध्यक को सीमा के रूप में लिया जाए।
3. दो श्रेणी वाले डेटा पर रन टेस्ट: जैसे Male-Female, Pass-Fail, आदि।

रन परीक्षण की प्रक्रिया

डेटा अनुक्रम तैयार करें (जैसे +, –, 1, 0)।
रन की संख्या (R) गिनें।
n₁ = पहली श्रेणी के प्रतीकों की संख्या, n₂ = दूसरी श्रेणी के प्रतीकों की संख्या।
रन की अपेक्षित संख्या और विचलन निकालें:

E(R) = [(2n₁n₂) / (n₁ + n₂)] + 1
Var(R) = [(2n₁n₂)(2n₁n₂ – n₁ – n₂)] / [(n₁ + n₂)²(n₁ + n₂ – 1)]

Normal Approximation का उपयोग करके Z मान निकालें:

Z = (R – E(R)) / √Var(R)

Z के आधार पर निर्णय लें — यदि |Z| < Z_α/2 → H₀ स्वीकार। अन्यथा H₀ अस्वीकार।

उदाहरण

मान लीजिए किसी उत्पादन इकाई में 20 उत्पादों को “पास” (P) और “फेल” (F) के रूप में चिह्नित किया गया:

P P F P F F P P P F F P F F P P F P F F

यहाँ:

n₁ = P की संख्या = 10
n₂ = F की संख्या = 10
रन की संख्या R = 12

अब अपेक्षित रन संख्या:

E(R) = [(2×10×10)/(20)] + 1 = 11
Var(R) = [(2×10×10)(40–20)] / [(400)(19)] = 7.37

अतः Z = (12 – 11) / √7.37 = 0.37 चूंकि |Z| = 0.37 < 1.96 (α = 0.05), इसलिए H₀ स्वीकार — डेटा यादृच्छिक है।

डेटा साइंस में उपयोग

मॉडल के आउटपुट में पैटर्न या बायस की जांच।
रैंडम सैम्पलिंग की पुष्टि।
मशीन लर्निंग मॉडल में त्रुटि अनुक्रम की रैंडमनेस जांचना।
गुणवत्ता नियंत्रण (Quality Control) और नेटवर्क डेटा एनालिटिक्स में उपयोग।

लाभ

सरल और सहज प्रक्रिया।
किसी वितरण की मान्यता आवश्यक नहीं।
छोटे और बड़े दोनों सैंपल के लिए उपयोगी।

सीमाएँ

केवल दो श्रेणियों वाले डेटा के लिए उपयुक्त।
बहु-श्रेणी डेटा में जटिलता बढ़ती है।
बहुत अधिक टाई वाले डेटा पर सटीक नहीं।

निष्कर्ष

रन परीक्षण नॉन-पैरामीट्रिक सांख्यिकी में एक शक्तिशाली उपकरण है जो यह निर्धारित करता है कि डेटा यादृच्छिक है या किसी पैटर्न का अनुसरण कर रहा है। डेटा साइंस, नेटवर्क एनालिटिक्स, मशीन लर्निंग मॉडल वैलिडेशन, और क्वालिटी कंट्रोल में यह परीक्षण अत्यंत उपयोगी है। यह सुनिश्चित करता है कि डेटा निष्पक्ष, स्वतंत्र और बायस-रहित है — जिससे विश्लेषण अधिक सटीक और विश्वसनीय बनता है।

Data Frame in R | R में डेटा फ़्रेम

R में डेटा फ़्रेम (Data Frame in R) परिचय R प्रोग...

Linear Model in R | R में रैखिक मॉडल

R में रैखिक मॉडल (Linear Model in R) परिचय R प्रोग�...

Simulation in R | R में सिमुलेशन

R में सिमुलेशन (Simulation in R) परिचय सिमुलेश...

Working with and Manipulating Data in R | R में डेटा पर कार्य करना और उसे संशोधित करना

R में डेटा पर कार्य करना और उसे संशोधित करना (Wo...

Writing Data in R | R में डेटा लिखना

R में डेटा लिखना (Writing Data in R) परिचय डेटा व�...

Run Test in Non-Parametric Inference | नॉन-पैरामीट्रिक अनुमान में रन परीक्षण