Summary Statistics in Data Mining in Hindi - डेटा माइनिंग में सारांश सांख्यिकी
Summary Statistics in Data Mining in Hindi - डेटा माइनिंग में सारांश सांख्यिकी
डेटा माइनिंग में सारांश सांख्यिकी (Summary Statistics in Data Mining)
सारांश सांख्यिकी (Summary Statistics) डेटा माइनिंग और डेटा विश्लेषण में उपयोग की जाने वाली एक महत्वपूर्ण तकनीक है, जो डेटा सेट की मुख्य विशेषताओं को संक्षेप में प्रस्तुत करती है। यह डेटा के वितरण, केंद्रीय प्रवृत्ति और प्रसार को समझने में मदद करता है।
1. सारांश सांख्यिकी क्या है? (What is Summary Statistics?)
सारांश सांख्यिकी डेटा को संक्षेप में प्रस्तुत करने का एक तरीका है, जिसमें औसत, माध्यिका, प्रसार और विभिन्न अन्य सांख्यिकीय माप शामिल होते हैं। यह डेटा माइनिंग में डेटा के गुणों को समझने के लिए आवश्यक होता है।
2. सारांश सांख्यिकी के घटक (Components of Summary Statistics)
सारांश सांख्यिकी को तीन प्रमुख भागों में विभाजित किया जा सकता है:
2.1 केंद्रीय प्रवृत्ति मापन (Measures of Central Tendency)
- औसत (Mean): सभी संख्याओं का कुल योग, कुल संख्या से विभाजित।
- माध्यिका (Median): डेटा को छोटे से बड़े क्रम में व्यवस्थित करने पर बीच का मान।
- मोड (Mode): डेटा सेट में सबसे अधिक बार आने वाला मान।
2.2 प्रसार मापन (Measures of Dispersion)
- रेंज (Range): अधिकतम और न्यूनतम मान के बीच का अंतर।
- विचलन (Variance): डेटा बिंदुओं की औसत दूरी का वर्ग।
- मानक विचलन (Standard Deviation): डेटा की विविधता को मापने का एक तरीका।
2.3 डेटा वितरण मापन (Measures of Data Distribution)
- स्क्यूनेस (Skewness): डेटा के असमान वितरण को मापता है।
- कर्तोसिस (Kurtosis): डेटा वितरण की चोटी को मापता है।
3. सारांश सांख्यिकी के लिए सूत्र (Formulas for Summary Statistics)
| मापन | सूत्र |
|---|---|
| औसत (Mean) | Mean (μ) = ΣX / N |
| माध्यिका (Median) | मध्यमान डेटा बिंदु |
| रेंज (Range) | Range = Max - Min |
| विचलन (Variance) | σ² = Σ(X - μ)² / N |
| मानक विचलन (Standard Deviation) | σ = √(Σ(X - μ)² / N) |
4. सारांश सांख्यिकी का उपयोग (Applications of Summary Statistics)
- डेटा माइनिंग: डेटा की मूल प्रवृत्तियों को समझने के लिए।
- बिजनेस एनालिटिक्स: बाजार के रुझानों का विश्लेषण करने के लिए।
- मशीन लर्निंग: विशेषताओं को सामान्यीकृत करने और मॉडल की प्रभावशीलता बढ़ाने के लिए।
- फाइनेंस: जोखिम प्रबंधन और निवेश निर्णय लेने के लिए।
निष्कर्ष (Conclusion)
सारांश सांख्यिकी डेटा विश्लेषण की एक महत्वपूर्ण तकनीक है, जो डेटा सेट की मूल विशेषताओं को मापने और समझने में मदद करती है। इसका उपयोग डेटा माइनिंग, बिजनेस एनालिटिक्स और मशीन लर्निंग में बड़े पैमाने पर किया जाता है।
Related Articles
Quality of Data in Data Mining in Hindi - डेटा माइनिंग में डेटा की गुणवत्ता
डेटा माइनिंग में डेटा की गुणवत्ता (Quality of Data in Data M...
Read More →Data Types in Hindi - डेटा के प्रकार
डेटा के प्रकार (Data Types in Hindi) 1. डेटा क्या है? (W...
Read More →Introduction to Data & Data Mining in Hindi - डेटा और डेटा माइनिंग का परिचय
डेटा और डेटा माइनिंग का परिचय (Introduction to Data & Data Mining)...
Read More →Data Warehouse Hardware and Operational Design: Security, Backup And Recovery in Hindi - डेटा वेयरहाउस हार्डवेयर और ऑपरेशनल डिज़ाइन: सिक्योरिटी, बैकअप और रिकवरी
डेटा वेयरहाउस हार्डवेयर और ऑपरेशनल डिज़ाइन...
Read More →OLAP Operations in Data Mining in Hindi - डेटा माइनिंग में OLAP ऑपरेशंस
डेटा माइनिंग में OLAP ऑपरेशंस क्या हैं? (What are OLAP Opera...
Read More →