Correlation Analysis in Data Analytics | डेटा एनालिटिक्स में सहसंबंध विश्लेषण
Correlation Analysis in Data Analytics | डेटा एनालिटिक्स में सहसंबंध विश्लेषण
Correlation Analysis in Data Analytics | डेटा एनालिटिक्स में सहसंबंध विश्लेषण
Correlation Analysis डेटा एनालिटिक्स में एक प्रमुख सांख्यिकीय तकनीक है जो यह मापती है कि दो या अधिक variables के बीच क्या संबंध (relationship) है और वह संबंध कितना मजबूत है। यह बताता है कि क्या एक variable में परिवर्तन होने से दूसरे variable में कोई परिवर्तन होता है या नहीं।
1️⃣ सहसंबंध (Correlation) क्या है?
सहसंबंध एक सांख्यिकीय माप है जो दो चर (variables) के बीच संबंध की दिशा और ताकत को निर्धारित करता है। Correlation का मान −1 से +1 के बीच होता है:
- +1: पूर्ण सकारात्मक सहसंबंध (जब एक variable बढ़ता है, दूसरा भी बढ़ता है)।
- −1: पूर्ण नकारात्मक सहसंबंध (जब एक बढ़ता है, दूसरा घटता है)।
- 0: कोई सहसंबंध नहीं।
2️⃣ Correlation का प्रकार
- 1. Positive Correlation: दोनों variables एक ही दिशा में बदलते हैं (जैसे — बिक्री और विज्ञापन खर्च)।
- 2. Negative Correlation: एक variable बढ़ता है जबकि दूसरा घटता है (जैसे — कीमत और मांग)।
- 3. Zero Correlation: कोई भी सीधा संबंध नहीं है।
3️⃣ Correlation Coefficient (r)
Correlation की ताकत और दिशा को मापने के लिए Pearson’s Correlation Coefficient (r) का उपयोग किया जाता है।
Formula: r = Σ(x−x̄)(y−ȳ) / √[Σ(x−x̄)² × Σ(y−ȳ)²]
r का मान:
- r → +1 → Perfect Positive
- r → −1 → Perfect Negative
- r → 0 → No Relation
4️⃣ Correlation Diagram
Correlation को scatter plot के माध्यम से भी प्रदर्शित किया जाता है। यदि बिंदु एक सीधी रेखा के पास हैं, तो correlation मजबूत है।
5️⃣ Spearman’s Rank Correlation
जब डेटा ordinal या non-linear होता है, तब Spearman’s Rank Correlation (ρ) का प्रयोग किया जाता है। यह रैंक (Rank) पर आधारित होता है।
Formula: ρ = 1 − [6Σd² / n(n² − 1)]
जहाँ d = rank का अंतर और n = observations की संख्या।
6️⃣ उदाहरण
मान लीजिए कि एक कंपनी विज्ञापन खर्च (X) और बिक्री (Y) के बीच संबंध जानना चाहती है:
| विज्ञापन (X) | बिक्री (Y) |
|---|---|
| 5 | 50 |
| 6 | 65 |
| 7 | 70 |
| 8 | 80 |
| 9 | 95 |
यहाँ correlation +0.98 आएगा, जो एक बहुत मजबूत positive संबंध दर्शाता है।
7️⃣ वास्तविक उपयोग
- Business में — बिक्री और प्रचार खर्च के बीच संबंध।
- Finance में — निवेश जोखिम और रिटर्न के बीच संबंध।
- Healthcare में — BMI और रक्तचाप के बीच संबंध।
- Data Science में — Feature Selection के लिए।
8️⃣ सीमाएँ
- Correlation केवल संबंध बताता है, कारण (causation) नहीं।
- Outliers correlation को प्रभावित कर सकते हैं।
- Non-linear संबंधों में Pearson का उपयोग उपयुक्त नहीं।
9️⃣ निष्कर्ष
Correlation Analysis डेटा एनालिटिक्स का एक महत्वपूर्ण भाग है जो variables के बीच संबंधों की पहचान में सहायता करता है। यह feature engineering, predictive modeling और decision-making में उपयोगी है, लेकिन यह याद रखना आवश्यक है कि correlation का अर्थ causation नहीं होता।
Related Articles
Exercise: Create Your Own Visualization of a Complex Dataset | जटिल डेटा सेट का अपना विज़ुअलाइज़ेशन तैयार करें
Exercise: Create Your Own Visualization of a Complex Dataset | जटिल डे...
Read More →Inspiring Industry Projects in Data Visualization | डेटा विज़ुअलाइज़ेशन के प्रेरक इंडस्ट्री प्रोजेक्ट्स
Inspiring Industry Projects in Data Visualization | डेटा विज़ुअ...
Read More →Introduction to Power BI Tools | पावर BI टूल्स का परिचय और उपयोग
Introduction to Power BI Tools | पावर BI टूल्स का परिच...
Read More →Python Visualization Libraries (Matplotlib, Pandas, Seaborn, ggplot, Plotly) | पाइथन विज़ुअलाइज़ेशन लाइब्रेरीज़ का गहन अध्ययन
Python Visualization Libraries (Matplotlib, Pandas, Seaborn, ggplot, Plotly) | प...
Read More →Introduction to Data Visualization Tools | डेटा विज़ुअलाइज़ेशन टूल्स का परिचय
Introduction to Data Visualization Tools | डेटा विज़ुअलाइ...
Read More →