🧹 Data Cleaning & Wrangling in Python (Null values, Duplicates)
किसी भी Data Science या Machine Learning project की सफलता data की quality पर depend करती है। Raw data अक्सर incomplete, inconsistent या गलत होता है। इसलिए data को clean और transform करना ज़रूरी है। इस process को ही Data Cleaning & Wrangling कहा जाता है।
❓ Data Cleaning क्यों ज़रूरी है?
- 📊 Accurate results के लिए data का सही होना ज़रूरी है
- 🤖 ML Models clean data पर ही अच्छे से train होते हैं
- 📉 Null values और duplicates गलत predictions करवा सकते हैं
- 🛠 Business decisions raw data पर depend नहीं कर सकते
🔹 Handling Null Values
Null (missing) values data का सबसे common issue है। Pandas library इसका solution देती है।
import pandas as pd data = { "Name": ["Amit", "Ravi", "Anita", "Pooja", None], "Age": [25, None, 28, 22, 30], "City": ["Delhi", "Mumbai", None, "Chennai", "Delhi"] } df = pd.DataFrame(data) # Missing values check print(df.isnull().sum()) # Null values हटाना df_drop = df.dropna() # Null values को भरना df_fill = df.fillna({ "Name": "Unknown", "Age": df["Age"].mean(), "City": "Not Specified" }) print(df_fill)
👉 आप null values को या तो remove कर सकते हैं, या फिर उन्हें suitable values (mean, median, mode, default) से fill कर सकते हैं।
🔹 Handling Duplicates
कभी-कभी dataset में same rows बार-बार आ जाते हैं जिन्हें remove करना ज़रूरी है।
# Duplicate values check print(df.duplicated().sum()) # Duplicates remove करना df_unique = df.drop_duplicates() print(df_unique)
Duplicates remove करने से data accurate और reliable बनता है।
🔹 Data Wrangling
Data Wrangling का मतलब है data को transform करके analysis के लिए तैयार करना। इसमें null values और duplicates के अलावा ये steps भी आते हैं:
- 🧾 Column names को सही करना
- 📅 Date-Time values को सही format में लाना
- 🔢 Data types को convert करना (string → int, float आदि)
- 📍 Irrelevant columns को drop करना
- 🌀 Outliers को handle करना
# Column rename df.rename(columns={"Name": "Full_Name"}, inplace=True) # Data type conversion df["Age"] = df["Age"].astype("float") # Irrelevant column drop df = df.drop(columns=["City"])
🌍 Real-Life Applications
- 🏥 Healthcare में patient records clean करना
- 💰 Finance sector में duplicate transactions हटाना
- 🛒 E-commerce में customer database maintain करना
- 📈 Business analytics में reliable dashboards बनाना
📝 Practice Assignments
- Pandas DataFrame बनाइए जिसमें कुछ null values हों और उन्हें mean से fill कीजिए।
- एक dataset लीजिए और duplicates remove करके unique records count कीजिए।
- DataFrame के किसी column को string से integer में convert करने का code लिखिए।
🏆 निष्कर्ष
Data Cleaning और Wrangling हर Data Scientist के लिए अनिवार्य skill है। Null values और duplicates को सही तरह से handle करना आपके models की accuracy और business decisions दोनों को improve करता है। याद रखिए: "Better Data → Better Insights → Better Decisions".