Data Cleaning & Wrangling (Null values, duplicates)

इस ब्लॉग में हम Data Cleaning और Wrangling के महत्वपूर्ण steps सीखेंगे — Null values को handle करना, duplicates को remove करना और data को सही format में लाना। यह Data Science workflow का सबसे critical हिस्सा है।

🧹 Data Cleaning & Wrangling in Python (Null values, Duplicates)

किसी भी Data Science या Machine Learning project की सफलता data की quality पर depend करती है। Raw data अक्सर incomplete, inconsistent या गलत होता है। इसलिए data को clean और transform करना ज़रूरी है। इस process को ही Data Cleaning & Wrangling कहा जाता है।

❓ Data Cleaning क्यों ज़रूरी है?

  • 📊 Accurate results के लिए data का सही होना ज़रूरी है
  • 🤖 ML Models clean data पर ही अच्छे से train होते हैं
  • 📉 Null values और duplicates गलत predictions करवा सकते हैं
  • 🛠 Business decisions raw data पर depend नहीं कर सकते

🔹 Handling Null Values

Null (missing) values data का सबसे common issue है। Pandas library इसका solution देती है।

import pandas as pd

data = {
    "Name": ["Amit", "Ravi", "Anita", "Pooja", None],
    "Age": [25, None, 28, 22, 30],
    "City": ["Delhi", "Mumbai", None, "Chennai", "Delhi"]
}
df = pd.DataFrame(data)

# Missing values check
print(df.isnull().sum())

# Null values हटाना
df_drop = df.dropna()

# Null values को भरना
df_fill = df.fillna({
    "Name": "Unknown",
    "Age": df["Age"].mean(),
    "City": "Not Specified"
})

print(df_fill)
    

👉 आप null values को या तो remove कर सकते हैं, या फिर उन्हें suitable values (mean, median, mode, default) से fill कर सकते हैं।

🔹 Handling Duplicates

कभी-कभी dataset में same rows बार-बार आ जाते हैं जिन्हें remove करना ज़रूरी है।

# Duplicate values check
print(df.duplicated().sum())

# Duplicates remove करना
df_unique = df.drop_duplicates()

print(df_unique)
    

Duplicates remove करने से data accurate और reliable बनता है।

🔹 Data Wrangling

Data Wrangling का मतलब है data को transform करके analysis के लिए तैयार करना। इसमें null values और duplicates के अलावा ये steps भी आते हैं:

  • 🧾 Column names को सही करना
  • 📅 Date-Time values को सही format में लाना
  • 🔢 Data types को convert करना (string → int, float आदि)
  • 📍 Irrelevant columns को drop करना
  • 🌀 Outliers को handle करना
# Column rename
df.rename(columns={"Name": "Full_Name"}, inplace=True)

# Data type conversion
df["Age"] = df["Age"].astype("float")

# Irrelevant column drop
df = df.drop(columns=["City"])
    

🌍 Real-Life Applications

  • 🏥 Healthcare में patient records clean करना
  • 💰 Finance sector में duplicate transactions हटाना
  • 🛒 E-commerce में customer database maintain करना
  • 📈 Business analytics में reliable dashboards बनाना

📝 Practice Assignments

  1. Pandas DataFrame बनाइए जिसमें कुछ null values हों और उन्हें mean से fill कीजिए।
  2. एक dataset लीजिए और duplicates remove करके unique records count कीजिए।
  3. DataFrame के किसी column को string से integer में convert करने का code लिखिए।

🏆 निष्कर्ष

Data Cleaning और Wrangling हर Data Scientist के लिए अनिवार्य skill है। Null values और duplicates को सही तरह से handle करना आपके models की accuracy और business decisions दोनों को improve करता है। याद रखिए: "Better Data → Better Insights → Better Decisions".