Azure ML Studio: Dataset, Compute & Environment (Hindi Guide)

📊 Azure ML Studio: Dataset, Compute & Environment (Step-by-Step Guide in Hindi)

जब हम Azure Machine Learning Studio में ML workflows build करते हैं, तो तीन core components सबसे ज्यादा important होते हैं: Dataset, Compute और Environment। Dataset आपके data को represent करता है, Compute आपके training/inference jobs run करने के लिए resources provide करता है और Environment reproducibility तथा dependency management के लिए काम आता है। इस ब्लॉग में हम इन तीनों concepts को detail में समझेंगे।

🔹 Azure ML Dataset

Dataset एक reusable data object है जिसे आप experiments और pipelines में बार-बार use कर सकते हैं। Azure ML में दो main types होते हैं:

Tabular Dataset: CSV, TSV, Parquet आदि format में structured data
File Dataset: Raw files (images, text, audio, etc.)

Dataset create करने के तरीके:

Azure Portal → Azure ML Studio → Datasets → Create Dataset
Data source select करें (Blob storage, SQL database, local upload)
Schema define करें और Dataset register करें

from azureml.core import Dataset, Workspace

ws = Workspace.from_config()
dataset = Dataset.Tabular.from_delimited_files(path=['https://mystorage.blob.core.windows.net/data/train.csv'])
dataset = dataset.register(workspace=ws, name='Train Dataset', create_new_version=True)

🔹 Azure ML Compute

Machine Learning workloads चलाने के लिए scalable compute resources की जरूरत होती है। Azure ML Studio multiple compute targets provide करता है:

Compute Instance: Personal dev environment (Jupyter/VS Code integration)
Compute Cluster: Scalable CPU/GPU nodes training के लिए
Inference Cluster: AKS cluster model deployment के लिए
Attached Compute: External VM या Databricks cluster attach करना

Compute Cluster create करने का example (CLI):

az ml compute create --name mycpucluster --type AmlCompute \
 --size STANDARD_DS3_V2 --min-instances 0 --max-instances 4 --resource-group my-rg --workspace-name my-ws

Python SDK से Compute attach करना:

from azureml.core.compute import ComputeTarget, AmlCompute

cluster_name = "cpu-cluster"
compute_config = AmlCompute.provisioning_configuration(vm_size="STANDARD_DS3_V2",
                                                       min_nodes=0, max_nodes=4)
cpu_cluster = ComputeTarget.create(ws, cluster_name, compute_config)
cpu_cluster.wait_for_completion(show_output=True)

🔹 Azure ML Environment

Environment dependency management और reproducibility के लिए use होता है। इसमें Python/R packages, Docker base images और Conda dependencies specify की जाती हैं।

Environment create करने का example:

from azureml.core import Environment

myenv = Environment("training-env")
myenv.python.conda_dependencies.add_pip_package("scikit-learn")
myenv.docker.enabled = True
myenv.register(workspace=ws)

Types of Environments:

Curated Environments (Azure द्वारा pre-built)
User-defined Environments (Custom dependencies)

🔒 Best Practices

Dataset को version करें ताकि experiments reproducible रहें
Compute clusters auto-scale पर configure करें (min=0, max>0)
Environment को register करें और lock dependencies रखें
Experiment tracking और logging enable करें

⚡ Real-World Example

मान लीजिए एक healthcare company patient readmission prediction model train कर रही है:
– Tabular dataset (CSV) को workspace में register किया जाता है
– Compute cluster setup किया जाता है model training के लिए
– Custom environment define किया जाता है जिसमें TensorFlow और Scikit-learn packages installed हैं
– Training job run करके best model save और deploy किया जाता है
इससे ML workflow scalable और reproducible हो जाता है।

🏆 निष्कर्ष

Azure ML Studio में Dataset, Compute और Environment तीन pillars हैं जो हर ML workflow की backbone बनाते हैं। अगर आप इन्हें efficiently manage करते हैं तो आपका ML pipeline fast, scalable और reproducible बनेगा। अगली बार जब आप Azure ML experiment चलाएँ, तो Dataset versioning, Compute scaling और Environment reproducibility का खास ध्यान रखें।