Stochastic Gradient Descent (SGD) क्या है? | SGD in Deep Learning in Hindi


Stochastic Gradient Descent (SGD) क्या है? | SGD in Deep Learning in Hindi

Deep Learning और Machine Learning में Gradient Descent एक महत्वपूर्ण Optimization Algorithm है, जिसका उपयोग Neural Networks को प्रशिक्षित (Train) करने के लिए किया जाता है। Stochastic Gradient Descent (SGD) Gradient Descent का एक विशेष प्रकार है, जो Training को अधिक तेज़ और प्रभावी बनाता है।

1. Stochastic Gradient Descent (SGD) क्या है?

SGD एक Iterative Optimization Algorithm है, जो प्रत्येक Training Example के लिए Model के Weights को अपडेट करता है। यह पारंपरिक Batch Gradient Descent से भिन्न है, जो पूरे Dataset पर Gradient की गणना करता है।

SGD निम्नलिखित समीकरण पर आधारित है:

θ = θ - α * (∂J/∂θ)

जहाँ:

  • θ = Model Parameters (Weights)
  • α = Learning Rate
  • J = Cost Function
  • ∂J/∂θ = एक सैंपल के लिए Cost Function का Gradient

2. Stochastic Gradient Descent कैसे काम करता है?

SGD प्रत्येक Training Example के आधार पर Gradient की गणना करता है और Weights को अपडेट करता है। इस प्रक्रिया में:

  • Dataset से एक Random Sample लिया जाता है।
  • Gradient की गणना की जाती है।
  • Weights को Gradient की दिशा में अपडेट किया जाता है।
  • इस प्रक्रिया को तब तक दोहराया जाता है जब तक कि Cost Function न्यूनतम नहीं हो जाता।

3. Stochastic Gradient Descent का उदाहरण

मान लीजिए कि हमारे पास एक Simple Cost Function है:

J(θ) = θ² - 4θ + 4

SGD निम्नलिखित स्टेप्स में इस Cost Function को Optimize करेगा:

Iteration Gradient Updated Weight (θ)
1 2(3) - 4 = 2 3 - 0.1 * 2 = 2.8
2 2(2.8) - 4 = 1.6 2.8 - 0.1 * 1.6 = 2.64
3 2(2.64) - 4 = 1.28 2.64 - 0.1 * 1.28 = 2.512

ऊपर दी गई प्रक्रिया में, हर इटरेशन के बाद Weights अपडेट किए जाते हैं, जिससे मॉडल तेज़ी से Converge होता है।

4. Stochastic Gradient Descent के फायदे

  • Training Speed को तेज़ करता है।
  • Computation Cost कम करता है।
  • Large Datasets के लिए उपयोगी है।
  • Local Minima से बचने में मदद करता है।

5. Stochastic Gradient Descent की सीमाएँ

  • Gradient Calculation में Noise (अस्थिरता) हो सकती है।
  • Convergence कभी-कभी अस्थिर हो सकता है।
  • Learning Rate को सही ढंग से ट्यून करना आवश्यक होता है।

6. SGD और अन्य Gradient Descent Techniques की तुलना

Gradient Descent Type Gradient Calculation Computation Time Convergence Stability
Batch Gradient Descent पूरा Dataset धीमा स्थिर
Stochastic Gradient Descent (SGD) एक Data Sample तेज़ अस्थिर
Mini-Batch Gradient Descent Mini-Batch Data मध्यम अच्छा संतुलन

7. निष्कर्ष

Stochastic Gradient Descent (SGD) Deep Learning में एक महत्वपूर्ण Optimization Algorithm है। यह Model Training को तेज़ करता है और Large Datasets पर अच्छी तरह काम करता है। हालांकि, इसकी अस्थिरता और Noise की समस्या को हल करने के लिए Momentum और Adaptive Learning Rate Optimizers जैसे कि Adam और RMSprop का उपयोग किया जाता है।

Related Post

Comments

Comments