Nesterov Accelerated Gradient Descent (NAG) क्या है? | NAG in Deep Learning in Hindi


Nesterov Accelerated Gradient Descent (NAG) क्या है? | NAG in Deep Learning in Hindi

Deep Learning और Machine Learning में Nesterov Accelerated Gradient Descent (NAG) एक उन्नत Optimization Algorithm है, जो पारंपरिक Momentum-based Gradient Descent से भी अधिक प्रभावी और तेज़ Convergence प्रदान करता है। यह Gradient Descent की गति को बढ़ाने और Model Training को अधिक स्थिर बनाने के लिए Lookahead Mechanism का उपयोग करता है।

1. Nesterov Accelerated Gradient Descent (NAG) क्या है?

NAG एक संशोधित Momentum-Based Gradient Descent तकनीक है, जिसे Yurii Nesterov ने 1983 में प्रस्तुत किया था। यह सामान्य Momentum Technique में एक सुधार है, जहाँ यह पहले अनुमान लगाता है कि वेट्स कहाँ होंगे और फिर Gradient की गणना करता है।

इसका मुख्य लक्ष्य Gradient Descent के Overshooting (बहुत तेज़ी से Minima को पार कर जाना) को कम करना और Convergence को तेज़ करना है।

2. सामान्य Momentum और Nesterov Momentum में अंतर

Momentum-Based Gradient Descent में, अपडेट निम्नलिखित समीकरण के अनुसार किया जाता है:

Vt = β * Vt-1 + α * (∂J/∂θ)
θ = θ - Vt

जहाँ:

  • Vt = वर्तमान Gradient Velocity
  • β = Momentum Coefficient (आमतौर पर 0.9)
  • α = Learning Rate
  • ∂J/∂θ = Cost Function का Gradient

जबकि Nesterov Accelerated Gradient (NAG) में वेट्स को अपडेट करने से पहले पहले ही एक अनुमान लगाया जाता है:

Vt = β * Vt-1 + α * (∂J/∂(θ - β * Vt-1))
θ = θ - Vt

इससे पहले ही अनुमान लगाकर Gradient की दिशा को और बेहतर बनाया जाता है, जिससे Model Training अधिक स्थिर हो जाती है।

3. Nesterov Accelerated Gradient Descent कैसे काम करता है?

NAG Gradient Descent के वेट्स को अपडेट करने से पहले पहले ही एक अनुमान (Lookahead) लेता है और फिर Gradient को उस अनुमानित स्थान पर कैलकुलेट करता है।

  • Traditional Momentum सीधे पिछले Gradient Update को जोड़ता है।
  • NAG पहले एक अनुमान लेता है और फिर Gradient को सही करता है।
  • इसका उपयोग Gradient के Overshooting को कम करने और अधिक सटीक Learning के लिए किया जाता है।

4. Nesterov Accelerated Gradient Descent का उदाहरण

Iteration Gradient Momentum Update Updated Weight (θ)
1 -0.5 0.9 * (-0.5) + 0.1 * (-0.5) 0.45
2 -0.4 0.9 * (-0.45) + 0.1 * (-0.4) 0.41
3 -0.3 0.9 * (-0.41) + 0.1 * (-0.3) 0.37

ऊपर के उदाहरण में, NAG वेट अपडेट के लिए पहले Lookahead लेता है और फिर Correction करता है।

5. Nesterov Accelerated Gradient Descent के फायदे

  • Gradient Descent को अधिक स्थिर बनाता है।
  • Overshooting को कम करता है।
  • Cost Function को तेजी से Minimize करता है।
  • Deep Neural Networks में Training को तेज करता है।

6. Gradient Descent vs Momentum vs Nesterov Accelerated Gradient

Algorithm Convergence Speed Overshooting Control Lookahead Mechanism
Gradient Descent Slow No No
Momentum Gradient Descent Faster Partial No
Nesterov Accelerated Gradient (NAG) Fastest Yes Yes

7. निष्कर्ष

Nesterov Accelerated Gradient Descent (NAG) एक उन्नत Optimization Algorithm है, जो पारंपरिक Momentum Gradient Descent की तुलना में अधिक प्रभावी है। यह Lookahead Mechanism का उपयोग करके Gradient Descent को अधिक स्थिर और तेज बनाता है। Deep Learning में Training Speed और Model Performance को बेहतर बनाने के लिए यह एक महत्वपूर्ण तकनीक है।

Related Post