Pourquoi une descente de gradient stochastique ?

Pourquoi une descente de gradient stochastique ?
Pourquoi une descente de gradient stochastique ?
Anonim

Selon un spécialiste des données senior, l'un des avantages distincts de l'utilisation de la descente de gradient stochastique est que il effectue les calculs plus rapidement que la descente de gradient et la descente de gradient par lots … De plus, sur ensembles de données volumineux, la descente de gradient stochastique peut converger plus rapidement car elle effectue des mises à jour plus fréquemment.

À quoi sert la descente de gradient stochastique ?

La descente de gradient stochastique est un algorithme d'optimisation souvent utilisé dans les applications d'apprentissage automatique pour trouver les paramètres du modèle qui correspondent au meilleur ajustement entre les sorties prédites et réelles C'est une technique inexacte mais puissante. La descente de gradient stochastique est largement utilisée dans les applications d'apprentissage automatique.

Pourquoi avons-nous besoin d'utiliser la descente de gradient stochastique plutôt que la descente de gradient standard pour entraîner un réseau de neurones convolutifs ?

Descente de gradient stochastique met à jour les paramètres de chaque observation, ce qui entraîne un plus grand nombre de mises à jour. C'est donc une approche plus rapide qui aide à une prise de décision plus rapide. Des mises à jour plus rapides dans différentes directions peuvent être remarquées dans cette animation.

Pourquoi préférons-nous la descente en dégradé ?

La principale raison pour laquelle la descente de gradient est utilisée pour la régression linéaire est la complexité de calcul: il est moins coûteux (plus rapide) en calcul de trouver la solution en utilisant la descente de gradient dans certains cas. Ici, il faut calculer la matrice X′X puis l'inverser (voir note ci-dessous). C'est un calcul coûteux.

Pourquoi SGD est-il utilisé ?

La descente de gradient stochastique (souvent abrégé SGD) est une méthode itérative pour optimiser une fonction objectif avec des propriétés de lissage appropriées (par exemple différentiable ou sous-différentiable).