LSTM résout le problème en utilisant une structure de gradient additif unique qui inclut accès direct aux activations de la porte oubliée, permettant au réseau d'encourager le comportement souhaité à partir du gradient d'erreur en utilisant une mise à jour fréquente des portes à chaque étape du processus d'apprentissage.
Comment LSTM résout-il le gradient explosif ?
Une réponse très courte: LSTM découple l'état de la cellule (généralement désigné par c) et la couche/sortie cachée (généralement désignée par h), et ne fait que des mises à jour additives de c, ce qui rend les mémoires en c plus stables. Ainsi, le flux de gradient à travers c est conservé et difficile à disparaître (donc le gradient global est difficile à disparaître).
Comment résoudre le problème du gradient de fuite ?
Solutions: La solution la plus simple consiste à utiliser d'autres fonctions d'activation, telles que ReLU, qui ne provoque pas de petite dérivée. Les réseaux résiduels sont une autre solution, car ils fournissent des connexions résiduelles directement aux couches précédentes.
Quel problème LSTM résout-il ?
LSTM. LSTM (abréviation de longue mémoire à court terme) résout principalement le problème du gradient de fuite dans la rétropropagation. Les LSTM utilisent un mécanisme de déclenchement qui contrôle le processus de mémorisation. Les informations contenues dans les LSTM peuvent être stockées, écrites ou lues via des portes qui s'ouvrent et se ferment.
Pourquoi les LSTM empêchent vos gradients de disparaître d'une vue de la passe arrière ?
La raison en est que, afin d'appliquer ce flux d'erreurs constant, le calcul du gradient a été tronqué afin de ne pas revenir aux portes d'entrée ou candidates.