Cet article est une sortie facile à comprendre du ** Deep Learning from scratch Chapter 7 Learning Techniques **. J'ai pu le comprendre moi-même, j'espère donc que vous pourrez le lire confortablement. De plus, je serais plus qu'heureux que vous puissiez vous y référer lorsque vous étudiez ce livre.
SGD SGD est une méthode pour mettre à jour les paramètres en multipliant le coefficient d'apprentissage et en soustrayant des paramètres actuels après avoir trouvé le gradient comme précédemment. Cette méthode est simple et facile à mettre en œuvre, mais comme la direction indiquée par le gradient n'est pas la direction vers la valeur minimale exacte, elle effectue une recherche irrégulière et inefficace jusqu'au point du paramètre qui est la valeur minimale de la fonction de perte. Est un point faible.
Momentum Une méthode avec le concept supplémentaire de vitesse. Le paramètre est mis à jour en recherchant la vitesse à laquelle la pente roule de la pente au point avec la valeur minimale de la fonction de perte au point actuel et en l'ajoutant au paramètre. Il effectue une recherche en zigzag comme SGD, mais l'inefficacité est réduite car le zigzag est réduit et cela devient une recherche en zigzag arrondie par rapport à SGD.
AdaGrad Dans un premier temps, le coefficient d'apprentissage est augmenté et mis à jour, puis le coefficient d'apprentissage est diminué et mis à jour. ** Une méthode utilisant la technique de décomposition du coefficient d'apprentissage **. Au départ, les paramètres sont considérablement mis à jour, puis les mises à jour des paramètres sont progressivement réduites. En utilisant cette méthode, la recherche en zigzag peut être encore réduite et une recherche efficace peut être effectuée.
Adam Une nouvelle méthode proposée en 2015 qui combine Momentum et AdaGrad. Comme c'est compliqué, je ne vais pas l'expliquer ici, mais il est possible de rechercher très efficacement.
Les principales méthodes actuellement utilisées sont SGD simple et Adam très efficace mais complexe.