Article précédent a réussi à comprendre la fonction de perte, mais cela seul définit toujours la fonction et ne fait pas converger correctement la valeur (perte). Je n'ai pas demandé la réponse.
Donc, cette fois, je vais parler de la façon de trouver la réponse.
Nous omettons l'explication de la fonction de perte, mais à la fin nous devons faire converger les valeurs. Dans ce graphique, trouvez le "m" qui minimise la perte.
Vous n'obtenez pas la réponse en une seule fois, mais ajustez-la petit à petit pour vérifier la perte et faites des ajustements pour la réduire.
Cette partie "ajuster petit à petit" est le mal, mais j'utiliserai la sagesse à laquelle les grands gens ont pensé de différentes manières.
Une méthode typique est comme celle-ci, mais il existe différents algorithmes en fonction de la manière de l'implémenter. Je n'entrerai pas dans les détails, mais les points clés sont la précision des valeurs et la vitesse de convergence.
TensorFlow en prépare également beaucoup.
Il est difficile de tout comprendre, donc je me demande si ce n'est pas grave si je ne connais que «Adam Optimizer» et «Gradient Descent Optimizer» utilisés dans le didacticiel. "Adam Optimizer" est l'algorithme d'Adam et "Gradient Descent Optimizer" est la méthode de descente rapide.
L'utilisation est la même pour les deux, spécifiez le taux d'apprentissage comme valeur initiale et passez la fonction de perte à la fonction "minimiser ()" pour minimiser la valeur. Chaque code ressemble à ceci:
train_step = tensorflow.train.AdamOptimizer(1e-4).minimize(cross_entropy)
train_step = tensorflow.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
Il est facile de remplacer l'algorithme à utiliser, mais c'est un essai et une erreur pour décider quel devrait être le taux d'apprentissage. .. .. ^^;
Ainsi, lorsque vous faites cela, il ajustera automatiquement les paramètres de pondération afin que la valeur de la fonction de perte soit plus petite. Il s'agit de la "propagation de retour d'erreur".
Pour une histoire difficile sur l'algorithme de descente de gradient, il semble bon de lire l'article Par ici.
Recommended Posts