Notez ce que j'ai appris de "Deep Learning from scratch"
Indicateur de mauvaises performances du réseau neuronal Lors de l'apprentissage du réseau neuronal, les paramètres sont mis à jour en utilisant le gradient comme indice.
$ y_k $ est le nombre de sorties du réseau neuronal, $ t_k $ les données de l'enseignant et $ k $ est le nombre de dimensions des données. La sortie du réseau neuronal peut être interprétée comme une probabilité. $ (0 \ leq y_k \ leq1) $ De plus, $ t_k $ est une expression one-hot.
E = \frac{1}{2}\sum_{k}(y_k-t_k)^2
$ \ Log $ a une base de $ e $. $ y_k $ et $ t_k $ sont les mêmes que l'erreur de somme des carrés. Plus la sortie $ y_k $ est proche de 1, plus l'entropie d'erreur est petite.
E = -\sum_{k}t_k\log y_k
Un certain nombre de morceaux sélectionnés parmi les données d'entraînement = mini lot L'apprentissage est effectué pour chaque mini-lot.
Trouvez la valeur minimale de la fonction de perte à l'aide du gradient. Diminuez la valeur de la fonction en répétant le processus de déplacement d'une certaine distance dans la direction du gradient à partir de l'emplacement actuel. Pour être précis, cela s'appelle la méthode de descente de gradient.
x = x - \eta \frac{\partial f}{\partial x_0}
$ \ eta $ est le nombre de mises à jour et est appelé le taux d'apprentissage. Ces paramètres ajustés par des mains humaines sont appelés hyper paramètres.
Méthode de descente de gradient pour les données sélectionnées au hasard sous forme de mini-lot.
Il existe des poids et des biais adaptables. Appliquer ce poids et ce biais aux données d'entraînement est un «apprentissage»
Une partie des données est extraite au hasard des données d'entraînement. Diminuez la valeur de la fonction de perte du mini-lot.
Pour trouver la fonction de perte du mini-lot, trouvez le gradient de chaque paramètre de poids.
Mettez à jour le paramètre de pondération dans la direction du dégradé.
Répétez les étapes 1 à 3.
La prochaine fois, nous implémenterons un réseau neuronal à deux couches.
Recommended Posts