select_max_ucb_child() Une méthode qui sélectionne le nœud enfant qui maximise la valeur de la formule suivante qui apparaît dans le chapitre 4, la soi-disant valeur UCB. St est l'état actuel du nœud, c'est-à-dire la phase. a est un coup candidat. Q (St, a) est le terme de valeur attendue. Représente la valeur d'action de l'action a dans l'état St. Dans ce livre, le taux de réussite total du nœud enfant a est divisé par le nombre de visites du nœud enfant a. U (St, a) est un objet bonus. La main avec le plus petit nombre de recherches est préférentiellement sélectionnée. De plus, la probabilité de mouvement P (s, a) obtenue à partir du réseau de politique est également utilisée de sorte que les mouvements prometteurs sont de préférence recherchés.
Cpuct: Une constante qui ajuste le poids de la durée du bonus. P (s, a): probabilité de lancement prévue du réseau politique. N (s, a): Le nombre de visites d'action a dans l'état s. Dans le livre, c'est +1. Est-ce pour éviter que le dénominateur ne devienne 0 lorsque le nombre de visites est égal à 0? √ΣN (s, b): Nombre de visites pour toutes les actions dans l'état s.
Image de ce que vous faites réellement avec select_max_ucb_child ()
Recommended Posts