Je suis Harima, une école supérieure de première année de maîtrise en sciences. Je vais résumer mon contenu d'apprentissage sous forme de mémo. Je suis désolé, c'est difficile à voir. Je voudrais savoir ce que vous ne comprenez pas.
--Recevoir et livrer le statut, les actions et les récompenses toutes les heures
** Mesures ** ・ ・ ・ Règles permettant aux agents de décider de leurs actions
Concevoir un algorithme pour améliorer la politique en faisant agir l'agent sur l'environnement via ** "action" ** et observer le résultat sous la forme de ** "récompense" ** et de ** "état" **.
――Comment déterminer la fonction de récompense est une question importante
** Processus de détermination de Markov ** ・ ・ ・ Espace d'état $ S $, espace d'action $ A (s) $, distribution d'état initial $ P_0 $, probabilité de transition d'état $ P (s '| s, a) $, fonction de récompense Processus de probabilité décrit par $ r (s, a, s ') $
Soit l'ensemble d'états $ S $ un ensemble de tous les états
Soit $ s $ la variable qui représente les éléments de cet ensemble -L'ensemble d'états constitué d'états de type $ N $ est le suivant
S={s_1,s_2,...,s_N}
Soit $ S_t $ la variable stochastique qui représente l'état au pas de temps $ t $
--Si vous écrivez les états dans l'ordre à partir du pas de temps 0, c'est comme suit
Soit l'ensemble d'actions $ A (s) $ un ensemble de toutes les actions sélectionnables dans un certain état $ s $
Soit $ A_t $ la variable de probabilité qui représente le comportement de l'agent déterminé dans l'état $ S_t $ au pas de temps $ t
Soit $ R_t + 1 $ la variable de probabilité qui représente la récompense qui dépend de $ S_t $, $ A_t $, $ S_ {t + 1} $.
Prenez l'un des ensembles $ R $ de tous les nombres réels
--L'environnement détermine de manière probabiliste l'état (état initial) au moment initial (** distribution d'état initial **)
--L'état suivant est déterminé de manière probabiliste par l'état et le comportement actuels
--Lorsque l'agent décide de l'action $ a $ dans l'état $ s $, la probabilité que l'état passe à $ s '$ est donnée comme suit.
-L'état $ S_ {t + 1} $ à l'étape $ t + 1 $ est déterminé comme suit.
--L'environnement détermine la récompense $ R_ {t + 1} $ selon l'état actuel $ S_t $, l'action $ A_t $ et l'état suivant $ S_ {t + 1}
** Trois yeux ** -Chaque joueur pose une pierre sur le carré de 9 $ de 3 $ x 3 $, et gagne si ses pierres s'alignent en ligne droite.
L'agent donne une récompense positive au tableau gagnant et une récompense négative au tableau perdant. --La distribution de l'état initial est la suivante
P_0(s)=\begin{cases}1 ,,,,,, (s=s_1) \ 0 ,,,,,, (otherwise) \end{cases}
- ** Pas de temps et épisodes **
- ** Pas de temps ** ・ ・ ・ Unité de temps de base dans l'interaction entre l'agent et l'environnement
- ** Épisode ** ・ ・ ・ Le temps entre le début et la fin de la tâche est résumé et se compose de plusieurs pas de temps.
- ** Qu'est-ce qu'une bonne politique **
- ** Revenus ** ・ ・ ・ Récompense cumulative obtenue sur une certaine période (somme des récompenses sur la période)
--La récompense $ R_t $ obtenue au pas de temps $ t $, la longueur de l'intervalle est $ T $ et le revenu $ G_t $ est défini comme suit.
```math
G_t=\sum^{T-1}_{\tau=0}{R_{t+1+\tau}}
```
--Définir les bénéfices à plus long terme
```math
G_t=\lim_{T\rightarrow \infty} \frac{1}{T}\sum^{T-1}_{\tau=0}{R_{t+1+\tau}}
```
- ** Somme de récompense de remise ** ・ ・ ・ Bénéfice qui exprime une incertitude future sous la forme d'une remise de rémunération
```math
G_t=\sum^{\infty}_{\tau=0}\gamma^{\tau}R_{t+1+\tau}=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...
```
- Taux de remise $ \ gamma (0 \ le \ gamma \ le 1) $ est une constante qui indique combien l'avenir sera actualisé
――Profit est un indice permettant d'évaluer les récompenses obtenues dans une perspective à long terme.
- Prenez la valeur attendue du profit à la condition de l'état, et appelez cela la ** valeur d'état **.
- ** Valeur de l'état ** ・ ・ ・ Valeur attendue du profit obtenu lorsque l'action est décidée conformément à la politique $ \ pi $ d'un certain état
```math
V^{\pi}(s)=E^{\pi}[ G_t|S_t=s ]
```
- "Valeur attendue sous la politique $ \ pi $" ... Valeur attendue lorsque l'agent décide de l'action en fonction de la politique $ \ pi $ de l'état $ s $ au pas de temps $ t $
- Considérez un exemple de revenu d'intervalle fini de $ T = 1 $
――Les bénéfices à considérer sont les suivants
```math
G_t=R_{t+1}
--La probabilité que l'état soit $ s '$ dans le pas de temps $ t + 1 $ est la suivante
```math
P(S_{t+1}=s',A_t=a|S_t=s)=P(S_{t+1}=s'|S_t=s,A_t=a) \pi(a|s)
--La valeur d'état est la suivante en prenant la valeur attendue avec l'état $ S_t $ comme condition.
$$\begin{eqnarray*} V^{\pi}(s)&=& E^{\pi}[G_t|S_t=s] \\
&=& \sum_{s' \in S} \sum_{a \in A(s)} P(S_{t+1}=s',A_t=a|S_t=s) r(s,a,s') \\
&=& \sum_{s' \in S} \sum_{a \in A(s)} P(S_{t+1}=s'|S_t=s,A_t=a) \pi(a|s) r(s,a,s') \end{eqnarray*} $$
- Considérez un exemple de revenu par segment fini avec $ T = 2 $
――Les bénéfices à considérer sont les suivants
```math
G_t=R_{t+1}+R_{t+2}
Les valeurs attendues sont les suivantes
\begin{eqnarray*} V^{\pi}(s) &=& E[G_t|S_t=s]=E^\pi[R_{t+1}+R_{t+2}|S_t=s] \ &=& \sum_{s''\in S}\sum_{a'\in A(s)}\sum_{s'\in S}\sum_{a\in A(s)} P(S_{t+2}=s'',A_{t+1}=a',S_{t+1}=s',A_t=a|S_t=s){r(s,a,s')+r(s',a',s'')} \ &=& \sum_{s''\in S}\sum_{a'\in A(s)}\sum_{s'\in S}\sum_{a\in A(s)} P(S_{t+2}=s''|S_{t+1}=s',A_{t+1}=a')\pi(a'|s')×P(S_{t+1}=s'|S_t=s,A_t=a)\pi(a|s){r(s,a,s')+r(s',a',s'')} \end{eqnarray*}
-Lors de la correction de $ \ pi $ et de la modification de $ s $
――Évaluer les bénéfices attendus qui seront gagnés lors de la décision d'actions en fonction de certaines mesures fixes pour diverses conditions
--Il peut être utilisé comme un index pour montrer la bonté de l'état sous une certaine mesure $ \ pi $ (** fonction de valeur d'état **)
-Lors de la correction de $ s $ et du changement de $ \ pi $
――Évaluez les bénéfices attendus en lançant une action à partir d'un certain état pour diverses mesures
――Indicateur montrant la bonté de la politique en partant d'un certain état $ s $
$$
\forall s\in S,\,\,\,\,\, V^\pi(s) \ge V^{{\pi}^{'}}(s)\\
\exists s\in S,\,\,\,\,\, V^\pi(s) > V^{{\pi}^{'}}(s)
$$
- ** Politique optimale **
- ** Valeurs d'état optimales ** ・ ・ ・ $ V ^ * (s) $
```math
\forall s\in S,\,\,\,\,\, V^*(s)=V^{{\pi}^{*}}(s)=\max_\pi V^\pi (s)
** Nombre de valeurs comportementales ** ・ ・ ・ $ Q ^ \ pi $
Q^\pi(s,a)=E^\pi[G_t|S_t=s,A_t=a]
-Pour $ A_t, S_ {t + 1}, A_ {t + 1} $, prenez la valeur attendue en fonction de leur probabilité d'apparition
――Une trajectoire dans laquelle chaque état et action sont connectés
---
-Profit pour une section finie de $ T = 1 $
```math
X_1=\{\Xi=(s,a,s')|s\in S,a\in A,s'\in S\}
-Appeler $ \ Xi $ ** orbite **
Jeu d'orbitaux avec état initial fixe
X_1|_s={\Xi=(s,a,s')|a\in A,s'\in S}
-Un ensemble d'orbites avec un état initial et un comportement fixes
```math
X_1|_s(s,a)=\{\Xi=(s,a,s')|s'\in S\}
Considérez le profit en fonction de l'orbite
G_t=G_t(\Xi)
```math
V^\pi(s)=\sum_{\Xi\in X_1|_s}P(\Xi)G_t(\Xi)\\
Q^\pi(s,a)=\sum_{\Xi\in X_1|_{(s,a)}}P(\Xi)G_t(\Xi)
-Lorsque $ T = 2 $
```math
X_2|_s={\Xi=(s,a,s',a',s'')|a\in A,s'\in S,a'\in A,s''\in S}
```math
X_2|_{(s,a)}=\{\Xi=(s,a,s',a',s'')|s'\in S,a'\in A,s''\in S\}
Dans l'environnement illustré à la Figure 1.2.5, l'ensemble des orbites à prendre en compte lors du calcul de la valeur d'état est le suivant.
X_1|_{s_1}={(s_1,a_1,s_3),(s_1,a_2,s_2)}
```math
X_2|_{s_1}=\{(s_1,a_1,s_3,a_1,s_4),(s_1,a_1,s_3,a_2,s_1),(s_1,a_2,s_2,a_1,s_1),(s_1,a_2,s_2,a_2,s_4)\}
Ce qui suit est un ensemble d'orbites à prendre en compte lors de la recherche d'une valeur d'action.
X_1|_{(s_1,a_1)}={(s_1,a_1,s_3)}
```math
X_2|_{(s_1,a_1)}=\{(s_1,a_1,s_3,a_1,s_4),(s_1,a_1,s_3,a_2,s_1)\}
――Comment trouver une bonne politique
** politique gourmande **
\pi(a|s)=\begin{cases}1 ,,,,,, (a=\arg \max_aQ(s,a)) \ 0 ,,,,,, (otherwise) \end{cases}
--Estimer la fonction de valeur d'action optimale
―― Parfois, il est nécessaire de sélectionner de manière probabiliste une action qui n'est pas toujours la meilleure à ce moment-là.
- ** $ \ epsilon $ - politique de gourmandise **
```math
\pi(a|s)=\begin{cases}1-\epsilon+\frac{\epsilon}{|A(s)|} \,\,\,\,\,\, (a= \arg \max_{a} Q(s,a)) \\\frac{\epsilon}{|A(s)|} \,\,\,\,\,\, (otherwise) \end{cases}
** Politique de Boltzmann (Softmax) ** ・ ・ ・ La probabilité de sélection suit la distribution de Gibbs
\pi(a|s)=\frac{\exp(Q(s,a)/T)}{\sum_{b\in A}\exp(Q(s,b)/T)}
- $ T $ est le paramètre de température
Recommended Posts