Je suis Harima, une école supérieure de première année de maîtrise en sciences. Je vais résumer mon contenu d'apprentissage sous forme de mémo. Je suis désolé, c'est difficile à voir. Je voudrais savoir ce que vous ne comprenez pas.
Chap.0 Introduction
―― L'apprentissage intensifié est un cadre théorique permettant d'acquérir un comportement optimal par essais et erreurs basés sur l'expérience.
--ex) Vélo
――Comment collecter des données dans un monde où vous ne disposez pas de suffisamment de données et où il est coûteux de collecter des données (← → big data)
―― L'acteur qui agit est ** agent **, la cible sur laquelle travailler est ** environnement **, l'action est ** action **, et les éléments de l'environnement qui changent en conséquence sont ** état **
** Récompense ** (** Gain ** en économie, ** Perte ** ou ** Coût ** en Control Engineering) pour une comparaison unifiée de ce qui se passe dans un environnement inconnu
** Maximisez le total des récompenses que vous obtenez grâce à votre choix d'action dans votre environnement **
--Représente la ** politique ** de détermination de l'action de l'agent comme une fonction qui prend le résultat de l'observation comme entrée et sort l'action.
-Il est nécessaire de maximiser la récompense à long terme (** revenus **) obtenue en combinant ** récompense immédiate ** et ** récompense différée **.
--Calculer ** valeur ** comme une attente conditionnelle lorsque l'état actuel de l'agent, la politique à utiliser, etc. sont fixés
Dans la plupart des cas, on suppose que l'agent n'a aucune connaissance préalable de l'environnement ou est incomplet.
** Compromis entre la recherche et l'utilisation ** ・ ・ ・ Si vous essayez ** d'utiliser ** les résultats d'apprentissage jusqu'à présent, ** la recherche ** diminuera et les chances de perte augmenteront. En revanche, si vous augmentez le nombre de recherches, vous vous comporterez différemment du meilleur comportement, et la récompense que vous obtiendrez diminuera (la solution optimale changera dynamiquement en fonction de la quantité et du biais des informations obtenues).
** Problème de bandit multi-bras ** ・ ・ ・ Le bras de la machine à sous est de $ K $, le montant du remboursement est de $ R $, et la probabilité de gagner lorsque le bras $ i $ est soustrait est de $ p_i $ (joueur) Impossible de connaître la valeur de probabilité à l'avance)
** algorithme gourmand ** ・ ・ ・ Sélectionnez le bras avec la valeur attendue la plus élevée parmi les résultats à ce jour
Si vous avez un bras que vous n'avez pas encore sélectionné n fois, sélectionnez-le.
Sinon, calculez la récompense moyenne à ce jour pour toutes les armes.
$ \ mu_i $ choisit le plus grand bras
\mu_i=\frac{Somme des récompenses obtenues du bras i jusqu'à présent}{Nombre de fois où le bras i a été joué jusqu'à présent}
Puisque le bras non optimal $ i '$ a beaucoup touché pendant l'essai, le taux de remboursement $ p_ {i'} $ pour le bras $ i '$ est plus élevé que le taux de remboursement $ p_i $ pour le bras optimal $ i $. Identifié à tort comme grand
Si vous continuez à tirer le bras $ i '$ en fonction de la mauvaise solution optimale, plus de résultats du bras $ i' $ seront collectés, et l'erreur d'estimation de $ p_ {i '} $ diminuera à mesure que le nombre d'essais augmente, et un jour vous ferez une erreur. Correctable
Le bras initial optimal $ i $ n'a pas beaucoup touché au moment de l'essai, donc le taux de remboursement $ p_i $ pour le bras $ i $ n'est pas optimal Le taux de remboursement $ p_ {i '} $ pour le bras $ i' $ Identifié à tort comme plus petit
Même si vous continuez à tirer le bras $ i '$ en fonction de la mauvaise solution optimale, les informations du bras optimal à l'origine $ i $ ne sont pas collectées, donc même si vous répétez l'essai, l'erreur d'estimation ne diminue pas et l'erreur ne peut pas être corrigée
** $ \ epsilon $ -greedy algorithme ** ・ ・ ・ Choisissez un bras aléatoire avec probabilité $ \ epsilon $ ($ 0 \ leq \ epsilon \ leq 1 $)
――Si vous avez un bras que vous n'avez pas encore sélectionné, sélectionnez-en un parmi ces bras
Choisissez au hasard un de tous les bras avec une probabilité de $ \ epsilon $ --Choisissez le bras avec la moyenne la plus élevée de $ \ mu_i $ de récompenses à ce jour avec une probabilité de 1 $ \ epsilon $
$ \ epsilon $ semble avoir une méthode de recherche plus efficace que aléatoire
** Optimiste en cas d'incertitude ** ... Lorsqu'il y a une incertitude sur la valeur attendue, une valeur attendue élevée doit être supposée dans la plage de l'incertitude.
―― 1) Pensez à un ensemble «d'environnements imaginables» cohérents avec les connaissances actuelles ―― 2) Sélectionnez l'environnement «le plus pratique» de l'ensemble ―― 3) La prochaine action est la solution optimale dans l'environnement le plus pratique.
L'accent est mis sur l'exploration dans les premières étapes de l'apprentissage, et l'accent est mis sur l'utilisation dans les dernières étapes.
** Méthode de la valeur initiale optimiste ** ・ ・ ・ Estimer l'espérance optimiste de la valeur de chaque bras sous la forme d'observation de la valeur maximale de récompense de chaque bras $ K $ fois avant l'apprentissage.
Récompense en haut $ r_ \ sup $ --En plus des résultats observés lors de l'apprentissage, calculez la valeur attendue de la récompense pour chaque bras, en supposant que la récompense de $ r_ \ sup $ a été observée $ K $ fois pour chaque bras.
$ \ mu'_i $ choisit le plus grand bras
\mu'_i = \frac{Somme des récompenses obtenues du bras i jusqu'à présent+Kr_{\sup}}{Nombre de fois où le bras i a été joué jusqu'à présent+K}
** Algorithme UCB ** ・ ・ ・ En approchant progressivement la probabilité de l'intervalle de confiance à 1, la recherche nécessaire est effectuée pour toutes les options, et le coût de la recherche et le risque de se tromper dans la solution optimale peuvent être réduits.
$ R $: Différence entre le montant de remboursement maximum et minimum --Si vous avez un bras que vous n'avez pas encore choisi, choisissez-en un -Calculer la valeur attendue de la récompense obtenue de chaque bras $ i $ --Calculer la demi-largeur de l'intervalle de confiance de la récompense obtenue à partir de chaque bras $ i $
$ x_i = \ mu_i + U_i $ choisit le plus grand bras $ i $
\mu_i=\frac{Somme des récompenses obtenues du bras i jusqu'à présent}{Nombre de fois où le bras i a été sélectionné jusqu'à présent}\\
U_i=R \sqrt{\frac{2 \ln (Nombre total de lectures jusqu'à présent)}{Nombre de fois où le bras i a été joué jusqu'à présent}}
-Simuler quand $ K = 4 $.
-Recueillir des informations par vous-même et acquérir un bon comportement pour Robust dans divers environnements inconnus
Recommended Posts