On suppose que vous avez réalisé jusqu'à 10 apprentissages par renforcement. Si vous google avec openai acrobot, Acrobot-v1 sortira. Je ne suis pas sûr de la v1 ou de la v0, je vais donc enquêter avant de le remodeler. userfolder/anaconda3/envs/chainer/lib/python3.7/site-packages/gym Avec VS Code. Une recherche complète sur CartPole a révélé CartPole-v0 et CartPole-v1. Hmmm? Dans acrobot, uniquement Acrobot-v1. J'ai essayé d'exécuter CartPole-v0 au lieu de CartPole-v1 avec le CartPole que j'ai créé plus tôt. Il semble que le niveau de difficulté augmente.
Je l'ai remplacé tel quel, mais quelque chose était différent. .. .. .. Acrobot est un mouvement pendulaire, et vous pouvez obtenir une récompense pour le succès en l'amenant à une certaine hauteur. Définissons-le de sorte que la valeur à l'avenir ne soit pas beaucoup actualisée. J'ai mis gamma à 0,99 et cela semble fonctionner.
J'utilise DQN (Deep Q Network). Il y a de nombreuses explications, c'est donc une bonne idée de google.
Recommended Posts