Renforcer l'apprentissage 13 Essayez Mountain_car avec ChainerRL.

On suppose que vous avez réalisé jusqu'à 12 apprentissages par renforcement. Je vais le faire sur Ubuntu 18.04. J'ai essayé de remplacer CartPole-v0 par MountainCar-v0 par le CartPole que j'ai créé plus tôt. Il semble que le niveau de difficulté augmente.

Je l'ai remplacé tel quel, mais quelque chose était différent. .. .. .. J'ai mis gamma à 0,99.

En regardant autour du site, il y a beaucoup d'apprentissage. Est-ce l'astuce d'en faire plus? Je l'ai réglé comme suit.

chainerrl.experiments.train_agent_with_evaluation(
    agent, env,
    steps=1000000,           # Train the agent for 2000 steps
    eval_n_steps=None,       # 10 episodes are sampled for each evaluation
    eval_n_episodes=1,       # 10 episodes are sampled for each evaluation
    eval_max_episode_len=200,  # Maximum length of each episodes
    eval_interval=100,   # Evaluate the agent after every 1000 steps
    outdir='result')      # Save everything to 'result' directory
print('Finished.')

J'ai mis epsilon = 0,003.

Cela a pris du temps d'apprentissage, mais j'ai pu le gravir.

Cliquez ici pour la courbe d'apprentissage de 2000.

Voici la courbe de 10000 fois d'apprentissage.

Si c'est 10 000 fois, cela prendra 85 minutes. J'aurais aimé avoir un ordinateur que je n'utilisais pas. Que dois-je faire avec un ordinateur portable que j'utilise habituellement?

Je pense à démarrer GPU avec l'objectif d'environ 30e fois. J'étudie la préparation, mais Chainer a un très petit nombre de programmes. Environ 8 Mo sur le disque dur. Le flux tenseur est important et supérieur à 300 Mo. Je veux utiliser Radeon comme GPU, mais je me demande si le chainer fonctionne.

Recommended Posts

Renforcer l'apprentissage 13 Essayez Mountain_car avec ChainerRL.

Renforcer l'apprentissage 11 Essayez OpenAI acrobot avec ChainerRL.

Renforcer l'apprentissage 19 Colaboratory + Mountain_car + ChainerRL

Renforcer l'apprentissage 18 Colaboratory + Acrobat + ChainerRL

Essayez l'apprentissage en profondeur avec TensorFlow

Renforcer l'apprentissage 17 Colaboratory + CartPole + ChainerRL

Renforcer l'apprentissage 28 collaboratif + OpenAI + chainerRL

Renforcement de l'apprentissage 2 Installation de chainerrl

Apprentissage amélioré à partir de Python

Renforcer l'apprentissage 20 Colaboratoire + Pendule + ChainerRL

Essayez d'exécuter CNN avec ChainerRL

Essayez le Deep Learning avec FPGA

Apprentissage par renforcement 5 Essayez de programmer CartPole?

Apprentissage par renforcement 9 Remodelage magique ChainerRL

Essayez le machine learning à la légère avec Kaggle

Renforcer l'apprentissage 21 Colaboratoire + Pendule + ChainerRL + A2C

Essayez le Deep Learning avec les concombres FPGA-Select

Essayez l'apprentissage en profondeur avec TensorFlow Partie 2

Renforcer l'apprentissage 22 Colaboratory + CartPole + ChainerRL + A3C

Explorez le labyrinthe avec l'apprentissage augmenté

SVM essayant l'apprentissage automatique avec scikit-learn

Renforcer l'apprentissage 8 Essayez d'utiliser l'interface utilisateur de Chainer

Renforcer l'apprentissage 24 Colaboratory + CartPole + ChainerRL + ACER

Essayez l'apprentissage de la représentation commune avec le chainer

J'ai essayé l'apprentissage par renforcement profond (Double DQN) avec ChainerRL

[Renforcer l'apprentissage] DQN avec votre propre bibliothèque

Essayez les prévisions de prix Bitcoin avec Deep Learning

Essayez avec Chainer Deep Q Learning - Lancement

Essayez l'apprentissage profond de la génomique avec Kipoi

Renforcer l'apprentissage 14 Pendulum a été réalisé à ChainerRL.

[Python] Essayez facilement l'apprentissage amélioré (DQN) avec Keras-RL

Essayez l'algorithme d'apprentissage amélioré standard d'OpenAI PPO

[Introduction] Renforcer l'apprentissage

Apprentissage par renforcement futur_2

Apprentissage par renforcement futur_1

Apprentissage par renforcement 10 Essayez d'utiliser un réseau neuronal formé.

Renforcer l'apprentissage 12 Guide de démarrage rapide de ChainerRL Version Windows

Apprentissage par renforcement 27 chainerRL (+ chokozainerRL)

Défier la rupture avec le modèle Actor-Critic renforçant l'apprentissage

[Mac] J'ai essayé de renforcer l'apprentissage avec Open AI Baselines

Essayez de gratter avec Python.

Apprendre Python avec ChemTHEATER 03

"Orienté objet" appris avec python

Apprentissage amélioré 1 installation de Python

Apprendre Python avec ChemTHEATER 05-1

Renforcer l'apprentissage 3 Installation d'OpenAI

Je veux escalader une montagne avec l'apprentissage par renforcement

Renforcer l'apprentissage de la troisième ligne

Essayez de prédire le taux de change (FX) avec un apprentissage automatique non approfondi

Apprendre Python avec ChemTHEATER 02

Apprentissage par renforcement 37 Démarrez automatiquement avec l'enrubanneuse Atari

[Renforcer l'apprentissage] Tâche de bandit

Apprendre Python avec ChemTHEATER 01

Essayez SNN avec BindsNET

Apprentissage amélioré Python + Unity (apprentissage)

Essayez la régression avec TensorFlow

Renforcer l'apprentissage 1 édition introductive

Maintenant, essayons la reconnaissance faciale avec Chainer (phase d'apprentissage)