On suppose que vous avez réalisé jusqu'à 12 apprentissages par renforcement. Je vais le faire sur Ubuntu 18.04. J'ai essayé de remplacer CartPole-v0 par MountainCar-v0 par le CartPole que j'ai créé plus tôt. Il semble que le niveau de difficulté augmente.
Je l'ai remplacé tel quel, mais quelque chose était différent. .. .. .. J'ai mis gamma à 0,99.
En regardant autour du site, il y a beaucoup d'apprentissage. Est-ce l'astuce d'en faire plus? Je l'ai réglé comme suit.
chainerrl.experiments.train_agent_with_evaluation(
agent, env,
steps=1000000, # Train the agent for 2000 steps
eval_n_steps=None, # 10 episodes are sampled for each evaluation
eval_n_episodes=1, # 10 episodes are sampled for each evaluation
eval_max_episode_len=200, # Maximum length of each episodes
eval_interval=100, # Evaluate the agent after every 1000 steps
outdir='result') # Save everything to 'result' directory
print('Finished.')
J'ai mis epsilon = 0,003.
Cela a pris du temps d'apprentissage, mais j'ai pu le gravir.
Cliquez ici pour la courbe d'apprentissage de 2000.
Voici la courbe de 10000 fois d'apprentissage.
Si c'est 10 000 fois, cela prendra 85 minutes. J'aurais aimé avoir un ordinateur que je n'utilisais pas. Que dois-je faire avec un ordinateur portable que j'utilise habituellement?
Je pense à démarrer GPU avec l'objectif d'environ 30e fois. J'étudie la préparation, mais Chainer a un très petit nombre de programmes. Environ 8 Mo sur le disque dur. Le flux tenseur est important et supérieur à 300 Mo. Je veux utiliser Radeon comme GPU, mais je me demande si le chainer fonctionne.
Recommended Posts