On suppose que vous avez terminé l'apprentissage par renforcement 13. Si vous mettez Pendulum-v0 dans le cahier Jupyter de l'apprentissage de renforcement 13, ... Est inutile. Voir l'exemple ChainerRL / GitHub. https://github.com/chainer/chainerrl/tree/master/examples/gym
train_dqn_gym.py lui-même a donné de meilleurs résultats. Réécrit (26 novembre) Veuillez voler au renforcement de l'apprentissage 20.
Recommended Posts