On suppose que jusqu'au renforcement de l'apprentissage 4 a été achevé.
Faisons une programmation simple.
CartPole2.py
import gym
env = gym.make('CartPole-v0')
for i in range(20):
observation = env.reset()
for t in range(100):
env.render()
action = 0
if observation[2]>0:
action = 1
observation, reward, done, info = env.step(action)
if done:
print("Episode{} finished after {} timesteps".format(i, t+1))
break
env.close()
CartPole.py se déplaçait au hasard. La différence avec CartPole.py est que vous souhaitez modifier l'action en raison de la différence d'observation. Cela devient un contrôle de rétroaction.
Recommended Posts