Résoudre Copy-v0 d'OpenAI Gym

Tâche

Puisque la chaîne de caractères que vous souhaitez copier est écrite sur la bande, copiez-la en utilisant déplacer et écrire.
À chaque fois qu'il réussit, la chaîne de caractères à copier devient longue.

https://gym.openai.com/envs/Copy-v0

Conditions de compensation

Obtenez 25 récompenses ou plus au cours des 100 derniers essais.

Récompense

-1,0 si vous pouvez copier correctement, -0,5 si vous faites une erreur

Structure de données

Quand j'ai lu le code,

https://github.com/openai/gym/blob/master/gym/envs/algorithmic/copy_.py

L'espace d'action est

Tuple(Discrete(2), Discrete(2), Discrete(5))

--Appuyez 1er: 1 si vous voulez aller à droite de la bande, 0 si vous voulez --Tuple 2nd: 1 pour l'écriture

Troisième taple: valeur à écrire convertie en valeur numérique (représentée par un nombre de 1 à 5)

Territoire de l'État

-Cinq lettres A à E (représentées par les chiffres 1 à 5)

Discrete(6)

Solution

«Ce serait bien si vous pouviez simplement pousser l'état précédent dans l'action suivante, mais c'est probablement différent parce que vous n'utilisez pas l'apprentissage par renforcement.

code

import numpy as np
import gym
from gym import wrappers

def run():
    env = gym.make('Copy-v0')
    env = wrappers.Monitor(env, '/tmp/copy-v0', force=True)
    Gs = []
    for episode in range(1000):
        x = env.reset()
        G = 0
        for t in range(100):
            a = (1,1, x)
            x, r, done, _ = env.step(a)
            G += r
            if done:
                Gs.append(G)
                break
        score = np.mean(Gs[-100:])
        print("Episode: %3d, Score: %.3f" % (episode, score))
        if score > 25:
            break


if __name__ == "__main__":
    run()

References

LEARNING SIMPLE ALGORITHMS FROM EXAMPLES, Zaremba et al., 2016.
OpenAI Gym, Brockman et al., 2016.