(Le chokozainer RL a été mis à jour le 8 décembre 2019.)
Il est destiné aux débutants en IA, des lycéens aux étudiants universitaires. J'ai écrit jusqu'à 27 séries d'apprentissage par renforcement. C'était environ un mois parce que c'était un rythme par jour. J'écrirai un résumé qui facilitera le départ d'ici. Il n'y a rien de nouveau.
Si vous souhaitez démarrer facilement l'apprentissage automatique en utilisant le GPU, la collaboration est gratuite, je le recommande donc. Pas besoin d'installation gênante. Cependant, cela seul ne fonctionnera pas, alors résumons la procédure. J'ai choisi chainerRL comme cadre. J'aime tensorflow, mais je ne l'ai pas utilisé, alors ... Je pense que je vais bientôt essayer d'utiliser tensorflow. Je vais l'écrire au milieu, mais regardons le code source autant que possible. Il est publié sur github. Le nom de la fonction est facile à comprendre, donc je pense qu'il est facile à comprendre. Le chainer est facile à lire en anglais, probablement parce qu'il est fabriqué par des Japonais. Ou plutôt, si vous le traduisez en japonais avec du chrome, ce sera du vrai japonais. Et le tensorflow? ?? ?? est. Nous avons publié chokozainerRL, qui est un wrapper pour chainerRL. Je n'ai pas fait grand-chose, mais j'espère que cela sera utile pour "l'apprentissage humain" dans l'apprentissage par renforcement.
Veuillez créer à partir d'ici.
Créez un compte Google https://support.google.com/accounts/answer/27441?hl=ja
Ouvrez d'ici. https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja Ajoutons-le à vos favoris.
Bloc-notes ouvert par fichier
Sélectionnez l'onglet GitHub. Rechercher avec chokozainer, ipynbs/abc.ipynb Choisir.
L'abc.ipynb ouvert ne peut pas être utilisé tel quel, alors faites une copie sur le lecteur.
Puis renommez le fichier copié.
L'exécution d'un notebook est expliquée en détail sur divers sites, alors faites-le vous-même. Avant d'apprendre, vous ne pouviez faire que quelques étapes, mais après l'apprentissage, vous pouvez voir que vous pouvez équilibrer jusqu'à 200 étapes de réglage. Vous pouvez faire une vidéo comme celle-ci.
Le résultat de l'exécution d'apprentissage ressemble à ceci.
Puisque le temps écoulé est le temps d'exécution (en secondes), l'apprentissage sera terminé en 15 minutes environ.
Recommended Posts