Je suis un étudiant de 4e année qui apprend l'apprentissage par renforcement. J'ai déjà obtenu mon diplôme. J'ai commencé mes recherches en pensant simplement que je pouvais faire des bénéfices avec la puissance de l'IA. Même si je la recherche parce qu'elle est liée à la finance, aucune information ne sort ... Donc la recherche de cette année "Acquisition d'une stratégie d'investissement grâce à un apprentissage approfondi" J'espère que cela sera utile à quelqu'un quelque part. (Je ne l'ai pas publié dans les sociétés universitaires, alors n'ayez pas peur ... je ne le trouve pas même si je cherche un article.) (J'ai écrit qu'il s'agissait d'une recherche sur la façon de gagner de l'argent, mais ce n'est pas un produit d'information, etc. Soyez assuré qu'il n'y a aucune indication sur les URL étranges.)

Cette fois, nous l'avons introduit comme (1). (2) Je voudrais expliquer la théorie et le programme réels après (3).

De plus, le contenu publié cette fois n'est pas ce que j'ai appris en classe, mais ce que j'ai appris par moi-même. Je suis sûr que vous trouverez des erreurs partout, mais j'espère que vous y trouverez un regard chaleureux. Je vous remercie.

Qu'est-ce que l'apprentissage renforcé (méthode du gradient politique)?

Tout d'abord, je présenterai brièvement ce qui renforce l'apprentissage en prenant "AlphaGo" comme exemple, ce qui m'a intéressé au renforcement de l'apprentissage.

AlphaGo

En gros (c'est vraiment difficile. Je suis désolé pour les experts)

Récupérez la carte actuelle de l'environnement Go
Le tableau est lu par l'agent d'apprentissage de renforcement
Sortie ** distribution de probabilité ** du mouvement
Déterminez de manière probabiliste le prochain mouvement à partir de la distribution de probabilité

C'est une série d'étapes pour décider quoi faire du conseil.

Sortie ** distribution de probabilité ** du mouvement

C'est le miso, selon le conseil actuel Il vaut mieux frapper ensuite, et si vous le frappez, il est proche de gagner. Pour les mains pincées lorsqu'elles sont touchées, ** réduisez la probabilité ** Le but est de produire une distribution de probabilité «appropriée».

Ensuite, il est possible d'entrer et de sortir un tel agent d'apprentissage amélioré. C'est un "réseau de neurones" familier en apprentissage profond, Le rôle de l'apprentissage par renforcement est d'apprendre «de manière appropriée» la distribution de probabilité produite par le réseau neuronal.

C'est pourquoi les deux sont combinés et appelés apprentissage par renforcement profond.

C'est incroyable dans Alpha Go

AlphaGo et apprentissage par renforcement profond On peut dire que c'est un algorithme qui "apprend ** la distribution de probabilité appropriée ** en fonction de l'environnement actuel". Le grand avantage de cet algorithme est

«J'apprends sans utiliser les connaissances qu'une personne appelée« pierre fixe »a découverte.»

"Convergence en temps réel" «C'est une force qui surpasse de loin les humains».

C'est vrai ... Les connaissances que les gens ont découvertes en compétition depuis des décennies et des centaines d'années sont si faciles à perdre. C'est cet apprentissage par renforcement profond qui exerce un fort pouvoir en Go.

Application à l'investissement en actions

Pour le moment, laissez la théorie détaillée de l'apprentissage par renforcement profond, etc. N'est-il pas possible d'utiliser l'algorithme «d'apprentissage de la distribution de probabilité ** appropriée ** en fonction de l'environnement actuel» pour les cours des actions? J'ai pensé.

Les gens achètent et vendent des actions

De cette façon, vous négociez en fonction des mouvements de prix du passé au présent. Bien sûr, cela peut échouer parce que nous ne connaissons pas l'avenir.

Renforcer cela L'agent d'apprentissage lit le cours de l'action

N'est-il pas possible de se convertir aux probabilités et au commerce?

Si vous pouvez trouver la probabilité d'acheter et de vendre au moment suivant sans identifier le cours de l'action Il est tout à fait possible de gagner de l'argent.

Donc

C'est le but de cette fois et le contenu du programme.

À propos du résultat

Si le résultat est mauvais, il ne sera pas utile de le lire, je vais donc le publier en premier. Cependant, je suis conscient que de nombreux points manquent d’explication. Je publierai des résultats et des méthodes détaillés à une date ultérieure, donc maintenant, même avec cette méthode d'apprentissage améliorée, la probabilité a convergé, et je me demande s'il sera possible de faire des bénéfices, même si cela dépasse les humains. J'espère que vous pouvez y réfléchir.

Données d'apprentissage ↓

État d'apprentissage ↓

La ligne bleue est la valeur de la fonction d'erreur du réseau neuronal. Vous pouvez voir que plus près de 0, plus la probabilité converge. ――La ligne orange représente le profit moyen obtenu pendant les 50 jours de la période d'étude.

Le profit moyen augmente à mesure que le nombre d'étapes augmente.

Concernant l'achat et la vente

"Prendre une position d'achat"
"Prendre une position de vente (vente vide)"
"Résoudre ou ne pas avoir de position" Nous avons préparé trois sorties, et nous achetons et vendons une unité en partant du principe que nous pouvons toujours acheter (vendre) une unité du cours moyen de l'action Nikkei.
Conception de sortie spécifique --Structure du réseau neuronal lui-même
Règles d'achat et de vente
Algorithme d'apprentissage amélioré --Programme réel
Résultats détaillés (y compris les résultats de la période de test)

Je souhaite en publier ultérieurement.

Cela peut être un long message, mais veuillez rester en contact. Je vous remercie.

Investissement en actions par apprentissage approfondi (méthode du gradient de politique) (1)

Qu'est-ce que l'apprentissage renforcé (méthode du gradient politique)?

C'est incroyable dans Alpha Go

Application à l'investissement en actions

À propos du résultat