L'article précédent était ici. Les spécifications de Numerai Signals, qui était jusqu'à présent en version bêta, sont presque finalisées. Un changement majeur a été apporté par rapport à la version bêta, qui prédit le retour des cours des actions et est en concurrence pour la netteté, et il est très difficile de rechercher le signal original que personne n'a vu. L'auteur considère ce tournoi comme le tournoi de données financières le plus avancé au monde, et j'aimerais en expliquer la raison en vérifiant chaque spécification. Je publierai ici un nouvel article intitulé "True Numerai Signals".
Cet article est destiné à ceux qui ont participé au Tournoi Numerai, et sera expliqué en supposant qu'ils ont des connaissances préalables.
La documentation Signals est ici [https://docs.numer.ai/numerai-signals/signals-overview). Signals vise à trouver l'indice d'investissement d'origine = Signal que personne n'a jamais vu, plutôt que de prédire la hausse et la baisse des cours des actions sur les marchés du monde entier comme dans les tournois. Le but ultime des participants est d'avoir un hedge fund basé sur les données comme Numerai «acheter» le signal soumis. Il accède à diverses sources de données à travers le monde, trouve des fonctionnalités avec beaucoup d'alpha et en extrait des signaux avec des performances de prédiction élevées et de l'originalité. Et il se remplace dans le cadre du cerveau des hedge funds. Quelle tentative passionnante.
Mais c'est inacceptable dans un signal à moitié cuit. Bien entendu, les hedge funds ne veulent pas de signaux générés à partir d'informations connues. La spécification des signaux est pour explorer votre propre signal. Commençons l'explication.
Numerai Signals cible les actions sur les marchés du monde entier, avec un total d'environ 5 200 à l'heure actuelle. La liste change tous les jours, mais la plupart des stocks sont différés, seuls les stocks déficitaires étant remplacés. La dernière liste est disponible ici [https://numerai-quant-public-data.s3-us-west-2.amazonaws.com/example_predictions/latest.csv).
Pour référence, nous avons tabulé le nombre d'actions sur quel marché. Le plus important est le marché américain, avec plus de 2000 actions. Viennent ensuite le marché japonais, le marché coréen et le marché de Londres.
Les participants ne sont pas tenus de soumettre des prévisions pour tous ces stocks. Si vous soumettez une prévision d'au moins 100 stocks, vous pouvez gravir les échelons en tant qu'objectif d'évaluation. Cependant, pour les stocks qui n'ont pas soumis de prévision, la prévision sera uniformément attribuée comme valeur médiane, ce qui réduira les performances de prévision du point de vue de l'univers entier. Si vous voulez des performances élevées, vous devez soumettre des prévisions pour autant de stocks que possible (les effets des déficiences prévues seront discutés plus tard).
Pour ces stocks, les participants doivent eux-mêmes collecter les données nécessaires à la prévision. Numerai Signals est une plateforme pour les utilisateurs qui ont déjà construit leur propre système de prévision et qui ont accès aux données du marché. La source de données officiellement utilisée par l'opération pour évaluer les performances prédictives des participants est Quandl. Les autres sources de données comprennent Quantopian et Alpaca. Le Forum de Numerai partage une liste de sources de données bon marché, donc là ) Doit être mentionné. J'utilise actuellement Yahoo Finance.
En outre, dans le modèle Exemple de signaux, un pipeline pour télécharger les cours des actions de Yahoo Finance est construit. Là doit également être mentionné.
Signals dispose d'un système ROUND hebdomadaire. Le ROUND débute à 18h00 UTC le samedi (dimanche 3h00 heure du Japon) et la date limite de soumission des prévisions est 14h30 UTC le lundi suivant (lundi 23h30 heure du Japon, même heure que la date limite de soumission du tournoi Numerai). Le délai à prévoir va du cours de clôture du mardi au cours de clôture du lundi suivant sur le marché de chaque pays. En d'autres termes, à partir du week-end où ROUND a commencé, le retour des 6 prochains jours ouvrables moins les 2 premiers jours. Ce décalage prend en compte le temps nécessaire pour construire le portefeuille, ce qui signifie que Numerai souhaite un petit alpha pour Time Decay. La performance prédictive dans un laps de temps très court n'a aucun sens. Ce seul point est une spécification suffisamment difficile.
Signals recherche un tout nouveau signal sans corrélation avec les facteurs ou signaux existants. Le moyen pour y parvenir est de neutraliser les prédictions soumises aux facteurs et signaux connus.
Considérez le signal soumis comme un vecteur à N dimensions. À ce moment, en orthogonalisant au facteur connu, la corrélation avec le facteur connu peut être convertie à 0 tout en conservant autant que possible les informations (relation linéaire) du signal d'origine (c'est-à-dire l'original pour le facteur connu). Les ingrédients peuvent être extraits). Un exemple de deux dimensions (N = 2) est présenté ci-dessous pour faciliter la compréhension. Le coefficient de corrélation entre le signal soumis et le facteur connu indique l'angle (pour être exact, cosθ) formé par chaque vecteur. En rendant le vecteur Signal orthogonal (vertical) au vecteur du facteur connu comme indiqué ci-dessous, la corrélation peut être définie sur 0 (c'est-à-dire cosθ '= 0).
Surtout, cette orthogonalisation peut être effectuée sur plusieurs vecteurs. Imaginez un espace tridimensionnel. Le vecteur Signal peut extraire des composantes perpendiculaires au plan créé par les vecteurs de facteurs connus 1 et 2. En général, les vecteurs à N dimensions devraient pouvoir être orthogonaux aux vecteurs N-1. En d'autres termes, étant donné que les dimensions des signaux sont d'environ 5000, il est possible d'effectuer une orthogonalisation pour au moins plusieurs milliers de facteurs en même temps.
La spécification des signaux indique que les prévisions soumises seront orthogonales au facteur Barra, au pays, à l'industrie et à tous les autres facteurs uniques appartenant à Numerai. Cette orthogonalisation est susceptible non seulement de déduire des informations linéaires d'un seul facteur, mais également des résultats prédictifs modélisés sur des facteurs connus en même temps. Numerai peut déduire tous les composants générés par une modélisation d'information simple en créant des modèles non linéaires tels que des modèles de type arbre et des réseaux de neurones pour les fonctionnalités dont il dispose.
Encore une fois, dans Signaux, les prédictions soumises sont orthogonalisées à l'aide de toutes les informations dont Numerai dispose avant l'évaluation.
La cible de prévision est également pré-orthogonalisée pour toutes les informations dont Numerai dispose concernant les rendements du marché. Bien sûr, cela n'est jamais partagé avec les utilisateurs. La cible des signaux est la boîte noire.
Comme il n'y a pas de cible de prédiction, les utilisateurs ne peuvent généralement pas juger si le résultat de prédiction qu'ils ont obtenu est bon ou non. À ce propos, si vous soumettez la dernière prédiction (en direct) et le résultat de la prédiction passé (validation) en même temps, vous pouvez obtenir le résultat de l'évaluation avec des données historiques. La période d'évaluation basée sur ces données historiques va du 4 janvier 2013 au 28 février 2020. Cependant, il va de soi que l'évaluation de ces données historiques est à titre indicatif uniquement, et il vaut mieux ne pas faire d'efforts pour les améliorer. Le surajustement suscite des inquiétudes et, surtout, il est mentionné que les bons résultats obtenus dans le passé risquent de se détériorer au fur et à mesure qu'ils se refléteront dans le futur.
La prédiction est évaluée par la procédure suivante. Premièrement, les résultats de prédiction soumis par les participants sont orthogonalisés à toutes les informations par Numerai. Calculez le coefficient de corrélation COR entre le résultat et la cible personnalisée de Numerai (qui est également orthogonalisée). Ce coefficient de corrélation COR est appelé le coefficient d'information (IC) dans la théorie du portefeuille actif, et est jugé comme la puissance prédictive de Signal.
La moyenne COR des 20 derniers ROUNDs (soit 20 semaines) est utilisée pour le classement du classement.
Bien qu'il s'agisse d'un système de récompense, le montant de la mise des participants multiplié par 2 * COR est donné (ou collecté) en récompense. Dans le tournoi, la moyenne COR des meilleurs lauréats était d'environ 0,03 (soit environ 3%). On s'attend à ce que les signaux soient inférieurs à cela, ils sont donc multipliés par un facteur de deux. Par exemple, si le COR dans les signaux est de 0,015 par semaine en moyenne, un bénéfice hebdomadaire moyen de 3% est attendu pour le montant de la mise. Si une telle performance peut être obtenue, l'intérêt annuel sera un rendement important de 156% pour le calcul des intérêts simples et de 365% pour le calcul des intérêts composés.
Comme les tournois, Signals a également des récompenses MMC. MMC est une contribution de méta-modèle, qui fait simplement partie de la compétition pour l'originalité des prédictions des autres participants. Dans le calcul COR de la section précédente, les informations détenues par Numerai ont été déduites à l'avance, tandis que dans MMC, les prédictions soumises par les autres participants sont déduites. Un métamodèle de tous les participants (ici, la moyenne pondérée des enjeux de Signal après Neutralisation) est utilisé pour cette déduction.
Les récompenses de MMC sont facultatives. MMC est une spécification très stricte dans laquelle ceux qui ont recherché l'original rivalisent pour plus d'originalité.
Puisque Signals cible plus de 5 000 stocks, il est naturel que certains d'entre eux ne puissent pas obtenir de données et de nombreux participants voudront limiter leurs prévisions. Si vous recherchez des données alternatives en premier lieu, il est impossible de les collecter pour tous les stocks. Les participants doivent prévoir au moins 100 actions, mais dans ce cas, la valeur manquante sera uniformément remplacée par la valeur médiane et la valeur COR se détériorera. Cette fois, j'ai estimé l'effet.
La figure de droite montre le résultat d'une simulation aléatoire de la façon dont le COR change lorsqu'il y a un défaut de 50% dans la prédiction soumise. Le coefficient de la droite de régression est de 0,715, et lorsqu'il y a un déficit de 50%, le COR est d'environ 0,7 fois la valeur lorsque toutes les prévisions sont soumises. Sur la figure de gauche, l'axe horizontal est divisé par le taux de défauts, on peut par exemple confirmer que le COR se détériore progressivement à mesure que le nombre de défauts augmente.
En conclusion,
--Si la prédiction est manquante, la valeur COR se détériorera. Cela peut se produire à la fois du côté positif et du côté négatif (c'est-à-dire que la perte est réduite du côté négatif) ―― En d'autres termes, il n'y a pas d'asymétrie et du point de vue de la récompense, le COR d'origine est désendetté. ―― En revanche, la valeur absolue de COR obtenue est faible, ce qui est désavantageux pour viser le haut de LB.
Il est important que les participants décident comment sélectionner le nombre prévu de stocks.
La cible des signaux est la boîte noire. Alors, que devraient cibler les participants? Au moins, les mouvements simples des cours des actions ne devraient pas être ciblés. La majeure partie de la partie prévisible des mouvements des cours des actions est composée de facteurs connus (en particulier l'influence du marché et de l'industrie). En d'autres termes, le ciblage d'un simple retour aboutit à un modèle qui est bien corrélé aux facteurs connus, ce qui se traduit par une note faible dans Signals. Ceci est également noté dans la documentation que «les signaux qui ont une forte corrélation avec les rendements normaux sont susceptibles d'être mal évalués».
En d'autres termes, pour créer un modèle prédictif, les participants doivent d'abord créer leurs propres cibles personnalisées. Mais en réalité, c'est une tâche ardue. Les facteurs qui n'ont pas été déduits lors de la création d'une cible personnalisée seront déduits du côté Numerai après la soumission de la prévision. Ensuite, quel que soit le niveau de performance prédictive de votre propre modèle, il y a de fortes chances qu'il soit laissé de côté avant de marquer.
La conclusion que j'ai faite jusqu'ici est que je ne ferai pas de modèle prédictif. Quoi qu'il en soit, pensez à des données alternatives que Numerai ne semble pas avoir et structurez-les. Et soumettez-le pour le moment. Si vous ne pouvez pas créer une cible en premier lieu, vous ne pouvez pas faire de modélisation appropriée, et encore moins être satisfait du résultat. Je soumettrai les données pour validation pour le moment, mais le résultat de l'évaluation retourné n'est qu'une valeur de référence, et même s'il est mauvais, je continuerai la soumission sans m'en soucier.
Donnons un exemple ci-dessous. Les données alternatives qui peuvent être facilement conçues sont la reconnaissance d'image de graphique et l'extraction de caractéristiques. Préparez des dizaines de milliers de graphiques et extrayez des fonctionnalités grâce à un apprentissage non supervisé. Ensuite, les caractéristiques du graphique de chaque marque sont compressées dans une dimension et cette valeur est soumise en tant que prédiction. Peu importe qu'il y ait ou non un pouvoir prédictif pour le mouvement de prix du cours de l'action lui-même, il suffit que quelque chose soit lié à l'information (cible personnalisée) de la partie résiduelle prédite par Numerai.
Je continuerai à soumettre des données alternatives auxquelles je peux penser. Cela devrait être le plus apprécié pour Numerai qui souhaite collecter diverses données, et si l'une d'entre elles convient à Numerai, il voudra sûrement l'acheter.
Pour être honnête, chez Signals, l'incitation aux récompenses de mise est faible. Je n'ai aucune idée de la façon dont mon pari sera évalué en premier lieu, et il est plus logique d'essayer d'être payé directement sur le marché en utilisant des facteurs connus plutôt que de rechercher des signaux ésotériques.
Je pense que l'incitation à participer à Signals est «l'honneur» de faire partie d'un hedge fund une fois que vous avez soumis un bon Signal.
Dans cet article, j'ai expliqué à quel point les spécifications de Numerai Signals sont strictes et décrit le concept de la stratégie. Encore une fois, Signals ne consiste pas à prédire les cours des actions, il s'agit de découvrir des données inconnues quelque part dans le monde.
La recherche de données alternatives est menée par des hedge funds du monde entier. Signals est plus qu'un simple tournoi de données financières, cela signifie rejoindre la recherche de données alternatives aux côtés des hedge funds du monde entier. Signals est une plateforme permettant aux data scientists du monde entier d'explorer des données alternatives et de les évaluer automatiquement.
C'est pourquoi je pense que Signals est le tournoi de données financières le plus avancé. Bien sûr, le seuil est étonnamment élevé, mais si vous pouviez trouver une veine d'or, la plus haute distinction vous attendrait.
Embarquons pour un voyage pour trouver des signaux enterrés partout dans le monde.
Recommended Posts