Salut, c'est KO. Merci de toujours regarder. Si vous êtes un investisseur et que vous parlez constamment d'étiquetage financier, vous pensez probablement à votre stratégie d'investissement et à ce que vous pouvez faire pour l'analyser. Je pense que de nombreux investisseurs analyseront d'abord le marché et réfléchiront à la stratégie d'investissement, mais ici c'est le contraire, dans le machine learning financier, il est plus courant de penser à la stratégie d'investissement et de l'adapter ensuite au marché. Je pense. (Peut-être que ça ne s'applique qu'à moi, même si c'est général (rires)
Tout d'abord, décidez d'une stratégie d'investissement et étiquetez-la. Puis backtest. En fait, cela ne fait rien. Même si vous obtenez de bons résultats ici, cela peut arriver, et je pense que ce à quoi vous devez penser pour la faire fonctionner est "** Cette stratégie sera-t-elle valable dans le futur?" .. En d'autres termes, le backtesting lui-même ne garantit pas la performance, il montre simplement la stratégie d'investissement sur le marché passé. Parlons ici des relations logiques importantes. "Stratégie toujours rentable" ⇒ "La stratégie est rentable même dans le passé" Cette relation logique est correcte, mais le contraire n'est clairement pas vrai. Cela semble dur, mais pour l'appliquer dans la pratique, il est nécessaire d'analyser sur la base de ce principe. En d'autres termes, nous pensons que la quantité de caractéristiques est une variable qui rend la stratégie d'investissement plus adaptée au marché. C'est une verge d'or pour un démon.
Dans l'exemple: données d'entraînement Hors échantillon: données de test Effet de substitution: effet qui se produit lorsque l'importance estimée d'une caractéristique est réduite par la présence d'une autre caractéristique associée.
MDI (: = Mean Decrease Impurity) est une méthode de mesure de l'importance de l'explication avec un échantillon spécifique à un classificateur basé sur un arbre tel qu'un arbre aléatoire (: = RF). En d'autres termes, comment trouver la quantité de caractéristiques lorsqu'il y a de nombreuses caractéristiques_importance de RF. Tout d'abord, je vais expliquer la méthode MDI à travers le code.
def featImpMDI(fit, featNames):
df0 = {i: tree.feature_importances_ for i, tree in enumerate(fit.estimators_)}
df0 = pd.DataFrame.from_dict(df0, orient='index')
df0.columns = featNames
df0 = df0.replace(0, np.nan)
imp = pd.concat({'mean':df0.mean(), 'std':df0.std()*df0.shape[0]**-.5}, axis=1)
imp /= imp['mean'].sum()
return imp
Tout d'abord, préparez quelques fonctionnalités.
Ici, dans cette méthode, les quatre premières lignes du dataframe model.feature_importances_
du modèle déjà ajusté.
Puisqu'il s'agit d'un arbre aléatoire, l'importance des caractéristiques est calculée pour chaque grand nombre d'arbres.
Ici, pour le montant de la fonction affiché comme «0», définissez-le sur «np.nan». Cela permet de définir l'importance maximale de la quantité de caractéristiques sur «1».
Après cela, la moyenne et l'écart type sont calculés pour la direction de ligne (axe = 1), et ils sont générés en tant que quantité d'entités moyenne.
L'utilisation de base est présentée ci-dessous pour ceux qui n'ont jamais utilisé d'arbre aléatoire.
from sklearn.ensemble import RandomForestClassifier as RF
model = RF(max_features=1)
model.fit(X_train, y_train)
model.feature_importances_
Définissez max_features = int (1)
pour éviter l'effet de masquage (en ignorant systématiquement les fonctionnalités catégorisées et en mettant l'accent sur d'autres fonctionnalités). Ce faisant, une seule quantité d'entités aléatoires est sélectionnée pour chaque couche.
Cette technique ne doit être utilisée que dans l'échantillon. Même s'il n'y a pas de puissance prédictive ici, toutes les quantités de caractéristiques auront une certaine importance. --MDI ne peut pas être généralisé et appliqué à des classificateurs autres que ceux basés sur des arbres. --Structurellement, MDI a une importance de fonctionnalité totale de 1, et chaque importance est comprise entre 0 et 1.
Cette méthode ne prend pas en compte l'effet alternatif lorsqu'il existe des caractéristiques corrélées. En d'autres termes, s'il y a deux caractéristiques identiques, l'importance sera réduite de moitié, alors soyez prudent. C'est une histoire assez importante, donc je l'écrirai dans un autre article à l'avenir.
Il peut y avoir un biais en faveur de certains prédicteurs. Dans un seul arbre de décision, ce biais est provoqué par la fonction générale impure qui se concentre injustement sur des prédicteurs comportant de nombreuses catégories. (Strobl et al. [2007])
Cette fois, j'ai présenté le positionnement des quantités de caractéristiques dans la finance et les éléments à prendre en compte dans les prévisions. Il s'agira d'un exposé technique sur la manière de contribuer à la stratégie d'investissement par la méthode d'évaluation de la quantité de caractéristiques, je voudrais donc l'introduire lentement à l'avenir.
Recommended Posts