Puisque je l'ai écrit comme résultat d'étude, il peut y avoir des erreurs. N'hésitez pas à commenter. Cette fois, Statistiques prédictives (édition pratique, régression multiple) python Python améliorera encore la précision de la régression multiple. En conclusion, ce qui est nécessaire pour améliorer la précision de la prédiction, ce sont des " fonctionnalités </ b>". Cette fois, nous traiterons de la quantité de fonctionnalités.
・ Qu'est-ce que la quantité de fonctionnalités? ・ Comment améliorer la précision des prédictions en utilisant les quantités de caractéristiques · Traitement de l'information
Une quantité de caractéristiques est une variable explicative. Dans le monde de l'apprentissage automatique, il s'agit souvent d'une quantité de caractéristiques plutôt que d'une variable explicative. Les fonctionnalités sont indispensables pour améliorer la précision de l'analyse.
Il existe les deux méthodes suivantes pour améliorer la précision de la prédiction à l'aide de la quantité d'entités. ① Faire un montant de fonction ② Sélectionnez le montant de la fonction
Que signifie créer une quantité de caractéristiques? Autrement dit, traiter des données données et des données externes pour créer de nouvelles fonctionnalités </ b>. Par exemple, la régression consiste à établir des moyennes et des écarts-types, et la classification consiste à agréger les données pour les personnes dans la vingtaine seulement. En faisant cela, les données inutiles peuvent être éliminées et la précision des prédictions peut être améliorée.
Il s'agit de sélectionner le montant de la fonction sans excès ni déficit. Il existe les trois méthodes suivantes pour sélectionner le montant de la fonction. ① Analyse univariée ② Sélection de la base du modèle ③ Sélection itérative
Il s'agit d'analyser la variable objective et la variable explicative dans une relation biunivoque. Pour ainsi dire, il s'agit d'une simple analyse de régression. Un exemple est l'analyse de dispersion.
Il s'agit d'une méthode pour calculer l'importance des quantités d'entités dans le modèle à créer.
Nous améliorerons la précision de la prédiction en augmentant ou en diminuant la quantité de caractéristiques. Stepwise est un exemple.
J'ai expliqué qu'il est important de penser aux quantités de caractéristiques afin d'améliorer la précision des prédictions. Ici, nous expliquerons s'il faut réellement traiter le montant de la fonctionnalité. Il existe différentes méthodes pour sélectionner les quantités de caractéristiques, donc j'écrirai un article à une date ultérieure.
Il existe des fonctions utiles pour le traitement des données. Cette fois, je présenterai les deux points suivants. ・ Fonction Split ・ Appliquer la fonction
C'est une fonction qui divise une chaîne. Si vous affectez le caractère que vous souhaitez fractionner à l'argument, ce caractère est exclu et la chaîne de caractères est fractionnée.
Il s'agit d'une fonction qui applique une valeur numérique à chaque valeur des données. Dans le traitement des données, vous pouvez facilement traiter des valeurs numériques en spécifiant une fonction anonyme (fonction lambda) comme argument.
Je vais vous expliquer comment utiliser réellement ces fonctions. Par exemple, supposons que la colonne de date contienne une chaîne de date telle que "2019-12-12". Si vous souhaitez mettre uniquement l'année dans la colonne appelée année, écrivez comme suit.
df["year"] = df["date"].apply(lambda x: x.split("-")[0])
Recommended Posts