Statistiques de prédiction de fonctionnalités python

Puisque je l'ai écrit comme résultat d'étude, il peut y avoir des erreurs. N'hésitez pas à commenter. Cette fois, Statistiques prédictives (édition pratique, régression multiple) python Python améliorera encore la précision de la régression multiple. En conclusion, ce qui est nécessaire pour améliorer la précision de la prédiction, ce sont des " fonctionnalités </ b>". Cette fois, nous traiterons de la quantité de fonctionnalités.

Contenu

・ Qu'est-ce que la quantité de fonctionnalités? ・ Comment améliorer la précision des prédictions en utilisant les quantités de caractéristiques · Traitement de l'information

Qu'est-ce qu'une quantité de caractéristiques?

Une quantité de caractéristiques est une variable explicative. Dans le monde de l'apprentissage automatique, il s'agit souvent d'une quantité de caractéristiques plutôt que d'une variable explicative. Les fonctionnalités sont indispensables pour améliorer la précision de l'analyse.

Comment améliorer la précision des prédictions

Il existe les deux méthodes suivantes pour améliorer la précision de la prédiction à l'aide de la quantité d'entités. ① Faire un montant de fonction ② Sélectionnez le montant de la fonction

Faire la quantité de fonctionnalités

Que signifie créer une quantité de caractéristiques? Autrement dit, traiter des données données et des données externes pour créer de nouvelles fonctionnalités </ b>. Par exemple, la régression consiste à établir des moyennes et des écarts-types, et la classification consiste à agréger les données pour les personnes dans la vingtaine seulement. En faisant cela, les données inutiles peuvent être éliminées et la précision des prédictions peut être améliorée.

Sélectionnez un montant de fonction

Il s'agit de sélectionner le montant de la fonction sans excès ni déficit. Il existe les trois méthodes suivantes pour sélectionner le montant de la fonction. ① Analyse univariée ② Sélection de la base du modèle ③ Sélection itérative

Analyse univariée

Il s'agit d'analyser la variable objective et la variable explicative dans une relation biunivoque. Pour ainsi dire, il s'agit d'une simple analyse de régression. Un exemple est l'analyse de dispersion.

Sélection basée sur un modèle

Il s'agit d'une méthode pour calculer l'importance des quantités d'entités dans le modèle à créer.

Sélection itérative

Nous améliorerons la précision de la prédiction en augmentant ou en diminuant la quantité de caractéristiques. Stepwise est un exemple.

Traitement de l'information

J'ai expliqué qu'il est important de penser aux quantités de caractéristiques afin d'améliorer la précision des prédictions. Ici, nous expliquerons s'il faut réellement traiter le montant de la fonctionnalité. Il existe différentes méthodes pour sélectionner les quantités de caractéristiques, donc j'écrirai un article à une date ultérieure.

Fonction pratique

Il existe des fonctions utiles pour le traitement des données. Cette fois, je présenterai les deux points suivants. ・ Fonction Split ・ Appliquer la fonction

fonction split

C'est une fonction qui divise une chaîne. Si vous affectez le caractère que vous souhaitez fractionner à l'argument, ce caractère est exclu et la chaîne de caractères est fractionnée.

appliquer la fonction

Il s'agit d'une fonction qui applique une valeur numérique à chaque valeur des données. Dans le traitement des données, vous pouvez facilement traiter des valeurs numériques en spécifiant une fonction anonyme (fonction lambda) comme argument.

code

Je vais vous expliquer comment utiliser réellement ces fonctions. Par exemple, supposons que la colonne de date contienne une chaîne de date telle que "2019-12-12". Si vous souhaitez mettre uniquement l'année dans la colonne appelée année, écrivez comme suit.

df["year"] = df["date"].apply(lambda x: x.split("-")[0])

Recommended Posts