Le 6ème projet de faire une note du contenu de la pratique que tout le monde va contester le fameux thème "Prix de la maison" problème de kaggle. C'est plus un mémo qu'un commentaire, mais j'espère que cela aide quelqu'un quelque part. La préparation a été achevée la dernière fois, et elle est enfin au stade de l'analyse.
Vérifiez la répartition du SalePrice (prix de la maison) dans les données de formation. Il a été constaté que la plupart des maisons n'ont pas de piscine au moment de combler le manque. Cela signifie qu'il y a des hôtels particuliers qui ont des piscines à l'envers, et la répartition des prix des logements peut être assez faussée. Est assumé.
Je rappelle qu'il est important de dessiner sur la base d'une telle construction temporaire. Cependant, tout d'abord, le graphique est produit comme il est dit.
sns.distplot(train['SalePrice'])
"Qu'est-ce que sns?" Je l'ai oublié après le début, mais c'était dans la bibliothèque que j'importais en premier. Cette.
import seaborn as sns
Je vois seaborn
Après cela, juste au cas où, vérifiez le contenu dans le train ['Prix de vente']. Je vois, les rangées où chacun est aligné.
Et le graphique de sortie ressemble à ceci.
sns.distplot(train['SalePrice'])
Comme prévu, la base de la distribution s'étend à l'extrême droite. En effectuant une conversion logarithmique, il se rapproche d'une distribution normale.
Cependant, confirmation de "qu'est-ce que la conversion logarithmique?"
sns.distplot(np.log(train['SalePrice']))
Je vais en sortir beaucoup.
np.log(train['SalePrice'])
Je vois, c'est écrasé.
sns.distplot(np.log(train['SalePrice']))
Je pense qu'il a une distribution assez normale.
Je voulais entrer, mais apparemment ça sent que le temps est écoulé, donc c'est tout pour aujourd'hui.
Comme le nombre de variables est assez important cette fois, nous voulons appliquer une forte pénalité au coefficient, nous allons donc construire un modèle de prédiction utilisant la régression Lasso.
Après la préparation, j'ai étudié la régression Lasso et j'ai terminé.
Après être entré dans la couche d'analyse, j'ai réalisé qu'il était nécessaire de compléter les connaissances de base. Principalement sur l'analyse de régression.
Recommended Posts