Lorsque vous faites du machine learning comme la compétition de Kaggle, la première chose à faire est de visualiser les données. Et je pense que seaborn est souvent utilisé pour la visualisation de données. Mais vous êtes-vous déjà demandé lequel utiliser car il existe différents types de graphiques? (J'ai) Il y a beaucoup d'explications sur "quelle méthode peut être utilisée pour dessiner un tel graphe", mais je pense qu'il y a peu d'explications que "dans quelles circonstances ce graphe est bon". Par conséquent, j'ai résumé ici quelle méthode de seaborn devrait être utilisée pour chaque type de variable explicative et de variable objective.
python: 3.6.6 seaborn: 0.10.0
Premièrement, lorsque la variable explicative et la variable objective sont toutes deux des quantités discrètes (catégories). Utilisez un graphique de dénombrement marin. Dessinez le nombre de chaque catégorie de variables objectives. Passez la variable explicative à l'argument x de countplot et la variable objective à hue. Les données sont titanesques.
import pandas as pd
import seaborn as sns
data=pd.read_csv("train.csv")
sns.countplot(x='Embarked', data=data, hue='Survived')
Vous pouvez également inverser x et teinte (ce qui est une question de goût?).
sns.countplot(x='Survived', data=data, hue='Embarked')
Ensuite, lorsque la variable explicative est une quantité continue et la variable objective est une quantité discrète. Dessinez la distribution des variables explicatives pour chaque catégorie de variables objectives avec le diagramme de répartition de Seaborn.
g=sns.FacetGrid(data=data, hue='Survived', size=5)
g.map(sns.distplot, 'Fare')
g.add_legend()
Veuillez vous référer à l'article séparé pour savoir comment coder par couleur avec une méthode qui n'a pas de teinte comme argument (Comment coder par couleur une méthode qui n'a pas de teinte comme argument dans Seaborn. mr160 / items / 112477ae98990216dae4)).
Ensuite, lorsque la variable explicative est une quantité discrète et la variable objective est une quantité continue. Tracez la distribution de la variable objective pour chaque catégorie de variables explicatives avec le graphique du violon de Seaborn. Utilisez les [House Prices] de kaggle (https://www.kaggle.com/c/house-prices-advanced-regression-techniques) pour les données.
train_data=pd.read_csv("train.csv")
sns.violinplot(x="MSZoning", y="SalePrice", data=train_data)
Enfin, lorsque la variable explicative et la variable objective sont des quantités continues. Dessinez la corrélation entre la variable explicative et la variable objective avec le graphique conjoint de Seaborn.
sns.jointplot(x="LotArea", y="SalePrice", data=train_data)
Ce graphique conjoint est excellent car vous pouvez voir la corrélation entre deux variables et la distribution de chacune en même temps.
Ce qui précède est résumé dans le tableau ci-dessous.
Veuillez signaler toute erreur ou méthode plus appropriée.