Lors de l'apprentissage de Python et de sa mise en œuvre
Avez-vous une expérience?
Je manquais de connaissances, et à chaque fois que je traitais les données, je vérifiais et définissais les arguments de la méthode seaborn.
Dans cet article, j'expliquerai les méthodes fréquentes de seaborn que même les débutants doivent comprendre, et les arguments minimum requis pour une confirmation rapide.
Les données utilisées cette fois sont les données de "House Price" de "Kaggle".
Pour expliquer la concurrence des prix de la maison en un mot, c'est une compétition qui prédit le prix de vente à partir de la taille et de l'emplacement de la maison.
Lisez les données et dessinez un graphique pour comprendre ses caractéristiques.
Les paramètres sont réduits autant que possible afin que même les débutants puissent facilement comprendre comment utiliser la méthode. Pour cette raison, le graphique est plutôt sale. .. Quand j'ai cherché sur différents sites, je me demandais, "Au final, qu'est-ce qu'il faut quand je veux au moins afficher?", J'ose donc affiner les paramètres.
Cependant, les arguments nécessaires pour afficher le graphique sont complétés par des commentaires avant utilisation.
(Si vous avez d'autres paramètres que vous devriez définir si possible, je vous serais reconnaissant de bien vouloir commenter.)
J'écris pour de telles personnes.
Lorsque vous démarrez l'analyse des données, comme le didacticiel de Kaggle "Quel type de données est défini?" À cet égard, je pense qu'il est possible de supprimer le contour de base de seaborn pour l'auto-visualisation.
En utilisant la carte de chaleur, la force des données numériques est visualisée par couleur dans un format comme une table ronde.
Cette fois, nous allons dessiner un graphique centré sur les objets dont le coefficient de corrélation (valeur absolue) par rapport au prix de vente de la maison (prix de vente) est supérieur à 0,5.
import seaborn as sns
#Obtenez le coefficient de corrélation
corr_mat = house_price.corr()
#Coefficient de corrélation avec le prix de vente(Valeur absolue)Mais 0.Créer un DataFrame réduit aux éléments supérieurs à 5
top_corr_features = corr_mat.index[abs(corr_mat["SalePrice"])>0.5]
# import matplotlib.pyplot as plt
# plt.figure(figsize=(11,11)) #Si vous faites quelque chose comme ça, vous pouvez l'afficher plus magnifiquement.
#Vérifiez la corrélation
sns.heatmap(data=house_price[top_corr_features].corr(),annot=True,cmap="RdYlGn")
Le contenu de l'argument est le suivant.
argument | Contenu |
---|---|
data | Données cibles |
annot | Afficher ou non la valeur dans la matrice |
cmap | Type de couleur |
Du point de vue de savoir si cela fonctionne, vous pouvez exclure les arguments d'annonce et cmap. Cependant, du point de vue de la visualisation des fonctionnalités,
À partir de là, je pense qu'il vaut mieux régler ce paramètre au minimum.
Les résultats sont les suivants.
Il s'agit d'une table ronde se concentrant uniquement sur les articles dont le SalePrice est supérieur à 0,5. La raison pour laquelle les éléments de données sont restreints cette fois-ci est qu'il y a environ 80 éléments de données, et si vous créez un tableau à tour de rôle de ceux-ci, il n'y a aucun mérite à visualiser, nous réduisons donc le nombre d'éléments.
Dans cet exemple, vous pouvez voir que le vert a une corrélation plus forte, mais en particulier, les deux suivants ont une corrélation plus forte.
article | Coefficient de corrélation |
---|---|
OverallQual(Évaluation complète du logement) | 0.79 |
GrLivArea(Salon) | 0.71 |
De cette manière, les cartes thermiques peuvent être utilisées pour déterminer la corrélation des données à analyser.
Affiche la valeur moyenne et la barre d'erreur dans le graphique à barres.
[Site officiel: barplot] (http://seaborn.pydata.org/generated/seaborn.barplot.html)
Les caractéristiques de «Global Qual», qui présentaient la corrélation la plus élevée sur la carte de chaleur, sont affichées.
import seaborn as sns
sns.set()
sns.barplot(x=house_price.OverallQual,y=house_price.SalePrice)![distplot.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/310367/f788ef75-d123-fb53-b721-ed7a329b2de6.png)
Les résultats sont les suivants.
L'axe horizontal représente la qualité globale (évaluation complète du logement) et l'axe vertical le prix du logement (prix du logement).
Vous pouvez voir que plus l'évaluation globale d'une maison est bonne, plus le prix du logement a tendance à être élevé.
Un graphique à barres de countplot montre le nombre de variables catégorielles.
import seaborn as sns
sns.set()
sns.countplot(x='MSSubClass', data=house_price)
Les résultats sont les suivants.
L'axe horizontal montre le prix du logement et l'axe vertical le nombre de cas.
Divise les données en sections et affiche les sections les plus nombreuses.
import seaborn as sns
sns.set()
sns.distplot(house_price['SalePrice'])
Les résultats sont les suivants.
C'est un simple diagramme de dispersion.
import seaborn as sns
sns.set()
sns.scatterplot(data=house_price, x='GrLivArea', y='SalePrice')
Les résultats sont les suivants.
Vous pouvez afficher les graphiques en nuage de points en une seule fois plutôt qu'un par un. Il est utile lors de la vérification complète de la corrélation.
import seaborn as sns
sns.set()
#Affichez le graphique en réduisant les articles qui ont une forte corrélation avec SalePrice
sns.pairplot(data=house_price[top_corr_features])
Les résultats sont les suivants.
Il existe également des boîtes à moustaches et des parcelles de violon, mais elles sont exclues de cette explication en raison de leur occurrence fréquente.
En ce moment, je me concentre sur les méthodes fréquentes et les arguments minimum, mais c'est un peu déroutant, donc je vais clarifier cela.
Sur la base des sites suivants, j'ai procédé à l'apprentissage en vérifiant le site officiel.
Cet article est vraiment minimal, donc si vous voulez en savoir plus, jetez un œil.
Recommended Posts