Un mémo lors de la pratique de la visualisation avec des pandas et des seaborn en utilisant ʻiris.csv` comme exemple d'ensemble de données. Puisqu'il s'agit d'un mémo pour moi-même, je pense qu'il y a des parties arbitraires telles que le type de figure et comment sélectionner des colonnes, mais comprenez bien _ (._.) _
Les données: https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv
ʻIris.csva 4 colonnes et 1 valeur de catégorie Il se compose de
sepal_length,
sepal_width,
petal_length,
peta_widthet
species`.
Visualisez en gardant à l'esprit la classification de la valeur de catégorie «espèce».
Tout d'abord, vérifiez la distribution d'une colonne.
sepal_length
hist_iris1.py
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris à portée de main.Sans csv
sns.distplot(df.sepal_length,kde = True)
plt.show()
Ensuite, la distribution des quatre colonnes a été dessinée sur quatre graphiques distincts. J'ai pensé qu'il serait pratique de spécifier layout = (2,2)
en utilisant la méthode plot ()
de DataFrame
et de générer 4 graphiques dans une disposition de 2 * 2 carrés, mais avec un histogramme Je ne sais pas comment afficher la fonction de densité par estimation de la densité du noyau en même temps.
sepal_length
, sepal_width
, petal_length
, peta_width
hist_iris2.py
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris à portée de main.Sans csv
df.plot(kind="kde",subplots=True,layout=(2,2)) #kind="hist"Dans l'histogramme
plt.show()
sepal_length
par catégorieVérifiez comment la distribution de sepal_length
diffère entre setosa
et versicolor
.
hist_iris.py
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris à portée de main.Sans csv
sns.distplot(df[df["species"]=="setosa"].sepal_length,kde=True,rug=True)
sns.distplot(df[df["species"]=="versicolor"].sepal_length,kde=True,rug=True)
plt.show()
La matrice dispersée est une méthode de visualisation utile (je pense) pour un aperçu des données. Dans Seaborn, vous pouvez facilement dessiner en utilisant pairplot ()
.
Dans l'exemple suivant, hue =" species "
est défini comme argument de pairplot ()
. Cela codera en couleur chaque type de valeur de catégorie «« espèce »» dans le jeu de données iris. Si diag_kind =" kde "
est défini, une fonction de densité basée sur l'estimation de la densité du noyau est dessinée pour la composante diagonale. Si rien n'est spécifié, l'histogramme est simplement affiché.
sepal_length
par catégoriehist_iris.py
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris à portée de main.Sans csv
#pairplot:Dessinez une matrice de diagramme de dispersion
g = sns.pairplot(df,hue = "species",diag_kind="kde")
plt.show()
Recommended Posts