Un mémo lors de la pratique de la visualisation avec des pandas et des seaborn en utilisant ʻiris.csv` comme exemple d'ensemble de données. Puisqu'il s'agit d'un mémo pour moi-même, je pense qu'il y a des parties arbitraires telles que le type de figure et comment sélectionner des colonnes, mais comprenez bien _ (._.) _
Les données: https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv
ʻIris.csva 4 colonnes et 1 valeur de catégorie Il se compose desepal_length, sepal_width, petal_length, peta_widthetspecies`.
Visualisez en gardant à l'esprit la classification de la valeur de catégorie «espèce».

Tout d'abord, vérifiez la distribution d'une colonne.
sepal_lengthhist_iris1.py
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris à portée de main.Sans csv
sns.distplot(df.sepal_length,kde = True)
plt.show()

Ensuite, la distribution des quatre colonnes a été dessinée sur quatre graphiques distincts. J'ai pensé qu'il serait pratique de spécifier layout = (2,2) en utilisant la méthode plot () de DataFrame et de générer 4 graphiques dans une disposition de 2 * 2 carrés, mais avec un histogramme Je ne sais pas comment afficher la fonction de densité par estimation de la densité du noyau en même temps.
sepal_length, sepal_width, petal_length, peta_widthhist_iris2.py
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris à portée de main.Sans csv
df.plot(kind="kde",subplots=True,layout=(2,2)) #kind="hist"Dans l'histogramme
plt.show()

sepal_length par catégorieVérifiez comment la distribution de sepal_length diffère entre setosa et versicolor.
hist_iris.py
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris à portée de main.Sans csv
sns.distplot(df[df["species"]=="setosa"].sepal_length,kde=True,rug=True)
sns.distplot(df[df["species"]=="versicolor"].sepal_length,kde=True,rug=True)
plt.show()

La matrice dispersée est une méthode de visualisation utile (je pense) pour un aperçu des données. Dans Seaborn, vous pouvez facilement dessiner en utilisant pairplot ().
Dans l'exemple suivant, hue =" species " est défini comme argument de pairplot (). Cela codera en couleur chaque type de valeur de catégorie «« espèce »» dans le jeu de données iris. Si diag_kind =" kde " est défini, une fonction de densité basée sur l'estimation de la densité du noyau est dessinée pour la composante diagonale. Si rien n'est spécifié, l'histogramme est simplement affiché.
sepal_length par catégoriehist_iris.py
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris") #Iris à portée de main.Sans csv
#pairplot:Dessinez une matrice de diagramme de dispersion
g = sns.pairplot(df,hue = "species",diag_kind="kde")
plt.show()

Recommended Posts