Visualisation des ensembles de données

Un mémo lors de la pratique de la visualisation avec des pandas et des seaborn en utilisant ʻiris.csv` comme exemple d'ensemble de données. Puisqu'il s'agit d'un mémo pour moi-même, je pense qu'il y a des parties arbitraires telles que le type de figure et comment sélectionner des colonnes, mais comprenez bien _ (._.) _

Les données: https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv

Dessiner un histogramme

ʻIris.csva 4 colonnes et 1 valeur de catégorie Il se compose desepal_length, sepal_width, petal_length, peta_widthetspecies`. Visualisez en gardant à l'esprit la classification de la valeur de catégorie «espèce».

Tout d'abord, vérifiez la distribution d'une colonne.

・ Distribution de `sepal_length`

`hist_iris1.py`


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris à portée de main.Sans csv

sns.distplot(df.sepal_length,kde = True)
plt.show()

Ensuite, la distribution des quatre colonnes a été dessinée sur quatre graphiques distincts. J'ai pensé qu'il serait pratique de spécifier layout = (2,2) en utilisant la méthode plot () de DataFrame et de générer 4 graphiques dans une disposition de 2 * 2 carrés, mais avec un histogramme Je ne sais pas comment afficher la fonction de densité par estimation de la densité du noyau en même temps.

・ Distribution de `sepal_length`, `sepal_width`, `petal_length`, `peta_width`

`hist_iris2.py`


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris à portée de main.Sans csv

df.plot(kind="kde",subplots=True,layout=(2,2))    #kind="hist"Dans l'histogramme
plt.show()

・ Répartition de `sepal_length` par catégorie

Vérifiez comment la distribution de sepal_length diffère entre setosa et versicolor.

`hist_iris.py`


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris à portée de main.Sans csv

sns.distplot(df[df["species"]=="setosa"].sepal_length,kde=True,rug=True)
sns.distplot(df[df["species"]=="versicolor"].sepal_length,kde=True,rug=True)
plt.show()

Dessiner une matrice de diagramme de dispersion

La matrice dispersée est une méthode de visualisation utile (je pense) pour un aperçu des données. Dans Seaborn, vous pouvez facilement dessiner en utilisant pairplot (). Dans l'exemple suivant, hue =" species " est défini comme argument de pairplot (). Cela codera en couleur chaque type de valeur de catégorie «« espèce »» dans le jeu de données iris. Si diag_kind =" kde " est défini, une fonction de densité basée sur l'estimation de la densité du noyau est dessinée pour la composante diagonale. Si rien n'est spécifié, l'histogramme est simplement affiché.

・ Répartition de `sepal_length` par catégorie

`hist_iris.py`


import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris à portée de main.Sans csv

#pairplot:Dessinez une matrice de diagramme de dispersion
g = sns.pairplot(df,hue = "species",diag_kind="kde")
plt.show()

Mémo de visualisation par pandas, seaborn

Visualisation des ensembles de données

Dessiner un histogramme

・ Distribution de sepal_length

hist_iris1.py

・ Distribution de sepal_length, sepal_width, petal_length, peta_width

hist_iris2.py

・ Répartition de sepal_length par catégorie

hist_iris.py

Dessiner une matrice de diagramme de dispersion

・ Répartition de sepal_length par catégorie

hist_iris.py

・ Distribution de `sepal_length`

`hist_iris1.py`

・ Distribution de `sepal_length`, `sepal_width`, `petal_length`, `peta_width`

`hist_iris2.py`

・ Répartition de `sepal_length` par catégorie

`hist_iris.py`

・ Répartition de `sepal_length` par catégorie

`hist_iris.py`