Mémo de visualisation par pandas, seaborn

Visualisation des ensembles de données

Un mémo lors de la pratique de la visualisation avec des pandas et des seaborn en utilisant ʻiris.csv` comme exemple d'ensemble de données. Puisqu'il s'agit d'un mémo pour moi-même, je pense qu'il y a des parties arbitraires telles que le type de figure et comment sélectionner des colonnes, mais comprenez bien _ (._.) _

Les données: https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv

Dessiner un histogramme

ʻIris.csva 4 colonnes et 1 valeur de catégorie Il se compose desepal_length, sepal_width, petal_length, peta_widthetspecies`. Visualisez en gardant à l'esprit la classification de la valeur de catégorie «espèce».

qiita_iris.jpg


Tout d'abord, vérifiez la distribution d'une colonne.

・ Distribution de sepal_length

hist_iris1.py


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris à portée de main.Sans csv

sns.distplot(df.sepal_length,kde = True)
plt.show()

qiita_1.png


Ensuite, la distribution des quatre colonnes a été dessinée sur quatre graphiques distincts. J'ai pensé qu'il serait pratique de spécifier layout = (2,2) en utilisant la méthode plot () de DataFrame et de générer 4 graphiques dans une disposition de 2 * 2 carrés, mais avec un histogramme Je ne sais pas comment afficher la fonction de densité par estimation de la densité du noyau en même temps.

・ Distribution de sepal_length, sepal_width, petal_length, peta_width

hist_iris2.py


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris à portée de main.Sans csv

df.plot(kind="kde",subplots=True,layout=(2,2))    #kind="hist"Dans l'histogramme
plt.show()

qiita_4.png


・ Répartition de sepal_length par catégorie

Vérifiez comment la distribution de sepal_length diffère entre setosa et versicolor.

hist_iris.py


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris à portée de main.Sans csv

sns.distplot(df[df["species"]=="setosa"].sepal_length,kde=True,rug=True)
sns.distplot(df[df["species"]=="versicolor"].sepal_length,kde=True,rug=True)
plt.show()

qiita_2.png


Dessiner une matrice de diagramme de dispersion

La matrice dispersée est une méthode de visualisation utile (je pense) pour un aperçu des données. Dans Seaborn, vous pouvez facilement dessiner en utilisant pairplot (). Dans l'exemple suivant, hue =" species " est défini comme argument de pairplot (). Cela codera en couleur chaque type de valeur de catégorie «« espèce »» dans le jeu de données iris. Si diag_kind =" kde " est défini, une fonction de densité basée sur l'estimation de la densité du noyau est dessinée pour la composante diagonale. Si rien n'est spécifié, l'histogramme est simplement affiché.

・ Répartition de sepal_length par catégorie

hist_iris.py


import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("iris.csv")
#df = sns.load_dataset("iris")  #Iris à portée de main.Sans csv

#pairplot:Dessinez une matrice de diagramme de dispersion
g = sns.pairplot(df,hue = "species",diag_kind="kde")
plt.show()

qiita_3.png

Recommended Posts

Mémo de visualisation par pandas, seaborn
Mémo de visualisation par Python
Mémo Pandas
mémo pandas
Trier par pandas
100 traitement du langage knock-99 (à l'aide de pandas): visualisation par t-SNE
Mémo inversé Pandas
Visualisation des données avec les pandas
Analyse des données financières par pandas et leur visualisation (1)
pandas Matplotlib Résumé par utilisation
Mémorandum (pseudo Vlookup par pandas)
Visualisation des données par préfecture
Standardisez par groupe avec les pandas
Visualisation de la matrice créée par numpy
[Python] Mémo d'opération de pandas DataFrame
Méthode de visualisation de données utilisant matplotlib (+ pandas) (5)
Mémo Pandas ~ Aucun, np.nan, sur les caractères vides ~
[Mémo] Petite histoire de pandas, stupide
Méthode de visualisation de données utilisant matplotlib (+ pandas) (3)
Manipuler des chaînes avec un groupe pandas par
Mémo d'apprentissage de la planification des sections ~ par python ~
Visualisez facilement vos données avec Python seaborn.
Méthode de visualisation de données utilisant matplotlib (+ pandas) (4)
Génération de fonctionnalités avec pandas group par
Représentez graphiquement le ratio de topcoder, Codeforces et TOEIC par note (Pandas + seaborn)