J'ai essayé d'utiliser la méthode Seaborn fréquemment utilisée avec le moins d'arguments possible [pour les débutants]

Objectif

Lors de l'apprentissage de Python et de sa mise en œuvre

Avez-vous une expérience?

Je manquais de connaissances, et à chaque fois que je traitais les données, je vérifiais et définissais les arguments de la méthode seaborn.

Dans cet article, j'expliquerai les méthodes fréquentes de seaborn que même les débutants doivent comprendre, et les arguments minimum requis pour une confirmation rapide.

Écoulement brutal

Remarques

(Si vous avez d'autres paramètres que vous devriez définir si possible, je vous serais reconnaissant de bien vouloir commenter.)

Personne cible

J'écris pour de telles personnes.

Ce que vous pouvez comprendre dans cet article

Lorsque vous démarrez l'analyse des données, comme le didacticiel de Kaggle "Quel type de données est défini?" À cet égard, je pense qu'il est possible de supprimer le contour de base de seaborn pour l'auto-visualisation.

environnement

supposition

Dessin graphique

Carte de chaleur

Site officiel: heatmap

En utilisant la carte de chaleur, la force des données numériques est visualisée par couleur dans un format comme une table ronde.

Cette fois, nous allons dessiner un graphique centré sur les objets dont le coefficient de corrélation (valeur absolue) par rapport au prix de vente de la maison (prix de vente) est supérieur à 0,5.

import seaborn as sns

#Obtenez le coefficient de corrélation
corr_mat = house_price.corr()

#Coefficient de corrélation avec le prix de vente(Valeur absolue)Mais 0.Créer un DataFrame réduit aux éléments supérieurs à 5
top_corr_features = corr_mat.index[abs(corr_mat["SalePrice"])>0.5]


# import matplotlib.pyplot as plt
# plt.figure(figsize=(11,11)) #Si vous faites quelque chose comme ça, vous pouvez l'afficher plus magnifiquement.

#Vérifiez la corrélation
sns.heatmap(data=house_price[top_corr_features].corr(),annot=True,cmap="RdYlGn")

Le contenu de l'argument est le suivant.

argument Contenu
data Données cibles
annot Afficher ou non la valeur dans la matrice
cmap Type de couleur

Du point de vue de savoir si cela fonctionne, vous pouvez exclure les arguments d'annonce et cmap. Cependant, du point de vue de la visualisation des fonctionnalités,

À partir de là, je pense qu'il vaut mieux régler ce paramètre au minimum.

Les résultats sont les suivants. heatmap_simle2.png

Il s'agit d'une table ronde se concentrant uniquement sur les articles dont le SalePrice est supérieur à 0,5. La raison pour laquelle les éléments de données sont restreints cette fois-ci est qu'il y a environ 80 éléments de données, et si vous créez un tableau à tour de rôle de ceux-ci, il n'y a aucun mérite à visualiser, nous réduisons donc le nombre d'éléments.

Dans cet exemple, vous pouvez voir que le vert a une corrélation plus forte, mais en particulier, les deux suivants ont une corrélation plus forte.

article Coefficient de corrélation
OverallQual(Évaluation complète du logement) 0.79
GrLivArea(Salon) 0.71

De cette manière, les cartes thermiques peuvent être utilisées pour déterminer la corrélation des données à analyser.

Supplément

Bar plot

Affiche la valeur moyenne et la barre d'erreur dans le graphique à barres.

[Site officiel: barplot] (http://seaborn.pydata.org/generated/seaborn.barplot.html)

Les caractéristiques de «Global Qual», qui présentaient la corrélation la plus élevée sur la carte de chaleur, sont affichées.

import seaborn as sns
sns.set()

sns.barplot(x=house_price.OverallQual,y=house_price.SalePrice)![distplot.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/310367/f788ef75-d123-fb53-b721-ed7a329b2de6.png)

Les résultats sont les suivants. barplot.png

L'axe horizontal représente la qualité globale (évaluation complète du logement) et l'axe vertical le prix du logement (prix du logement).

Vous pouvez voir que plus l'évaluation globale d'une maison est bonne, plus le prix du logement a tendance à être élevé.

Graphique à barres (graphique de comptage)

Un graphique à barres de countplot montre le nombre de variables catégorielles.

import seaborn as sns
sns.set()

sns.countplot(x='MSSubClass', data=house_price)

Les résultats sont les suivants. countplot.png

L'axe horizontal montre le prix du logement et l'axe vertical le nombre de cas.

Histogramme (distplot)

Divise les données en sections et affiche les sections les plus nombreuses.

import seaborn as sns
sns.set()

sns.distplot(house_price['SalePrice'])

Les résultats sont les suivants. distplot.png

Site officiel: distplot

Nuage de points

C'est un simple diagramme de dispersion.

import seaborn as sns
sns.set()

sns.scatterplot(data=house_price, x='GrLivArea', y='SalePrice')

Les résultats sont les suivants. scatterplot.png

Site officiel: scatterplot

Affichage multiple de graphiques (tracé de paires)

Vous pouvez afficher les graphiques en nuage de points en une seule fois plutôt qu'un par un. Il est utile lors de la vérification complète de la corrélation.

import seaborn as sns
sns.set()

#Affichez le graphique en réduisant les articles qui ont une forte corrélation avec SalePrice
sns.pairplot(data=house_price[top_corr_features])

Les résultats sont les suivants. pairplot.png

Site officiel: pairplot

finalement

Site de référence

Sur la base des sites suivants, j'ai procédé à l'apprentissage en vérifiant le site officiel.

Cet article est vraiment minimal, donc si vous voulez en savoir plus, jetez un œil.

Recommended Posts

J'ai essayé d'utiliser la méthode Seaborn fréquemment utilisée avec le moins d'arguments possible [pour les débutants]
[Pour les débutants] J'ai essayé d'utiliser l'API Tensorflow Object Detection
J'ai essayé de résumer la méthode de mise en œuvre fréquemment utilisée de pytest-mock
J'ai essayé d'exécuter le didacticiel TensorFlow avec des commentaires (_TensorFlow_2_0_Introduction pour les débutants)
vprof - J'ai essayé d'utiliser le profileur pour Python
J'ai essayé d'implémenter le tri par fusion en Python avec le moins de lignes possible
J'ai essayé le tutoriel MNIST de tensorflow pour les débutants.
J'ai essayé de regrouper les données ECG en utilisant la méthode K-Shape
J'ai essayé d'utiliser la bibliothèque Python de Ruby avec PyCall
Notes diverses sur l'utilisation de python pour les projets
J'ai essayé de résoudre l'édition du débutant du livre des fourmis avec python
J'ai essayé d'utiliser Kwant, un module python pour le calcul du transport quantique
[Pandas] J'ai essayé d'analyser les données de ventes avec Python [Pour les débutants]
Commandes Linux fréquemment utilisées (pour les débutants)
J'ai essayé d'utiliser l'API checkio
[Classification de texte] J'ai essayé d'utiliser le mécanisme d'attention pour les réseaux de neurones convolutifs.
J'ai essayé d'utiliser Amazon SQS avec django-celery
J'ai essayé tensorflow pour la première fois
J'ai essayé d'utiliser du sélénium avec du chrome sans tête
J'ai essayé d'utiliser la recherche sélective comme R-CNN
J'ai essayé de jouer avec l'image avec Pillow
J'ai essayé d'utiliser l'API BigQuery Storage
J'ai essayé d'obtenir les informations du site .aspx qui est paginé à l'aide de Selenium IDE aussi sans programmation que possible.
J'ai essayé Hello World avec un langage OS + C 64 bits sans utiliser de bibliothèque
J'ai essayé d'expliquer à quoi sert le générateur Python aussi facilement que possible.
J'ai essayé d'expliquer l'analyse de régression multiple aussi facilement que possible à l'aide d'exemples concrets.
■ Kaggle Practice for Beginners -House Sale Price (j'ai essayé d'utiliser PyCaret) -par Google Colaboratory
J'ai essayé de résumer les opérations susceptibles d'être utilisées avec numpy-stl
[Python] J'ai essayé le même calcul que la prédiction de LSTM à partir de zéro [Keras]
Un mémorandum de méthode souvent utilisé lors de l'analyse de données avec des pandas (pour les débutants)
Un mémorandum de méthode souvent utilisé dans l'apprentissage automatique utilisant scikit-learn (pour les débutants)
J'ai essayé de "lisser" l'image avec Python + OpenCV
J'ai recherché dans la bibliothèque l'utilisation de l'API Gracenote
[Python] J'ai essayé de remplacer le nom de la fonction par le nom de la fonction
J'ai essayé de "différencier" l'image avec Python + OpenCV
J'ai essayé de sauvegarder les données avec discorde
J'ai essayé la méthode des moindres carrés en Python
J'ai essayé d'utiliser PyCaret à la vitesse la plus rapide
J'ai essayé d'utiliser l'API Google Cloud Vision
J'ai joué avec Floydhub pour le moment
J'ai essayé la programmation python pour la première fois.
J'ai essayé d'utiliser mecab avec python2.7, ruby2.3, php7
J'ai essayé de "binariser" l'image avec Python + OpenCV
J'ai essayé d'utiliser le module Datetime de Python
J'ai essayé Mind Meld pour la première fois
J'ai essayé d'utiliser Firebase pour le serveur de cache de Django
J'ai essayé d'utiliser le filtre d'image d'OpenCV
J'ai essayé DBM avec Pylearn 2 en utilisant des données artificielles
J'ai essayé d'utiliser la bibliothèque de programmation fonctionnelle toolz
J'ai essayé d'utiliser la base de données (sqlite3) avec kivy
J'ai essayé de jouer avec la calculatrice avec tkinter
[Pour les professionnels de la compétition débutants] J'ai essayé de résoudre 40 questions AOJ "ITP I" avec python
[MQTT] J'ai essayé de parler avec un appareil utilisant AWS IoT Core et Soracom Beam.