J'ai essayé Python! ] Titanic data edition_vol.1 (graphique à barres, diagramme de dispersion, coefficient de corrélation)

Aujourd'hui, sans trop réfléchir Pour le moment, en utilisant "Titanic data", Nous ferons une analyse statistique.

■ Présentation


Mon environnement d'exécution

Microsoft Windows Version:10.0 Python Version:3.8.1

↓ (Référence) Vérifiez la version de Windows

C:\Users\Nom d'utilisateur>ver

↓ (Référence) Vérification de la version de Python

C:\Users\Nom d'utilisateur>python


À propos de l'environnement virtuel

Python semble être pratique à exécuter dans un environnement virtuel, donc J'utilise également un environnement virtuel.

↓ (Référence) Lancement d'un environnement virtuel

C:\Users\Nom d'utilisateur>Nom de l'environnement virtuel\scripts\activate

↓ (Référence) Lorsque l'environnement virtuel est démarré, il sera affiché comme ceci

(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>

■ Installation des packages requis

Le package utilisé cette fois est ・ Numpy ・ Pandas ・ Matplotlib ・ Seaborn est.

↓ Installation

(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>nom du package d'installation pip

↓ Liste des packages installés

(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>pip list

↓ Le résultat ressemble à ceci. インストール済ライブラリ.PNG

■ Démarrez python

(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>python

↓ (Référence) Lorsque Python démarre, il sera affiché comme ceci (Seul >>> s'affiche ...)

>>>

■ Lecture des données

Cette fois, nous utiliserons les "données Titanic" disponibles auprès du concours mondial de données "Kaggle".


Dossier de stockage des données

Je suis moi-même un super débutant et je n'ai pas bien compris, alors Une fois, les données ont été enregistrées directement dans le dossier "C: \ Users \ user name". (J'ai essayé des chemins absolus et des chemins relatifs, mais pour une raison quelconque, cela n'a pas fonctionné ... (TT))


Lecture des données

↓ Importer le package

import pandas as pd

↓ Utilisez la classe "read_csv" de "pandas (pd)" pour "train.csv" Stocker dans "df".

df = pd.read_csv("train.csv")

■ Enfin, essayez l'analyse des données!

Une fois que vous êtes arrivé aussi loin, vous pouvez consulter les données comme vous le souhaitez.


Nombre de survivants et de décès

Après avoir importé les packages requis Affichons la donnée «Survived (survivor = 1, dead = 0)» stockée dans «df» sur un graphique à barres.

import seaborn as sns
import matplotlib.pyplot as plt
sns.countplot("Survived",data=df,palette='rainbow')
plt.show()

↓ résultat de l'exécution "plt.show ()" C'était pratique de pouvoir ajuster les écarts verticaux et horizontaux et d'enregistrer les images à partir d'ici! Figure1イメージ.PNG


Matrice des coefficients de corrélation (carte thermique)

sns.heatmap(df.corr(),annot=True,cmap='RdYlGn',vmin=-1,vmax=1,fmt=".2f",square=True)
plt.show()

ヒートマップイメージ.png


Diagramme de tracé de paires

sns.pairplot(df)
plt.show()

ペアプロットイメージ.png

■ Enfin

Merci d'avoir lu aujourd'hui. Cet article était le premier article, et je pense qu'il y avait des choses difficiles à comprendre. Veuillez pardonner. Si vous avez des suggestions, nous les accepterons (je ne sais pas comment les accepter ...) Merci beaucoup. Si je trouve moi-même une erreur, je la corrigerai à chaque fois. Je répondrai autant que possible à vos questions (je ne sais pas non plus comment l'accepter ...) N'hésitez pas à poser des questions. Rendez-vous quelque part ~ (^^) ♪

Recommended Posts

J'ai essayé Python! ] Titanic data edition_vol.1 (graphique à barres, diagramme de dispersion, coefficient de corrélation)
J'ai essayé l'analyse factorielle avec des données Titanic!
J'ai essayé d'analyser les principaux composants avec les données du Titanic!
J'ai essayé d'obtenir des données CloudWatch avec Python
J'ai créé un graphique à barres empilées avec matplotlib de Python et ajouté une étiquette de données
J'ai essayé de représenter graphiquement les packages installés en Python
[Python] J'ai essayé de représenter graphiquement le top 10 des ombres à paupières
J'ai essayé de résoudre le problème avec Python Vol.1
J'ai essayé Python> autopep8
J'ai essayé Python> décorateur
J'ai essayé de créer diverses "données factices" avec Python faker
[Python] J'ai essayé de collecter des données en utilisant l'API de wikipedia
J'ai essayé fp-growth avec python
J'ai essayé de gratter avec Python
J'ai essayé l'extension C de Python
[Python] Tracer des données de séries chronologiques
J'ai essayé gRPC avec Python
J'ai essayé de gratter avec du python
[Pandas] J'ai essayé d'analyser les données de ventes avec Python [Pour les débutants]
[Python] Analysez les données de match de la ligue Splatoon 2 à l'aide d'un tableau de coefficients de corrélation
[Python] J'ai essayé d'obtenir diverses informations en utilisant l'API de données YouTube!