J'ai essayé Python! ] Titanic data edition_vol.1 (graphique à barres, diagramme de dispersion, coefficient de corrélation)

Aujourd'hui, sans trop réfléchir Pour le moment, en utilisant "Titanic data", Nous ferons une analyse statistique.

Aujourd'hui, c'est pour les super débutants! (Graphique à barres, diagramme de dispersion, coefficient de corrélation jusqu'à environ)

■ Présentation

Mon environnement d'exécution

Microsoft Windows Version：10.0 Python Version：3.8.1

Utilisez l'invite de commande (J'ai entendu des rumeurs selon lesquelles Linux est meilleur, mais j'ai un PC Windows ... Donc pour le moment, je fais de mon mieux avec les fenêtres. )

↓ (Référence) Vérifiez la version de Windows

C:\Users\Nom d'utilisateur>ver

↓ (Référence) Vérification de la version de Python

C:\Users\Nom d'utilisateur>python

À propos de l'environnement virtuel

Python semble être pratique à exécuter dans un environnement virtuel, donc J'utilise également un environnement virtuel.

Je voudrais vous présenter comment créer un environnement virtuel à une date ultérieure.

↓ (Référence) Lancement d'un environnement virtuel

C:\Users\Nom d'utilisateur>Nom de l'environnement virtuel\scripts\activate

↓ (Référence) Lorsque l'environnement virtuel est démarré, il sera affiché comme ceci

(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>

■ Installation des packages requis

Le package utilisé cette fois est ・ Numpy ・ Pandas ・ Matplotlib ・ Seaborn est.

↓ Installation

(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>nom du package d'installation pip

↓ Liste des packages installés

(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>pip list

↓ Le résultat ressemble à ceci. インストール済ライブラリ.PNG

■ Démarrez python

(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>python

↓ (Référence) Lorsque Python démarre, il sera affiché comme ceci (Seul >>> s'affiche ...)

>>>

■ Lecture des données

Cette fois, nous utiliserons les "données Titanic" disponibles auprès du concours mondial de données "Kaggle".

J'espère pouvoir présenter les détails plus tard.

Dossier de stockage des données

Je suis moi-même un super débutant et je n'ai pas bien compris, alors Une fois, les données ont été enregistrées directement dans le dossier "C: \ Users \ user name". (J'ai essayé des chemins absolus et des chemins relatifs, mais pour une raison quelconque, cela n'a pas fonctionné ... (TT))

Lecture des données

↓ Importer le package

import pandas as pd

Une fois terminé, ">>>" apparaît à nouveau.

↓ Utilisez la classe "read_csv" de "pandas (pd)" pour "train.csv" Stocker dans "df".

df = pd.read_csv("train.csv")

■ Enfin, essayez l'analyse des données!

Une fois que vous êtes arrivé aussi loin, vous pouvez consulter les données comme vous le souhaitez.

Nombre de survivants et de décès

Après avoir importé les packages requis Affichons la donnée «Survived (survivor = 1, dead = 0)» stockée dans «df» sur un graphique à barres.

import seaborn as sns
import matplotlib.pyplot as plt
sns.countplot("Survived",data=df,palette='rainbow')
plt.show()

↓ résultat de l'exécution "plt.show ()" C'était pratique de pouvoir ajuster les écarts verticaux et horizontaux et d'enregistrer les images à partir d'ici! Figure1イメージ.PNG

Matrice des coefficients de corrélation (carte thermique)

sns.heatmap(df.corr(),annot=True,cmap='RdYlGn',vmin=-1,vmax=1,fmt=".2f",square=True)
plt.show()

ヒートマップイメージ.png

Diagramme de tracé de paires

sns.pairplot(df)
plt.show()

ペアプロットイメージ.png

■ Enfin

Merci d'avoir lu aujourd'hui. Cet article était le premier article, et je pense qu'il y avait des choses difficiles à comprendre. Veuillez pardonner. Si vous avez des suggestions, nous les accepterons (je ne sais pas comment les accepter ...) Merci beaucoup. Si je trouve moi-même une erreur, je la corrigerai à chaque fois. Je répondrai autant que possible à vos questions (je ne sais pas non plus comment l'accepter ...) N'hésitez pas à poser des questions. Rendez-vous quelque part ~ (^^) ♪