Aujourd'hui, sans trop réfléchir Pour le moment, en utilisant "Titanic data", Nous ferons une analyse statistique.
Microsoft Windows Version:10.0 Python Version:3.8.1
↓ (Référence) Vérifiez la version de Windows
C:\Users\Nom d'utilisateur>ver
↓ (Référence) Vérification de la version de Python
C:\Users\Nom d'utilisateur>python
Python semble être pratique à exécuter dans un environnement virtuel, donc J'utilise également un environnement virtuel.
↓ (Référence) Lancement d'un environnement virtuel
C:\Users\Nom d'utilisateur>Nom de l'environnement virtuel\scripts\activate
↓ (Référence) Lorsque l'environnement virtuel est démarré, il sera affiché comme ceci
(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>
Le package utilisé cette fois est ・ Numpy ・ Pandas ・ Matplotlib ・ Seaborn est.
↓ Installation
(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>nom du package d'installation pip
↓ Liste des packages installés
(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>pip list
↓ Le résultat ressemble à ceci.
(Nom de l'environnement virtuel)C:\Users\Nom d'utilisateur>python
↓ (Référence) Lorsque Python démarre, il sera affiché comme ceci (Seul >>> s'affiche ...)
>>>
Cette fois, nous utiliserons les "données Titanic" disponibles auprès du concours mondial de données "Kaggle".
Je suis moi-même un super débutant et je n'ai pas bien compris, alors Une fois, les données ont été enregistrées directement dans le dossier "C: \ Users \ user name". (J'ai essayé des chemins absolus et des chemins relatifs, mais pour une raison quelconque, cela n'a pas fonctionné ... (TT))
↓ Importer le package
import pandas as pd
↓ Utilisez la classe "read_csv" de "pandas (pd)" pour "train.csv" Stocker dans "df".
df = pd.read_csv("train.csv")
Une fois que vous êtes arrivé aussi loin, vous pouvez consulter les données comme vous le souhaitez.
Après avoir importé les packages requis Affichons la donnée «Survived (survivor = 1, dead = 0)» stockée dans «df» sur un graphique à barres.
import seaborn as sns
import matplotlib.pyplot as plt
sns.countplot("Survived",data=df,palette='rainbow')
plt.show()
↓ résultat de l'exécution "plt.show ()" C'était pratique de pouvoir ajuster les écarts verticaux et horizontaux et d'enregistrer les images à partir d'ici!
sns.heatmap(df.corr(),annot=True,cmap='RdYlGn',vmin=-1,vmax=1,fmt=".2f",square=True)
plt.show()
sns.pairplot(df)
plt.show()
Merci d'avoir lu aujourd'hui. Cet article était le premier article, et je pense qu'il y avait des choses difficiles à comprendre. Veuillez pardonner. Si vous avez des suggestions, nous les accepterons (je ne sais pas comment les accepter ...) Merci beaucoup. Si je trouve moi-même une erreur, je la corrigerai à chaque fois. Je répondrai autant que possible à vos questions (je ne sais pas non plus comment l'accepter ...) N'hésitez pas à poser des questions. Rendez-vous quelque part ~ (^^) ♪
Recommended Posts