Un objet de bloc de données pour gérer des données structurées en Python. Vous pouvez facilement lire des fichiers et effectuer des opérations SQL ultérieures, ce qui est nécessaire pour le travail de traitement, de calcul et de visualisation des données par apprentissage automatique. Une liste de mémos de syntaxes fréquemment utilisées pour la manipulation de données. Cette section concerne la lecture et le traitement des données.
L'histogramme est souvent utilisé pour la confirmation des données au stade de la préparation. Cette fois, nous utiliserons la bibliothèque matplotlib. Vous pouvez facilement créer un histogramme gênant en le faisant dans Excel. Pour les données, nous avons utilisé les données familières du Titanic.
Nommez pandas pd et importez-le. Cette fois, matplotlib.pyplot a également été importé avec le nom plt. Utilisez des exemples de données de Titanic
python
import pandas as pd
import matplotlib.pyplot as plt
dataframe = pd.read_csv('train.csv')
dataframe.head()
Créez un histogramme par âge (colonne "Age"). Supprimez la valeur manquante avec dropna ().
python
plt.hist(dataframe['Age'].dropna(),bins = 10, range = (0,100),color = 'Blue')
plt.show()
Spécifiez les bacs (nombre de bouteilles à afficher), plage (largeur des données), clor (couleur)
Normaliser pour que la somme totale soit de 1.
python
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue', normed = 'true')
plt.show()
Ajoutez des titres, etc. pour une visualisation facile.
python
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist(dataframe['Age'].dropna(),bins = 20, range = (0,100),color = 'Blue')
plt.show()
Ajoutez .title, .xlabel, .grid.
L'affichage de répartition des hommes (hommes) et des femmes (femmes) est affiché en utilisant l'affichage empilé. Définissez respectivement malelist_m et malelist_f en préparation du tracé.
python
malelist_m = dataframe['Sex'] == 'male'
malelist_f = dataframe['Sex'] == 'female'
plt.title('Age Histogram', fontsize=14)
plt.xlabel('Age', fontsize=14)
plt.grid(True)
plt.hist([dataframe[malelist_m]['Age'],dataframe[malelist_f]['Age']],bins = 20, range = (0,100), color = ['Blue', 'Red'], label = ['male','femal'], stacked=True)
plt.legend(loc="upper right", fontsize=14)
plt.show()
Si vous voulez en empiler plusieurs, écrivez comme hist ([X1, X2]). Définissez stacked sur True pour empiler. (Également écrit sous la forme False) Définissez la légende avec l'étiquette. Ajoutez une légende avec .legend.
Recommended Posts