** Résumé de la méthode de confirmation des données utilisant des pandas **
Vérifiez la forme des données
Forme des données(Nombre de lignes x nombre de colonnes).
print(〇〇.shape)
Vérifiez la colonne (nom de la colonne)
print(〇〇.columns)
Afficher uniquement les 5 premières lignes
Si vous souhaitez afficher 5 lignes.
print(〇〇.head())
Entrez le nombre de lignes spécifié, si vous voulez le voir, entre parenthèses de head ()
Si vous souhaitez afficher 10 lignes.
print(〇〇.head(10))
Kaggle's ** Titanic: Machine Learning from Disasters ** avec train_data
Utilisez info () pour plus de détails
Obtenir des informations.
print(〇〇.info())
RangeIndex: (range) est 891, alors que Age, Cabin, Embarked sont peu nombreux, et vous pouvez voir que ** les données sont manquantes **.
Utilisez describe () pour les statistiques descriptives des données La valeur NaN est calculée en excluant, la chaîne n'est pas incluse dans ce cas
Calcul de statistiques descriptives(Autre que les chaînes de caractères).
print(〇〇.describe())
Les statistiques descriptives numériques sont exprimées sous la forme suivante ** count Nombre de données ** ** moyenne moyenne ** ** écart-type std ** ** valeur minimale minimale ** ** 25% Nombre de 14e pièces ** ** 50% Nombre de 4e site (médiane) ** ** 75% Nombre de 3e et 4e parties ** ** valeur maximale maximale **
Statistiques descriptives de la catégorie count ** unique Nombre de données uniques ** ** valeur la plus fréquente supérieure ** ** Nombre de tops de fréquence **
Statistiques descriptives d'horodatage count unique top freq ** première 1ère valeur passée ** ** dernière valeur la plus récente **
En passant, vous pouvez également faire une description statistique des chaînes de caractères
Calcul de statistiques descriptives(Chaîne de caractères uniquement).
print(〇〇.describe(include=['O'])) #Capital O: Le nombre n'est pas zéro!
print(〇〇.describe(include=['object'])) #Pour les lettres minuscules, saisissez correctement l'objet
La forme des statistiques descriptives pour les chaînes de caractères count unique top freq
Il est également possible de sortir toutes les statistiques descriptives avec (include = 'all')
Calcul de statistiques descriptives(Tout).
〇〇.describe(include='all')
Recommended Posts