Obtenir des statistiques, etc. à partir de l'échantillon extrait

Auparavant, j'ai fait Récit d'échantillonnage à 100% de la population avec Hadoop. S'il y a peu d'informations préalables sur les données et que vous souhaitez les analyser en tâtonnant, vous analyserez d'abord l'échantillon extrait ad hoc sous différents angles pour saisir les caractéristiques et les tendances des données.

Exploitez pleinement les fonctions des pandas

Échantillonnage et pandas par Hadoop ) Est parfaitement compatible. La combinaison pandas + matplotlib est analysée à l'aide de deux structures de données, Series et DataFrame, comme précédemment présenté. Vous pouvez visualiser le résultat.

Chargement des échantillons extraits avec Hadoop

La sortie Hadoop a une structure de données standard délimitée par des tabulations, elle peut donc être lue telle quelle en utilisant la fonction pd.read_table ().

import pandas as pd
df = pd.read_table('hadoop-out.txt')
df.describe() #Trouver plusieurs statistiques récapitulatives

#=> count              38156219 #Nombre total d'individus
#   unique              6536847 #Population unique
#   top      0024D69XXXXX,Area9 #1er indice

Vous pouvez également forcer la conversion d'un objet dictionnaire en bloc de données des manières suivantes:

df = pd.DataFrame(list(self.dic.values()), index=list(self.dic.keys()))

En premier lieu, les données sont généralement structurées au moment où elles sont traitées par Hadoop en utilisant Fluentd etc., elles sont donc compatibles avec les pandas qui gèrent des données structurées. La bonne chose est que cela a du sens.

Fonctions pratiques pour les séries et les trames de données

La fonction value_counts () est utile pour agréger davantage les résultats tels que le nombre de mots. Trouvez la fréquence d'observation de la valeur à partir d'une structure de données unidimensionnelle telle qu'une série, un tableau ou une séquence.

Pandas fournit également une fonction fillna () qui remplit les valeurs manquantes, ce qui vous permet de combler les trous dans le processus d'extraction avec une certaine valeur.

argument La description
value Valeur scalaire pour remplir les espaces.(Les dictionnaires sont également acceptables)
axis 0 pour les lignes, 1 pour les colonnes
limit Nombre maximum de remplissages consécutifs
method Spécifiez lors du remplissage des trous avec la valeur moyenne ou la valeur médiane

La fonction duplicated () dans le bloc de données renvoie une série. Cela peut être utilisé pour vérifier les doublons car il renvoie True si la valeur est déjà apparue dans cette trame de données.

La fonction replace () remplace la valeur. Par exemple, pour considérer 99999 comme une valeur manquante et la remplacer par NaN:

series.replace('99999', np.nan)

Il est également facile de supprimer ou d'arrondir des valeurs autres que la valeur de référence.

#La valeur absolue dépasse 3(-Autre qu'entre 3 et 3)Valeur à NaN
data[np.abs(data) > 3] = np.nan

Résumé

L'utilisation des fonctions pandas peut vous aider à affiner les cibles à analyser à partir des échantillons extraits. Les pandas compatibles avec Hadoop sont essentiels pour la rapidité d'exécution du cycle d'analyse PDCA.

Recommended Posts

Obtenir des statistiques, etc. à partir de l'échantillon extrait
Statistiques mathématiques des bases Variables probabilistes
Texte extrait de l'image
Obtenir les informations de séquence de la protéine traduite à partir des informations de mutation de CDS