Traitement des ensembles de données avec des pandas (1)

Extraction d'échantillons de données

Le prétraitement des données est indispensable pour l'analyse statistique. Tout d'abord, les données sont lues de manière à pouvoir être traitées par un ordinateur, mais le retournement est souvent un problème dans le processus de calcul qui gère des données volumineuses. Il y a plusieurs étapes à suivre dans de tels cas.

Réduisez la taille des données
Identifier les goulots d'étranglement et réduire la quantité de calcul
Améliorer les performances de l'ordinateur

Cela faisait longtemps qu'on ne l'appelait pas de big data, mais en réalité il n'est pas nécessaire d'augmenter la taille de l'échantillon. Extrayons un échantillon significatif par Méthode d'échantillonnage.

Les E / S sont le goulot d'étranglement de nombreux processus de données centralisés. À ce stade, il est préférable d'envisager de lire uniquement les données nécessaires ou de diviser les données d'origine de manière appropriée pour réduire la taille d'entrée elle-même.

Découper et agréger des exemples de données

Tranchage

Le découpage est facile lorsque vous travaillez avec des données dans des pandas.

#Extraire des données jusqu'à 30 ans
data_y = data[:"30"]
#Extraire les données de plus de 31 ans
data_o = data["31":]

Vous pouvez également Fusionner les ensembles de données découpé de cette manière.

Agrégat

Voici un exemple d'utilisation de la moyenne de la période pour agréger les données mensuelles en données trimestrielles.

data.resample('Q',how="mean")

"somme", "moyenne", "médiane", "max", "min", "dernier", "premier" sont disponibles pour savoir comment.

Traitement des valeurs manquantes

L'ensemble de données n'est pas toujours bien organisé. pandas ajoute divers idiomes cultivés par des personnes sur le terrain pour gérer les valeurs manquantes.

Remplissez les trous

data.fillna(0)

Dans l'exemple ci-dessus, la valeur manquante est remplacée par 0. Si vous utilisez data.fillna (data.mean ()) etc., il sera rempli avec la valeur moyenne.

Spécifiez method = "ffill" pour remplir avec la valeur immédiatement suivante.

data.fillna(method='ffill')

En outre, les valeurs avant et après la valeur manquante Interpolation linéaire C'est facile à faire.

data.interpolate()

Vous supprimerez souvent les données contenant des valeurs manquantes. Retirez comme suit.

data.dropna(axis=0) #Axe de ligne=0 ou axe des colonnes=1

Ajouter et remplacer des données

Ajoutez une nouvelle colonne appelée data ['New'].

data['New']=rand(data.shape[0])

Cette fois également, ajoutez une ligne. Vous pouvez l'ajouter en spécifiant un bloc de données dans la fonction .append ().

data = data.append(pd.dataFrame([1,2,3,4,5],columns=["A","B","C","D","E"],index=data[-1:].index+1))

Vous pouvez l'écraser en transmettant les données que vous souhaitez remplacer à data.iloc. Puisque data.shape représente le nombre de matrices dans la trame de données, il peut être écrasé par des nombres aléatoires en générant et en substituant des nombres aléatoires à ce nombre de matrices.

#Écraser la première ligne avec un nombre aléatoire
data.iloc[0]=rand(data.shape[1])
#Écraser la première colonne avec un nombre aléatoire
data.iloc[:,0]=rand(data.shape[0])

Pour trier les données, transmettez une liste de noms de colonnes à la fonction .sort (). Dans l'exemple suivant, la première colonne est priorisée et les colonnes jusqu'à la deuxième colonne sont triées par ordre croissant. Le résultat est renvoyé au récepteur.

data.sort(columns=list(data.columns[0:2]),ascending=True)

Résumé

Voici un résumé des processus utiles lors du traitement des ensembles de données à l'aide de pandas.