Le prétraitement des données est indispensable pour l'analyse statistique. Tout d'abord, les données sont lues de manière à pouvoir être traitées par un ordinateur, mais le retournement est souvent un problème dans le processus de calcul qui gère des données volumineuses. Il y a plusieurs étapes à suivre dans de tels cas.
Cela faisait longtemps qu'on ne l'appelait pas de big data, mais en réalité il n'est pas nécessaire d'augmenter la taille de l'échantillon. Extrayons un échantillon significatif par Méthode d'échantillonnage.
Les E / S sont le goulot d'étranglement de nombreux processus de données centralisés. À ce stade, il est préférable d'envisager de lire uniquement les données nécessaires ou de diviser les données d'origine de manière appropriée pour réduire la taille d'entrée elle-même.
Le découpage est facile lorsque vous travaillez avec des données dans des pandas.
#Extraire des données jusqu'à 30 ans
data_y = data[:"30"]
#Extraire les données de plus de 31 ans
data_o = data["31":]
Vous pouvez également Fusionner les ensembles de données découpé de cette manière.
Voici un exemple d'utilisation de la moyenne de la période pour agréger les données mensuelles en données trimestrielles.
data.resample('Q',how="mean")
"somme", "moyenne", "médiane", "max", "min", "dernier", "premier" sont disponibles pour savoir comment.
L'ensemble de données n'est pas toujours bien organisé. pandas ajoute divers idiomes cultivés par des personnes sur le terrain pour gérer les valeurs manquantes.
data.fillna(0)
Dans l'exemple ci-dessus, la valeur manquante est remplacée par 0. Si vous utilisez data.fillna (data.mean ()) etc., il sera rempli avec la valeur moyenne.
Spécifiez method = "ffill" pour remplir avec la valeur immédiatement suivante.
data.fillna(method='ffill')
En outre, les valeurs avant et après la valeur manquante Interpolation linéaire C'est facile à faire.
data.interpolate()
Vous supprimerez souvent les données contenant des valeurs manquantes. Retirez comme suit.
data.dropna(axis=0) #Axe de ligne=0 ou axe des colonnes=1
Ajoutez une nouvelle colonne appelée data ['New'].
data['New']=rand(data.shape[0])
Cette fois également, ajoutez une ligne. Vous pouvez l'ajouter en spécifiant un bloc de données dans la fonction .append ().
data = data.append(pd.dataFrame([1,2,3,4,5],columns=["A","B","C","D","E"],index=data[-1:].index+1))
Vous pouvez l'écraser en transmettant les données que vous souhaitez remplacer à data.iloc. Puisque data.shape représente le nombre de matrices dans la trame de données, il peut être écrasé par des nombres aléatoires en générant et en substituant des nombres aléatoires à ce nombre de matrices.
#Écraser la première ligne avec un nombre aléatoire
data.iloc[0]=rand(data.shape[1])
#Écraser la première colonne avec un nombre aléatoire
data.iloc[:,0]=rand(data.shape[0])
Pour trier les données, transmettez une liste de noms de colonnes à la fonction .sort (). Dans l'exemple suivant, la première colonne est priorisée et les colonnes jusqu'à la deuxième colonne sont triées par ordre croissant. Le résultat est renvoyé au récepteur.
data.sort(columns=list(data.columns[0:2]),ascending=True)
Voici un résumé des processus utiles lors du traitement des ensembles de données à l'aide de pandas.
Recommended Posts