Collection de conseils Numpy, Pandas souvent utilisés sur le terrain

import numpy as np
import pandas as pd
import sys
# encoding
print(sys.getdefaultencoding())

L'acquisition des données

# numpy
x = np.array([[1,2,3],[4,5,6]],dtype=np.float64)
#Lire le texte
y = np.loadtxt('text1',delimiter=',',skiprows=0,comments='#')

tranche

pandas.DataFrame
df=pd.read_csv('stock.csv',encoding='Shift_jis',names=('index','dekidaka','owarine'))
df.head() #5 premières lignes
pd.DataFrame({'a':[1,2,3],'b':[4,5,6]}) 
df.loc[:,['index','owaine']]
df.loc[100:115,['index','dekidaka']]
df.iloc[1:22,1:3] # 1 ~ 3 index,dekidaka,owarine
df.iloc[:,[0,2]] # 0 and 2 index,owarine
df.iloc[::2]  #Même
df.iloc[1::2]  #Impair
df['index'] < '1900' # False or True
df[(df['index'] == '1900')] # 171.0  1883,     49800     261

Gestion de données

#fusionner
samp1 = pd.read_csv('sample1.csv',encoding='Shift_jis')
samp2 = pd.read_csv('sample2.csv',encoding='Shift_jis')
samp3 = pd.read_csv('sample3.csv',encoding='Shift_jis')
# concat(Connexion verticale)
conc=pd.concat([samp1,samp2],ignore_index=True)
# merge(Connexion horizontale)
merg=pd.merge(conc,samp3[["label1","label2"]],on="label1",how="left") # 
#Extraction de données
merg["label2_y"] # only label2_y 1000 ~ 1003
merg[["label2_x","label2_y"]].iloc[:,0:2] # 
####################
#Statistiques récapitulatives
merg["label1"].iloc[1:5].describe()
#Une addition
merg["label1"] + merg["label2_y"] #Une addition
#total
merg["label1"].sum()
#Valeur manquante
merg.isnull()
#Information manquante
merg.isnull().sum()
#Valeur maximum+valeur minimum
print(merg.max() + merg.min())
#Confirmation du type de données
merg.dtype
#Conversion de type float64 ⇒ numérique
merg["label1"]=pd.to_numeric(merg["label1"])
# float64 ⇒ datetime 
merg["label1"].dt.strftime("%Y%m")
# grouping
merg.groupby(["label1"]).sum()["label2_y"]

Correction des données

#Numéro unique
print(len(pd.unique(merg.label3))) #18 pièces, le simple fait d'avoir un espace à l'extrémité gauche est considéré comme différent
#Aligner les minuscules sur les majuscules
merg["label3"]=merg["label3"].str.upper() 
print(len(pd.unique(merg.label3))) #17
merg["label3"]=merg["label3"].str.replace(" ","") 
print(len(pd.unique(merg.label3))) #16
#Trier
merg.sort_values(by=["label1"],ascending=True)

Recommended Posts

Collection de conseils Numpy, Pandas souvent utilisés sur le terrain
Python scikit-learn Une collection de conseils de modèles prédictifs souvent utilisés sur le terrain
Python scikit-learn Une collection de conseils de modèles prédictifs souvent utilisés sur le terrain
Une collection de code souvent utilisée dans Python personnel
Résumé des méthodes fréquemment utilisées chez les pandas
Un minuteur (ticker) qui peut être utilisé sur le terrain (peut être utilisé n'importe où)
Notes personnelles des opérations liées aux pandas qui peuvent être utilisées dans la pratique
Une collection de commandes fréquemment utilisées dans la gestion des serveurs
Goroutine (contrôle parallèle) utilisable sur le terrain
J'ai essayé de résumer le code souvent utilisé dans Pandas
Goroutine utilisable sur le terrain (édition errgroup.Group)
[Django] Une collection de scripts pratiques pour le développement
Une collection de méthodes utilisées lors de l'agrégation de données avec des pandas
Résumé de la grammaire fréquemment utilisée dans les pandas
pandas Récupère le nom d'une colonne contenant un caractère spécifique
Une fonction qui mesure le temps de traitement d'une méthode en python
Importez un module souvent utilisé lors du démarrage de l'interpréteur python
J'ai essayé de résumer les méthodes qui sont souvent utilisées lors de l'implémentation d'algo de base dans Quantx Factory
J'ai fait une erreur en récupérant la hiérarchie avec MultiIndex of pandas
Traitement des mémos souvent utilisés dans les pandas (débutants)
[Note complète] Une collection de codes que j'utilise souvent mais dont je ne me souviens pas
Parlez des fonctionnalités dont les pandas et moi étions en charge dans le projet
Trouvez l'index des éléments qui correspondent aux conditions dans la trame / série de données pandas
Créez un BOT qui affiche le nombre de personnes infectées dans le nouveau Corona
Un mémorandum de méthode souvent utilisé lors de l'analyse de données avec des pandas (pour les débutants)
Un mémorandum de méthode souvent utilisé dans l'apprentissage automatique utilisant scikit-learn (pour les débutants)
Récupérer l'appelant d'une fonction en Python
Résumé de ce qui a été utilisé dans 100 coups de Pandas (# 1 ~ # 32)
Copiez la liste en Python
Trouvez le nombre de jours dans un mois
Correction des arguments de la fonction utilisée dans map
Sortie sous la forme d'un tableau python
À propos du fait que le contenu de l'impression Python n'est pas visible dans les journaux du docker
[Python] Un programme qui trouve le nombre d'étapes le plus court dans un jeu qui traverse les nuages
Une note qui implémente une tâche en Python qui charge un fichier GCS dans BigQuery
Une solution au problème que les fichiers contenant [et] ne sont pas répertoriés dans glob.glob ()
Une histoire qui réduit l'effort de fonctionnement / maintenance
[Python] Un programme qui compte le nombre de vallées
Utilisé depuis l'introduction de Node.js dans l'environnement WSL
Créez un BOT qui raccourcit l'URL Discord
Prenez note de la liste des utilisations de base de Pandas
#Une fonction qui renvoie le code de caractère d'une chaîne de caractères
Programme Shell qui devient aho par multiples de 3
Générer cette forme du fond d'une bouteille pour animaux de compagnie
Super simple: une collection de shells qui produisent des dates
Une histoire qui a analysé la livraison de Nico Nama.
Un mémorandum sur la mise en œuvre des recommandations en Python
[Python] Un programme qui compare les positions des kangourous.
Un serveur qui renvoie le nombre de personnes devant la caméra avec bottle.py et OpenCV
Créer une matrice avec numpy uniquement pour les colonnes dont la valeur totale des éléments des colonnes de la matrice est le X supérieur
Peut être utilisé avec AtCoder! Une collection de techniques pour dessiner du code court en Python!
[Python] Programmation pour trouver le nombre de a dans une chaîne de caractères qui se répète un nombre spécifié de fois.
[Note] Un script shell qui vérifie l'utilisation du processeur d'un processus spécifique dans une boucle while.
[Django] Noms de champs pouvant être utilisés pour le modèle utilisateur, l'enregistrement des utilisateurs et les méthodes de connexion
L'ingénierie financière a vérifié l'affirmation selon laquelle «les fiducies de placement à effet de levier sont désavantageuses dans un marché volatil»
Un outil qui transforme automatiquement le gacha de Soshage
Remarque sur le comportement par défaut de collate_fn dans PyTorch