Résumé pour moi Mis à jour de temps en temps Décrivez la commande que vous avez utilisée et étudiée ** J'ai juste besoin de me connaître, donc les termes peuvent être erronés à certains endroits **
!! Vue
#commander
#Description de l'option d'argument
import pandas
Series
#Objet de données unidimensionnel
#Disposer à mon image
ser = pandas.Series()
DataFrame
#Objet de données bidimensionnel
#Mon image est similaire à une table DB
df = pandas.DataFrame()
#x,y,...Trier par ordre de
df.sort_values(x,y,...)
#Suppression de l'index d'argument.
df.drop(x)
axis = 1 #Supprimer la colonne
#Combiner des trames de données
df.merge(x,y,on=z) #joindre les tables x et y avec la colonne z comme clé
suffixes=() #Suffixe à ajouter lorsqu'il y a des éléments en double Séparé par des virgules, le premier est le suffixe gauche df et le second est le suffixe droit.
#Permuter les lignes et les colonnes
df.transpose()
df.concat([x,y,z,...])
#Liste des dfs que vous souhaitez combiner en une liste d'arguments
#Valeur maximum
df.max()
#valeur minimum
df.min()
#Extraire des informations pour chaque élément du bloc de données
df.info()
#Aucun argument spécial n'est requis
#Extraire par numéro de ligne / numéro de colonne
df.iloc[ligne,Colonne] #Argument:Et tout
#Extraire par nom de ligne / nom de colonne
df.loc[ligne,Colonne] #Argument:Et tout
#WHERE IN dans SQL
df.isin()
#Les arguments sont des listes, etc.
#Renvoie l'enregistrement de l'argument depuis le début
df.head()
#Obtenir la valeur médiane
df.median()
#Remplacer Nan
df.filna()
#Obtenez des statistiques récapitulatives
df.describe()
#Renvoie les statistiques suivantes dans DataFrame pour toutes les colonnes numériques
#count:Nombre d'éléments
#unique:Nombre d'éléments de valeur uniques (uniques)
#top:Valeur la plus fréquente (mode)
#freq:Fréquence des valeurs les plus fréquentes (nombre d'occurrences)
#mean:Moyenne arithmétique
#std:écart-type
#min:valeur minimum
#max:Valeur maximum
#50%:Médian
#25%: 1/4 minutes
#75%: 3/4 minutes
Groupby
#groupby
group = df.groupby()
as_index=False #Si False, la valeur de référence de l'agrégation ne sera pas un indice
how = left,right,outer
#Nom de l'élément dans l'argument
#nombre
group.size()
#Regrouper des éléments spécifiques de différentes manières
df.agg({'Éléments à agréger':['Liste des méthodes d'agrégation']
#Lisez csv. C'est lors de la lecture de données dont le délimiteur est une virgule
df.read_csv()
encoding: #Spécifiez le code de caractère
header= #Définir la ligne du nom de la colonne
name= #Définir le nom de la colonne
dtype= #Spécifiez le type de données avec le type de dictionnaire
sep= #Spécifier un délimiteur
engine=
usecols = #Spécifiez la colonne à lire dans la liste.
#Lire le tableau. C'est à ce moment que le délimiteur lit les données de l'onglet
df.read_table()
encoding: #Spécifiez le code de caractère
header= #Définir la ligne du nom de la colonne
name= #Définir le nom de la colonne
#Faites lire la base de données
df.read_sql()
#Le premier argument est SQL
#Le deuxième argument est l'objet de connexion
df.to_csv()
encoding= #Code de caractère
index= #Index de sortie ensemble ou True par défaut
#Remplacer le nom de la colonne
df.columns = [list]
df.rename(columns={Nom de la colonne actuelle:Nouveau nom de colonne})
#Écraser l'index
df.index = [list]
#Changement de nom de colonne / nom d'index
df.rename({Nom actuel: Nouveau nom})
axis=1 #Modifiez le nom de la colonne. S'il n'est pas spécifié, ce sera le nom de la ligne.
#Réindexer
df.reset_index()
drop=True #Supprimer l'index existant
#Insérer une ligne
df.[Nom de colonne] = x
#Remplacer
df.replace({Caractère actuel:Nouveau personnage}) #L'argument est de type dictionnaire{Personnage à remplacer:Caractère remplacé}
#Insérez l'argument comme nouvelle ligne, la ligne à insérer est une liste, Series, numpy.array
df.append()
#Ajouter une colonne
df.assign()
#Appliquer la fonction à chaque colonne / ligne
df.apply()
axis=1 #Ligne par ligne
axis=0 #Par colonne
#Fonctionne comme un argument. Le style Lambda est bien.
#Extrayez le DataFrame ligne par ligne et appliquez-le à pour.
for index,row in df.iterrows()
#La valeur de retour est l'index et les autres éléments de ligne
Cet article est très simple à comprendre. ↓ Comité d'éradication des affectations réciproques pour le traitement des données Python / pandas
#graphique à barres
df.plot.bar()
#Distinguer Nan
df.isnull()
#Supprimer Nan
df.dropna()
axis=1 #Supprimer la colonne.
#Remplacer nan
df.fillna()
#Rechercher des lignes en double
#La valeur de retour est True si elle chevauche l'index, sinon la colonne False
df.dupulicated()
keep = False #Si n'est pas spécifié, il ne peut pas être récupéré en tant que doublon.
#Supprimer complètement les lignes en double
df.drop_duplicates()
#Parcelle de paires
grr = pd.scatter_matrix(df)
#df est les données à tracer
c= #Valeur à l'échelle
figsize=(x,y) #Taille de la figure
marker= #Forme du marqueur
hist_kwds={} #Paramètres d'histogramme
s= #Taille du marqueur
alpha= #Transparence
Recommended Posts