Résumé de base des pandas
À propos de Series et DataFrame
Series
Qu'est-ce qu'une série? Une liste de valeurs unidimensionnelles
Lorsqu'un objet de type dict est placé dans Series, la clé est exprimée sous forme d'index.
data = {
"Name":"Jhon",
"Sex":"male",
"AGe":22
}
pd.Series(data)
>
Name Jhon
Sex male
AGe 22
dtype: object
Créer une série à partir du tableau Numpy
array = np.array([22,31,42,23])
age_series = pd.Series(array)
age_series
Spécifiez l'index dans le tableau et appelez par index
array = np.array(['John','male',22])
john_series = pd.Series(array,index = ['Name','Sex','Age'])
john_seiies["Name"]
>John
john_seiries
>
Name John
Sex male
Age 22
dtype: object
Obtenez le tableau Numpy d'origine
age_series.values.values
>array([22, 31, 42, 23])
DataFrame
En tant qu'image, la matrice elle-même est traitée comme un tableau (série de lignes, série de colonnes) et la combinaison est comme un DataFrame.
Dans la figure ci-dessus, seule la colonne Série, Gère également les séries en rangées
Créé à partir du tableau Numpy
ndarray = np.arange(10).reshape(2,5)
ndarray
>
array([[0, 1, 2, 3, 4],
[5, 6, 7, 8, 9]])
pd.DataFrame(ndarray,index = ["index1",'index2'] ,columns = ['a','b','c','d','e' ])
>
| a | b | c | d | e |
| index1 | 0 | 1 | 2 | 3 | 4 |
| index2 | 5 | 6 | 7 | 8 | 9 |
Flux de base 1 Lire avec read_csv 2 Analyser les informations de données de base
df = pd.read_csv("dataset/tmdb_5000_movies.csv")
# len()Vérifiez le nombre de données avec
len(df)
Lorsque vous souhaitez afficher la liste sans l'omettre
#Supprimer les restrictions de colomu
pd.set_option('display.max_columns',None)
#Éliminez les restrictions sur les lignes (chaque donnée) (* Notez que ce sera lourd)
pd.set_option('display.max_rows',None)
df.describe()
type(df) #se décrire peut être traité comme un DataFrame
Retourné en série
df["Nom de colonne"]○ Recommandé
df.Nom de la colonne ▲ Non recommandé
Renvoyé par DataFrame
df[["revenue"]]
# Colum peut être sélectionné plusieurs fois
df[["revenue","original_title","budget"]]
#Spécifiez l'index d'une ligne spécifique et récupérez-le
df.iloc[10:13]
#Spécifiez l'index d'une ligne spécifique et récupérez la colonne spécifiée
df.iloc[10:13]["original_title"]
Supprimer la ligne / colonne
drop() #Le dataframe d'origine reste inchangé
Modifiez le DataFrame d'origine avec inplace = True
<Supprimer des lignes spécifiques à la fois axe=0 (* spécifié par défaut)>
df.drop('id', (axis = 0) ,(inplace = True))
<Supprimer l'axe de colonne spécifié= 1>
df.drop('id', axis = 1,(inplace = True))
df = df.drop(5) #Une méthode pour mettre à jour les données d'origine, qui est plus importante que sur place! Utilisez les mêmes variables
dropna()Supprimer toutes les valeurs manquantes
np.isnan()Déterminez s'il y a nan (valeur manquante)
fillna()Remplissez les valeurs manquantes
>fillna(df["runtime"].mean())
Filter
Comment filtrer
#Exemple) Je souhaite spécifier uniquement les films japonais
j_movie = df[df['original_language'] == 'ja'] #Cette façon d'écrire est fondamentalement souvent utilisée
()&()Ou()|()Entrez plusieurs conditions avec
#Exemple) Je souhaite spécifier uniquement les films japonais avec une note de 8 ou plus.
j_movie = df[(df['original_language'] == 'ja') & (df["vote_average"] >= 8 ) ]
df[ (df['budget'] == 0 ) | (df['revenue'] == 0 ) ]
→ Filtre: "Pas de budget ni de ventes"
df[ ~ ((df['budget'] == 0 ) | (df['revenue'] == 0 )) ]
Filtre: "Le budget ou les ventes ne sont pas 0" (PAS de calcul ~)
Argumenter comment les options
df1 = pd.DataFrame({'key':["k0","k1","k2"],
'A':["a0","a1","a2"],
'B':["b0","b1","b2"]})
df2 = pd.DataFrame({'key':["k0","k1","k2"],
'C':["c0","c1","c2"],
'D':["d0","d1","d2"]})
Recommended Posts