Pandas est une bibliothèque qui peut facilement gérer des données tabulaires. Ici, je vais me concentrer sur les points que vous devez savoir au moins sur les Pandas. Il est censé utiliser la série Python3.
Vous pouvez charger la bibliothèque en utilisant ʻimport`. Par convention, il est souvent abrégé en «pd».
Pandas_1.py
import pandas as pd
Series
La série est une donnée de type liste de type dictionnaire.
Pandas_2.py
import pandas as pd
series_olympic = pd.Series({'Tokyo': 2020, 'Rio de Janeiro': 2016, 'Londres': 2012})
print(series_olympic)
Pandas_3.py
import pandas as pd
series_olympic = pd.Series({'Tokyo': 2020, 'Rio de Janeiro': 2016, 'Londres': 2012})
print(series_olympic[0:2])
print(series_olympic.index) #Extrayez uniquement l'index.
print(series_olympic.values) #Extrayez uniquement la valeur.
print(series_olympic[series_olympic % 8 == 0]) #Extrayez uniquement les éléments qui remplissent les conditions.
Pandas_4.py
import pandas as pd
series_olympic = pd.Series({'Tokyo': 2020, 'Rio de Janeiro': 2016, 'Londres': 2012})
series_olympic = series_olympic.append(pd.Series({'Pékin': 2008})) #Ajoutez un nouvel élément.
print(series_olympic)
series_olympic = series_olympic.drop('Tokyo') #Supprimez l'élément.
print(series_olympic)
Pandas_5.py
import pandas as pd
series_olympic = pd.Series({'Tokyo': 2020, 'Rio de Janeiro': 2016, 'Londres': 2012})
print(series_olympic.sort_index()) #Trier par ordre croissant d'index.
print(series_olympic.sort_values()) #Trier par ordre croissant de valeur.
print(series_olympic.sort_values(ascending=False)) #Trier par valeur dans l'ordre décroissant.
DataFrame
DataFrame est une donnée tabulaire qui rejoint Series.
Pandas_6.py
import pandas as pd
series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo'])
series_height = pd.Series([200, 173, 141])
series_weight = pd.Series([100, 72, 40])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight})
print(df_humans)
df_humans.index = ['Ichiro', 'Jiro', 'Saburo'] #Donnez un nom de ligne.
df_humans.columns = ['Nom', 'la taille', 'poids'] #Donnez un nom de colonne.
print(df_humans)
df_humans_empty = pd.DataFrame(columns=['Nom', 'la taille', 'poids']) #Crée un DataFrame vide avec le nom de colonne spécifié.
print(df_humans_empty)
Pandas_7.py
import pandas as pd
series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo', 'Siro'])
series_height = pd.Series([200, 173, 141, 172])
series_weight = pd.Series([100, 72, 40, 72])
series_gender = pd.Series(['Homme', 'Homme', 'femme', 'Homme'])
series_bmi = pd.Series([25, 24, 20, 24.9])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight}, 'gender': series_gender, 'bmi': series_bmi)
df_humans.index = ['Ichiro', 'Jiro', 'Saburo', 'Shiro']
df_humans.columns = ['Nom', 'la taille', 'poids', 'sexe', 'BMI']
print(df_humans['Nom']) # 「Nom」の列を取り出す。
print(df_humans.Nom) # これでも「Nom」の列を取り出せる。
print(df_humans.loc['Ichiro', 'poids']) #Extraire en spécifiant le nom de la ligne et le nom de la colonne.
print(df_humans.loc[['Ichiro', 'Jiro'], ['la taille', 'poids', 'BMI']]) #Vous pouvez également spécifier plusieurs lignes et plusieurs colonnes.
print(df_humans.loc['Jiro']) #Extrait toute la ligne spécifiée.
print(df_humans.loc[:, 'BMI']) #Extrait toute la colonne spécifiée.
print(df_humans.iloc[0, 2]) #Extraire en spécifiant le numéro d'index de ligne et le numéro d'index de colonne.
print(df_humans.iloc[[0, 1], [1, 2, 4]]) #Vous pouvez également spécifier plusieurs lignes et plusieurs colonnes.
print(df_humans.iloc[1]) #Extrait toute la ligne spécifiée.
print(df_humans.iloc[:, 4]) #Extrait toute la colonne spécifiée.
print(df_humans[df_humans['BMI'] >= 25]) #Extrayez uniquement les lignes qui remplissent les conditions.
print(df_humans[(df_humans['la taille'] >= 170) & (df_humans['poids'] >= 70)]) #Conditions multiples(and)Mais c'est possible.
print(df_humans[(df_humans['poids'] < 70) | (df_humans['BMI'] < 25)]) #Conditions multiples(or)Mais c'est possible.
print(df_humans[df_humans['BMI'] < 25]['Nom']) #Il est également possible de spécifier des colonnes en filtrant les lignes qui remplissent les conditions.
Pandas_8.py
import pandas as pd
series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo', 'Siro'])
series_height = pd.Series([200, 173, 141, 172])
series_weight = pd.Series([100, 72, 40, 72])
series_gender = pd.Series(['Homme', 'Homme', 'femme', 'Homme'])
series_bmi = pd.Series([25, 24, 20, 24.9])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight}, 'gender': series_gender, 'bmi': series_bmi)
df_humans.index = ['Ichiro', 'Jiro', 'Saburo', 'Shiro']
df_humans.columns = ['Nom', 'la taille', 'poids', 'sexe', 'BMI']
df_humans = df_humans.sort_values(by='poids') # poidsで昇順にソートする。
print(df_humans)
df_humans = df_humans.sort_values(by='poids', ascending=False) # poidsで降順にソートする。
print(df_humans)
df_humans = df_humans.sort_values(by=['poids', 'BMI']) # poids、BMIで昇順にソートする。
print(df_humans)
Pandas_9.py
import pandas as pd
series_name = pd.Series(['Ichiro', 'Jiro', 'Saburo'])
series_height = pd.Series([200, 173, 141])
series_weight = pd.Series([100, 72, 40])
df_humans = pd.DataFrame({'name': series_name, 'height': series_height, 'weight': series_weight})
df_humans.index = ['Ichiro', 'Jiro', 'Saburo']
df_humans.columns = ['Nom', 'la taille', 'poids']
df_humans['sexe'] = ['Homme', 'Homme', 'femme'] #Ajoutez une colonne.
df_humans['BMI'] = df_humans['poids'] / ((df_humans['la taille'] / 100)** 2) #Il est également possible d'ajouter le résultat calculé entre les colonnes.
print(df_humans)
df_humans.loc['Shiro'] = ['Siro', 170, 72, 'Homme', 24.9] #Ajoutez une ligne.
print(df_humans)
df_humans_2 = df_humans.drop('Saburo') #Supprimez la ligne.
print(df_humans_2)
df_humans_3 = df_humans.drop('sexe', axis=1) #Supprimez la colonne.
print(df_humans_3)
Pandas_10.py
import pandas as pd
df_csv = pd.read_csv('filepath/filename.csv') #Lisez le fichier CSV.
df_text = pd.read_csv('filepath/filename.txt', sep='¥t') #Lisez un fichier texte délimité par des tabulations.
df_excel = pd.read_excel('filepath/filename.xlsx') #Lisez le fichier Excel.
df_csv_2 = pd.read_csv('filepath/filename_2.csv', header=1) #Si la première ligne est vide et que vous souhaitez que la deuxième ligne soit le nom de la colonne.
df_csv_3 = pd.read_csv('filepath/filename_3.csv', header=None) #S'il n'y a pas de nom de colonne.
df_excel_sheet2 = pd.read_excel('filepath/filename.xlsx', sheet_name=1) #Spécifiez le numéro d'index (à partir de 0) de la feuille.
df_excel_sheet2 = pd.read_excel('filepath/filename.xlsx', sheet_name='sheet2') #Spécifiez le nom de la feuille.
df_csv.to_csv('filepath/filename.csv') #Exportez un fichier CSV.
df_text.to_csv('filepath/filename.txt', sep='¥t') #Exportez un fichier texte délimité par des tabulations.
df_excel.to_excel('filepath/filename.xlsx') #Exportez le fichier Excel.
df_csv.to_csv('filepath/filename.csv', index=False) #Si vous n'avez pas besoin du numéro d'index dans la colonne la plus à gauche.
Ici, nous avons présenté les bases de Pandas. Une fois que vous pourrez faire tout cela, vous pourrez lire les fichiers externes, les traiter et les écrire.
Recommended Posts