Je publierai sur les pandas à partir d'aujourd'hui.
Une bibliothèque de bases de données en python.
En particulier Une bibliothèque pour gérer des ensembles de données comme NumPy. NumPy peut traiter les données comme une matrice mathématique et se spécialise dans les calculs scientifiques.
Les pandas, par contre, peuvent effectuer des opérations qui peuvent être effectuées avec des bases de données communes. En plus des valeurs numériques, vous pouvez facilement gérer les données de chaîne de caractères telles que le nom et l'adresse.
Il est possible d'analyser efficacement les données en utilisant correctement NumPy et Pandas.
Il existe deux types de structures de données dans Pandas: Series et DataFrame.
DataFrame Il s'agit d'une structure de données principalement utilisée et représentée par un tableau à deux dimensions. Les données horizontales sont appelées une ligne et les données verticales sont appelées une colonne.
Chaque ligne et chaque colonne est étiquetée L'étiquette de ligne est index Les étiquettes de colonne sont appelées colonnes.
Series Il s'agit d'un tableau unidimensionnel qui peut être considéré comme une ligne ou une colonne dans un DataFrame. Encore une fois, chaque élément est étiqueté.
L'indice est [0, 1, 2, 3, 4]. En outre, les colonnes sont ["Préfecture", "Zone", "Population", "Région"].
La série est des données de type dictionnaire ({clé1: valeur1, clé2: valeur2, ...}) En passant, la clé est triée par ordre croissant.
#Données de série
import pandas as pd
fruits = {"orange": 2, "banana": 3}
print(pd.Series(fruits))
#Résultat de sortie
banana 3
orange 2
dtype: int64
#De même, DataFrame est trié par clé dans l'ordre croissant si les colonnes ne sont pas spécifiées.
#Données dans DataFrame
import pandas as pd
data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
"year": [2001, 2002, 2001, 2008, 2006],
"time": [1, 4, 5, 6, 3]}
df = pd.DataFrame(data)
print(df)
#Résultat de sortie
fruits time year
0 apple 1 2001
1 orange 4 2002
2 banana 5 2001
3 strawberry 6 2008
4 kiwifruit 3 2006
#Pour spécifier l'ordre de tri, utilisez des colonnes comme deuxième argument comme indiqué ci-dessous.=[liste]Est spécifié.
import pandas as pd
df = pd.DataFrame(data, columns=["year", "time", "fruits"])
print(df)
#Résultat de sortie
year time fruits
0 2001 1 apple
1 2002 4 orange
2 2001 5 banana
3 2008 6 strawberry
4 2006 3 kiwifruit
Recommended Posts