introduction

DataFrame des pandas est bon pour gérer des données structurées! (Je l'ai lu dans un livre de science des données que j'ai parcouru dans une librairie). J'aimerais laisser un mémo comme mémorandum pour les super débutants

environnement

Python3.6.10 pandas-1.0.1 Jupyter notebook

Première installation

Il n'y avait rien de difficile ...

pip install pandas

Lire le fichier csv

Puisque les données que je souhaite traiter cette fois-ci sont au format csv, je vais lire le fichier csv. Après quelques recherches, j'ai trouvé que les pandas ont deux structures de données, Series et DataFrame, et il semble que Series correspond à des données unidimensionnelles et DataFrame correspond à des données bidimensionnelles (puisque Series et DataFrame ne sont pas bien compris). J'aimerais pouvoir étudier à nouveau et écrire un autre article)

Pour le moment, j'aimerais lire les données csv comme un DataFrame.

`python`


import pandas as pd
pd.read_csv('Chemin de données',header = None)

J'ai utilisé read_csv () parce que je voulais lire un fichier csv avec un séparateur de virgule. Si le délimiteur est une tabulation (\ t), read_table () peut être utilisé à la place.

De plus, étant donné que le fichier csv que vous souhaitez lire n'a pas de ligne d'en-tête, None est spécifié pour l'en-tête.

Les données réellement lues étaient affichées sur le jupyter comme indiqué dans la figure ci-dessous ↓ スクリーンショット 2020-02-27 13.34.31.png

Mise en forme des données

Formatez les données lues comme suit ・ La 0ème colonne n'est pas nécessaire, supprimez-la. ・ Définissez la première colonne comme index (colonne d'en-tête)

34.31.png

Supprimer la colonne

Coupez uniquement la 0ème colonne de la tranche.

Dans Series et DataFrame, vous pouvez spécifier une chaîne de caractères dans l'index ou vous pouvez spécifier une valeur numérique (arbitraire). En particulier, pour éviter toute confusion lors de la spécification d'une valeur numérique pour l'index, accédez aux données à l'aide d'attributs d'index tels que iloc et loc. スクリーンショット 2020-02-27 14.31.55.png

Cette fois (pour le moment), l'index DataFrame correspond à l'index de style Python dans les lignes et les colonnes, vous pouvez donc obtenir le même résultat avec iloc ou loc. La 0ème ligne des données a été coupée comme suit (seules la 1ère ligne et les suivantes ont été extraites)

`python`


#Charger csv
df = pd.read_csv('Data/test231.csv',header = None)
#Tranche
df.iloc[:,1:]

Sortie réelle ↓ Capture d'écran 2020-02-27 14.36.46.png

Par rapport à l'image précédente, le nombre de colonnes est passé de 170 à 169, et il peut être confirmé que seule la première colonne est réduite.

Faire de la première colonne un index

Dans pandas DataFrame, il semble que les en-têtes de ligne sont appelés index et les en-têtes de colonne sont appelés colonnes. 6.46.png

En procédant comme suit, la colonne nommée «1» dans la figure ci-dessus pourrait être spécifiée pour l'index.

`python`



#Tranche
sliced_df = df.iloc[:,1:]
#nom est"1"Spécifiez la colonne de
sliced_df.set_index(1)

J'ai pu exécuter comme ci-dessous

en conclusion

Ensuite, je voudrais faire un article comme mémorandum de changement du nom de columnn et de traitement de ce tableau comme des données hiérarchiques.

Chargez CSV avec des pandas et jouez avec Index

introduction

environnement

Première installation

Lire le fichier csv

python

Mise en forme des données

Supprimer la colonne

python

Faire de la première colonne un index

python

en conclusion

`python`

`python`

`python`