DataFrame des pandas est bon pour gérer des données structurées! (Je l'ai lu dans un livre de science des données que j'ai parcouru dans une librairie). J'aimerais laisser un mémo comme mémorandum pour les super débutants
Python3.6.10 pandas-1.0.1 Jupyter notebook
Il n'y avait rien de difficile ...
pip install pandas
Puisque les données que je souhaite traiter cette fois-ci sont au format csv, je vais lire le fichier csv. Après quelques recherches, j'ai trouvé que les pandas ont deux structures de données, Series et DataFrame, et il semble que Series correspond à des données unidimensionnelles et DataFrame correspond à des données bidimensionnelles (puisque Series et DataFrame ne sont pas bien compris). J'aimerais pouvoir étudier à nouveau et écrire un autre article)
Pour le moment, j'aimerais lire les données csv comme un DataFrame.
python
import pandas as pd
pd.read_csv('Chemin de données',header = None)
J'ai utilisé read_csv () parce que je voulais lire un fichier csv avec un séparateur de virgule. Si le délimiteur est une tabulation (\ t), read_table () peut être utilisé à la place.
De plus, étant donné que le fichier csv que vous souhaitez lire n'a pas de ligne d'en-tête, None est spécifié pour l'en-tête.
Les données réellement lues étaient affichées sur le jupyter comme indiqué dans la figure ci-dessous ↓
Formatez les données lues comme suit ・ La 0ème colonne n'est pas nécessaire, supprimez-la. ・ Définissez la première colonne comme index (colonne d'en-tête)
Coupez uniquement la 0ème colonne de la tranche.
Dans Series et DataFrame, vous pouvez spécifier une chaîne de caractères dans l'index ou vous pouvez spécifier une valeur numérique (arbitraire). En particulier, pour éviter toute confusion lors de la spécification d'une valeur numérique pour l'index, accédez aux données à l'aide d'attributs d'index tels que iloc et loc.
Cette fois (pour le moment), l'index DataFrame correspond à l'index de style Python dans les lignes et les colonnes, vous pouvez donc obtenir le même résultat avec iloc ou loc. La 0ème ligne des données a été coupée comme suit (seules la 1ère ligne et les suivantes ont été extraites)
python
#Charger csv
df = pd.read_csv('Data/test231.csv',header = None)
#Tranche
df.iloc[:,1:]
Sortie réelle ↓
Par rapport à l'image précédente, le nombre de colonnes est passé de 170 à 169, et il peut être confirmé que seule la première colonne est réduite.
Dans pandas DataFrame, il semble que les en-têtes de ligne sont appelés index et les en-têtes de colonne sont appelés colonnes.
En procédant comme suit, la colonne nommée «1» dans la figure ci-dessus pourrait être spécifiée pour l'index.
python
#Tranche
sliced_df = df.iloc[:,1:]
#nom est"1"Spécifiez la colonne de
sliced_df.set_index(1)
J'ai pu exécuter comme ci-dessous
Ensuite, je voudrais faire un article comme mémorandum de changement du nom de columnn et de traitement de ce tableau comme des données hiérarchiques.
Recommended Posts