Dans cet article Comment lire un fichier Excel (.xlsx) avec Pandas J'écrirai un article sur.
À partir de là, nous continuerons d'utiliser le laboratoire jupyter. Si vous ne l'avez pas encore téléchargé, veuillez commencer à partir de là.
Tout d'abord, importez des pandas.
import pandas as pd
Ensuite, lit le fichier Excel. Excel est similaire à la lecture d'un fichier CSV. Consultez l'article ci-dessous pour les fichiers CSV. Comment lire des fichiers CSV avec Pandas --Qiita
df = pd.read_excel('excel/data.xlsx')
df
J'ai lu un fichier appelé data.xlsx dans un dossier appelé excel.
Dans Excel, la ligne supérieure peut être vide. Par exemple, si les deux premières lignes sont vides, le nom des colonnes sera «sans nom» et la première ligne sera «NaN». Alors, passons 2 à l'argument "skiprows", sautons les deux premières lignes et lisons à partir de la troisième ligne.
df = pd.read_excel('excel/data.xlsx', skiprows = 2)
En changeant l'argument de skiprows, vous pouvez lire à partir de votre ligne préférée.
Vous pouvez également spécifier explicitement l'en-tête si vous avez un nom de colonne. Par exemple, lorsque vous spécifiez la troisième ligne comme nom de colonne,
df = pd.read_excel('excel/data.xlsx', skiprows = 2, header = [2])
ça ira. Il convient de noter ici que lorsque vous spécifiez la troisième ligne, n'écrivez pas «[3]». Le tableau de programmation commence par «0», donc lorsque vous spécifiez la troisième ligne, écrivez «[2]».
Au fait, la valeur initiale de l'en-tête est 0, donc si vous n'écrivez rien, la première ligne sera le nom des colonnes.
Vous pouvez également donner deux en-têtes. Passez-le au format liste comme argument, tel que [1,2].
df = pd.read_excel('excel/data.xlsx', skiprows = 2, header = [1,2])
Pour les fichiers sans en-tête, si vous donnez None à l'en-tête, le nom des colonnes sera automatiquement numéroté.
df = pd.read_excel('excel/data02.xlsx', header = None)
** Spécifiez l'index ** Vous pouvez également spécifier un index. Donnez à index_col le numéro de la colonne que vous souhaitez spécifier. Lors de la spécification de la première colonne comme index,
df = pd.read_excel('excel/data02.xlsx', index_col = 0)
Vous pouvez maintenant spécifier la première colonne comme index. Encore une fois, n'oubliez pas que le tableau commence à 0.
index_col peut également être spécifié par le nom de la colonne au lieu du numéro de colonne. Par exemple, si vous souhaitez spécifier une colonne appelée "date" pour l'index,
df = pd.read_excel('excel/data02.xlsx', index_col = 'Date')
ça ira.
Au fait, tel quel, le type de données est lu comme index, mais pour le lire comme date,
df = pd.read_excel('excel/data02.xlsx', index_col = 'Date', parse_dates = True)
Ensuite, vous pouvez le lire comme une date. Si vous vérifiez le type de données, ce sera «DatatimeIndex».
Cette fois, Comment lire un fichier Excel (.xlsx) avec Pandas J'ai écrit un article sur.
Il y a beaucoup de choses que je ne comprends pas, mais je pense avoir réussi à les comprendre dans une certaine mesure.
Je pense qu'il sera nécessaire d'automatiser Excel à l'avenir, je voudrais donc m'en souvenir.
Merci beaucoup.
Cet article a été écrit par un débutant en programmation et peut être incorrect. Merci de votre compréhension. De plus, si vous remarquez des erreurs, nous vous serions reconnaissants de bien vouloir les signaler. Merci.
Recommended Posts