Points à noter lorsque les pandas lisent le csv de la sortie Excel

Si vous voulez que python le lise, je voudrais que le format de caractère soit utf-8, Puisqu'il existe diverses raisons du côté de la sortie de données, il existe de nombreux cas où le côté récepteur doit convertir et lire.

La sortie csv dans l'environnement Windows et Excel est shift JIS. .. .. Alors, avec les pandas,

import pandas as pd
dataset1 = pd.read_csv("hogehoge.csv",encoding="shift_jis")

Si vous le faites, vous ne pourrez peut-être pas le lire correctement si vous faites attention car vous pensez que c'est OK.

`test.csv`


Yamada,1000
Sato,2000
Yamamoto,3000

Je peux lire ça,

`test2.csv`


1,Yamada,1000
2,Takahashi,2000
3,Noir 﨑,3000

J'obtiens l'erreur suivante sans exception. .. ..

UnicodeDecodeError: 'shift_jis' codec can't decode byte 0xfb in position 0: illegal multibyte sequence

C'est dans test2.csv, ・ Hashigodaka "** Taka " ・ Tachisaki « Saki **» Cela est dû au fait que la chaîne de caractères de l'extension Windows est mélangée. Pour lire ces caractères, le code de caractère doit être cp932.

encoding='cp932'

Pour cette raison, ce sont des fenêtres, donc si vous le lisez avec shift_jis, ce n'est pas OK. Dès le début, il a été dit que si vous lisez avec cp932, vous n'aurez pas à vous soucier des problèmes inutiles.

import pandas as pd
dataset1 = pd.read_csv("hogehoge.csv",encoding="cp932")

Le site suivant a été très utile. "Essayons de régler les différences entre Shift_JIS et Windows-31J (MS932)" http://weblabo.oscasierra.net/shift_jis-windows31j/

Recommended Posts

Points à noter lorsque les pandas lisent le csv de la sortie Excel

Comment générer un CSV d'en-tête multiligne avec des pandas

Points à noter lors de la mise à jour vers WSL2

Comment lire des fichiers CSV avec Pandas

[Python] Comment lire le fichier csv (méthode read_csv du module pandas)

[Python] Comment lire des fichiers Excel avec des pandas

Points à noter lors du passage de NAOqi OS 2.4.3 à 2.5.5

Convertir des fichiers CSV UTF-8 pour les lire dans Excel

Précautions lors de l'exécution de la régression logistique avec Statsmodels

Lire le fichier CSV: pandas

Points à noter lors de la suppression de plusieurs éléments de la liste