Si vous voulez que python le lise, je voudrais que le format de caractère soit utf-8, Puisqu'il existe diverses raisons du côté de la sortie de données, il existe de nombreux cas où le côté récepteur doit convertir et lire.
La sortie csv dans l'environnement Windows et Excel est shift JIS. .. .. Alors, avec les pandas,
import pandas as pd
dataset1 = pd.read_csv("hogehoge.csv",encoding="shift_jis")
Si vous le faites, vous ne pourrez peut-être pas le lire correctement si vous faites attention car vous pensez que c'est OK.
test.csv
Yamada,1000
Sato,2000
Yamamoto,3000
Je peux lire ça,
test2.csv
1,Yamada,1000
2,Takahashi,2000
3,Noir 﨑,3000
J'obtiens l'erreur suivante sans exception. .. ..
UnicodeDecodeError: 'shift_jis' codec can't decode byte 0xfb in position 0: illegal multibyte sequence
C'est dans test2.csv, ・ Hashigodaka "** Taka " ・ Tachisaki « Saki **» Cela est dû au fait que la chaîne de caractères de l'extension Windows est mélangée. Pour lire ces caractères, le code de caractère doit être cp932.
encoding='cp932'
Pour cette raison, ce sont des fenêtres, donc si vous le lisez avec shift_jis, ce n'est pas OK. Dès le début, il a été dit que si vous lisez avec cp932, vous n'aurez pas à vous soucier des problèmes inutiles.
import pandas as pd
dataset1 = pd.read_csv("hogehoge.csv",encoding="cp932")
Recommended Posts