Présentation d'un cas où j'étais accro à l'index de la première colonne en essayant de traiter les données téléchargées par le système interne avec des pandas
Données de problème (bien sûr pas les données réelles)
name,population,area
Osaka,2691k,223,
Nara,353k,276,
Kyoto,1472k,827,
Koube,1542k,552,
Wakayama,355k,208,
Si vous lisez_csv () les données suivantes qui semblent n'avoir aucun problème à première vue, la première colonne (nom) est index.
La cause est qu'il y a un "," à la fin de chaque enregistrement, mais il n'y a pas de "," à la fin de la ligne d'en-tête. Si vous essayez de mettre "," à la fin de la ligne d'en-tête. Comme indiqué ci-dessous, une colonne supplémentaire est ajoutée, mais l'indice est calculé automatiquement.
Cet exemple est résumé dans un fichier csv pour une meilleure compréhension, mais il a fallu plus de temps car c'était tsv (délimité par des tabulations) qui était en fait encombré dans le travail.
Voyons correctement les données sans nous noyer dans l'outil.
Même ainsi, je pense que les chances d'utiliser Excel ont diminué depuis que je suis devenu capable de modifier légèrement les données avec des pandas. Cette fois, les données étaient également un fichier tsv d'environ 50 Mo, mais elles pouvaient être lues en quelques secondes. (Excel s'est bloqué ...)