Cet article est un mémo sur la lecture et la sortie d'un fichier pour l'analyse des données.
Lire les fichiers csv / tsv avec pandas (read_csv, read_table)
df = pd.read_csv('train.csv', sep = ',', na_values = '.', header = None)
Type de lecture #Tips Read_csv () pour lire les fichiers csv, read_table () pour lire les fichiers tsv (délimités par des tabulations)
#Tips Délimiteur de données Pour les délimiteurs de données qui ne sont ni des virgules ni des tabulations, le délimiteur peut être spécifié avec l'argument (sep ou délimiteur).
#Tips Lorsqu'il n'y a pas d'en-tête dans les données lues Par défaut, la première ligne de données lues est traitée comme un en-tête. Si les données lues n'ont pas d'en-tête, spécifiez
header = None
.
#Tips Lorsqu'il y a un en-tête dans les données lues Spécifiez explicitement la position de lecture de l'en-tête avec
header = 2
etc. Il n'est pas lu avant l'emplacement spécifié.
#Tips Lire le type de données Il existe deux façons de spécifier le type de données lors de la lecture des données. Le premier est lorsque vous spécifiez
dtype = str
. Cela s'applique à toutes les données lues. La seconde consiste à spécifierdtype = {'b': str, 'c': str}
au format dictionnaire.
#Tips Gestion des valeurs manquantes Si vous voulez la traiter comme une valeur manquante lors de la lecture des données, vous pouvez la traiter comme une valeur manquante en spécifiant
na_values = [" - ",". "]
.
3 ou version ultérieure. Il vous sera demandé un compte à associer à Colaboratory sur un autre écran, alors sélectionnez-le. Après cela, l'ID sera émis, alors copiez l'ID et collez-le dans le laboratoire.
(*) S'il n'est pas ajouté automatiquement, entrez la commande suivante
from google.colab import drive
drive.mount('/content/drive')
Spécifiez le chemin avec pd.reac_csv ()
comme suit
data_fixed = pd.read_csv("/content/drive/My Drive/ColabNotebooks/XXX.csv")
La lecture ultérieure des fichiers CSV est identique à "2. Lecture du CSV avec jupyther-notebook".
Utilisez la commande suivante pour sélectionner le fichier à télécharger localement.
from google.colab import files
uploaded = files.upload()
import io
df = pd.read_csv(io.StringIO(uploaded['XXX.csv'].decode('utf-8')))
XXX.csv est le fichier CSV téléchargé.
Le format de sortie est le suivant.
df.to_csv("/content/drive/My Drive/Colab Notebooks/XXX.csv")
df.to_csv('XXX.csv' , index=False)
files.download('XXX.csv')
Omission de l'index #Tips Si vous n'avez pas besoin de la partie ʻindex
lors de la sortie des données, spécifiez ʻindex = False
. C'est utile personnellement car il y a de nombreux cas où «index» n'est pas nécessaire lors de la validation avec kaggle.
Télécharger depuis le colaboratoire #Tips Lors du téléchargement depuis un laboratoire, vous devez lire ce qui suit.
from google.colab import files
Recommended Posts