Celui qui enregistre les objets python en tant que données binaires https://docs.python.org/ja/3/library/pickle.html
Le chargement est rapide Comme il s'agit de données binaires, le traitement d'analyse est rapide car il n'a pas besoin d'être Les modèles formés peuvent également être décapés et réutilisés
Cet article de vérification est merveilleux Python: j'ai étudié le format de persistance des pandas
Rendre train.csv pickle pour le moment C'est le seul code
#pickle est une bibliothèque standard donc aucune installation requise
import pickle
import pandas as pd
train = pd.read_csv('../input/titanic/train.csv')
# 'wb'(write binary)Spécifier
with open('train.pickle', 'wb') as f:
pickle.dump(train, f)
Premier engagement
Lorsque le vert Complet apparaît en haut à gauche, cliquez sur Ouvrir la version.
Faites défiler jusqu'à la colonne Sortie
Si vous pouvez confirmer train.pickle
, Nouvel ensemble de données
Entrez le titre de votre jeu de données préféré et créez
L'ensemble de données est terminé
Si vous créez un nouveau bloc-notes + Ajouter des données
Filtrer par vos ensembles de données
Ajoutez celui que vous venez de créer
Gagnez si affiché ici
C'est le seul code
# 'rb'(read binary)Spécifier
with open('../input/titanicdatasetpickles/train.pickle', 'rb') as f:
train = pickle.load(f)
Il est correctement chargé en tant que DataFrame.
train.shape
# (891, 12)
!ls ../input
# titanicdatasetpickles
Utilisons le processus de vidage
dump_pickles.py
import pickle
import pandas as pd
#Basculer entre Kaggle et un autre environnement
if '/kaggle/working' in _dh:
input_path = '../input'
else:
input_path = './input'
#Réécrire uniquement ici pour chaque compétition
data_sets = {
'train': f'{input_path}/titanic/train.csv',
'test': f'{input_path}/titanic/test.csv',
'gender_submission': f'{input_path}/titanic/gender_submission.csv'
}
for name, path in data_sets.items():
df = pd.read_csv(path)
with open(f'{name}.pickle', 'wb') as f:
pickle.dump(df, f)
#c'est
with open('./train.pickle', 'wb') as f:
pickle.dump(train, f)
#comme ça
train.to_pickle('./train.pickle')
#c'est
with open('../input/titanicdatasetpickles/train.pickle', 'rb') as f:
df_ss = pickle.load(f)
#comme ça
train = pd.read_pickle('../input/titanicdatasetpickles/train.pickle')
ModuleNotFoundError: No module named 'pandas.core.internals.managers'; 'pandas.core.internals' is not a package
Cela semble être un problème avec la version des pandas
pip install -U pandas
Résolu par
J'ai été sauvé par cet article Incohérence entre cornichon et pandas
Merci d'avoir lu jusqu'au bout
Recommended Posts