Le contenu de la pratique d'analyse des données «Data Science 100 Knock (traitement des données structurées)» a été publié par la Data Scientist Association. Puisqu'il nécessite une opération Docker pour le déplacer, je vais laisser une méthode pour le déplacer avec Colaboratory pour ceux qui veulent le voir pour la première fois facilement.
Commencez par créer un cahier adapté et ouvrez Colaboratory. Après ouverture, exécutez la commande suivante pour télécharger les données sur Google Drive.
from google.colab import drive
drive.mount('/content/drive')
!git clone https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess.git 'drive/My Drive/100knocks-preprocess'
Si vous montez le lecteur pour la première fois, vous verrez l'affichage suivant sous la cellule que vous avez exécutée. Cliquez sur l'URL pour autoriser l'accès à Google Colaboratory's Drive. À la fin, le message "Veuillez copier ce code, basculez vers l'application et collez-le." S'affiche. Collez le code copié dans le champ "Entrez votre code d'autorisation:" ci-dessus et exécutez-le. Si vous revenez à Mon Drive, vous verrez un dossier appelé "100 knocks-preprocess". Si tout se passe bien, je n'utiliserai plus ce cahier.
Le fichier notebook est stocké dans le répertoire suivant. Ouvrons preprocess_knock_Python.ipynb dans Google Colabatory.
Si vous exécutez la première cellule telle quelle, une erreur se produira, donc si vous importez uniquement la bibliothèque, chargeons les données avec le code suivant
def get_df(filename):
path = 'drive/My Drive/100knocks-preprocess/docker/work/data'
return pd.read_csv(os.path.join(path, filename))
df_customer = get_df('customer.csv')
df_category = get_df('category.csv')
df_geocode = get_df('geocode.csv')
df_product = get_df('product.csv')
df_receipt = get_df('receipt.csv')
df_store = get_df('store.csv')
À propos, il existe un fichier pdf qui explique l'objectif de ce contenu dans le dossier suivant, il semble donc bon de le lire avant de travailler dessus.
100knocks-preprocess/docker/dock
Maintenant tu es prêt Si vous l'exécutez après un certain temps, vous risquez de perdre la connexion avec Drive. (Peut-être ...) Dans ce cas, exécutez à nouveau le code suivant ou montez le lecteur à partir de la barre latérale et relisez les données.
from google.colab import drive
drive.mount('/content/drive')
Au moment où j'écrivais cet article, créer un environnement avec Docker n'est pas si difficile, et il est souvent utile de pouvoir le faire, donc je pense qu'il est bon de saisir cette opportunité pour contester. L'article ici semble être bon pour savoir comment construire sur Mac. Si vous pouvez créer un environnement, vous pouvez pratiquer SQL!
Recommended Posts