Je veux frapper 100 sciences des données avec Colaboratory

Le contenu de la pratique d'analyse des données «Data Science 100 Knock (traitement des données structurées)» a été publié par la Data Scientist Association. Puisqu'il nécessite une opération Docker pour le déplacer, je vais laisser une méthode pour le déplacer avec Colaboratory pour ceux qui veulent le voir pour la première fois facilement.

1. Téléchargez les données

Commencez par créer un cahier adapté et ouvrez Colaboratory. Après ouverture, exécutez la commande suivante pour télécharger les données sur Google Drive.

from google.colab import drive
drive.mount('/content/drive')

!git clone https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess.git 'drive/My Drive/100knocks-preprocess'

Si vous montez le lecteur pour la première fois, vous verrez l'affichage suivant sous la cellule que vous avez exécutée. Cliquez sur l'URL pour autoriser l'accès à Google Colaboratory's Drive. スクリーンショット 2020-06-17 9.45.24.png À la fin, le message "Veuillez copier ce code, basculez vers l'application et collez-le." S'affiche. Collez le code copié dans le champ "Entrez votre code d'autorisation:" ci-dessus et exécutez-le. Si vous revenez à Mon Drive, vous verrez un dossier appelé "100 knocks-preprocess". Si tout se passe bien, je n'utiliserai plus ce cahier.

2. Ouvrez Jupyter Notebook à partir de My Drive

Le fichier notebook est stocké dans le répertoire suivant. スクリーンショット 2020-06-17 10.04.05.png Ouvrons preprocess_knock_Python.ipynb dans Google Colabatory.

3. Essayez de bouger

Si vous exécutez la première cellule telle quelle, une erreur se produira, donc si vous importez uniquement la bibliothèque, chargeons les données avec le code suivant

def get_df(filename):
  path = 'drive/My Drive/100knocks-preprocess/docker/work/data'
  return pd.read_csv(os.path.join(path, filename))

df_customer = get_df('customer.csv')
df_category = get_df('category.csv')
df_geocode = get_df('geocode.csv')
df_product = get_df('product.csv')
df_receipt = get_df('receipt.csv')
df_store = get_df('store.csv')

À propos, il existe un fichier pdf qui explique l'objectif de ce contenu dans le dossier suivant, il semble donc bon de le lire avant de travailler dessus. 100knocks-preprocess/docker/dock

Maintenant tu es prêt Si vous l'exécutez après un certain temps, vous risquez de perdre la connexion avec Drive. (Peut-être ...) Dans ce cas, exécutez à nouveau le code suivant ou montez le lecteur à partir de la barre latérale et relisez les données.

from google.colab import drive
drive.mount('/content/drive')

c'est tout

Au moment où j'écrivais cet article, créer un environnement avec Docker n'est pas si difficile, et il est souvent utile de pouvoir le faire, donc je pense qu'il est bon de saisir cette opportunité pour contester. L'article ici semble être bon pour savoir comment construire sur Mac. Si vous pouvez créer un environnement, vous pouvez pratiquer SQL!

Recommended Posts

Je veux frapper 100 sciences des données avec Colaboratory
Je veux faire ○○ avec les Pandas
Je veux déboguer avec Python
Je veux pouvoir analyser des données avec Python (partie 3)
Je veux pouvoir analyser des données avec Python (partie 1)
Je veux pouvoir analyser des données avec Python (partie 4)
Je veux pouvoir analyser des données avec Python (partie 2)
Je veux détecter des objets avec OpenCV
Je veux écrire un blog avec Jupyter Notebook
Je veux installer Python avec PythonAnywhere
Je veux analyser les journaux avec Python
Je veux jouer avec aws avec python
Je veux utiliser MATLAB feval avec python
J'ai essayé de sauvegarder les données avec discorde
Quoi qu'il en soit, je veux vérifier facilement les données JSON
Je souhaite afficher plusieurs images avec matplotlib.
Je veux faire un jeu avec Python
Je veux être OREMO avec setParam!
J'ai essayé d'obtenir des données CloudWatch avec Python
Je souhaite utiliser le répertoire temporaire avec Python2
Je veux obtenir les données de League of Legends ③
Je veux obtenir les données de League of Legends ②
Je ne veux pas utiliser -inf avec np.log
#Unresolved Je veux compiler gobject-introspection avec Python3
Je souhaite utiliser ip vrf avec SONiC
Je veux résoudre APG4b avec Python (chapitre 2)
Je veux recommencer avec Migrate de Django
Je veux obtenir les données de League of Legends ①
Je veux écrire dans un fichier avec Python
N'hésitez pas à frapper 100 sciences des données avec Google Colab et Azure Notebooks!
Je veux convertir une image en WebP avec sucette
Je veux donner un group_id à une trame de données pandas
Je veux gérer l'optimisation avec python et cplex
Je veux escalader une montagne avec l'apprentissage par renforcement
Je veux hériter de l'arrière avec la classe de données python
Je veux travailler avec un robot en python.
Je veux diviser une chaîne de caractères avec hiragana
Je veux AWS Lambda avec Python sur Mac!
Je souhaite créer manuellement une légende avec matplotlib
[TensorFlow] Je souhaite traiter des fenêtres avec Ragged Tensor
Je veux dire qu'il y a un prétraitement des données ~
Je veux faire fonctionner un ordinateur quantique avec Python
Je veux lier une variable locale avec lambda
Je veux résoudre SUDOKU
Je souhaite supprimer l'avertissement d'importation non résolue de Python avec vsCode
Je souhaite utiliser facilement les fonctions R avec le notebook ipython
Je souhaite spécifier une autre version de Python avec pyvenv
J'ai essayé de créer diverses "données factices" avec Python faker
Je veux créer un éditeur de blog avec l'administrateur de django
Je veux démarrer un environnement Jupyter avec une seule commande
[NetworkX] Je souhaite rechercher des nœuds avec des attributs spécifiques
Je veux faire une macro de clic avec pyautogui (désir)
Je veux changer le drapeau japonais en drapeau des Palaos avec Numpy
Je veux colorier des photos en noir et blanc de souvenirs avec GAN
Je veux assister automatiquement à des cours en ligne avec Python + Selenium!
Je veux faire une macro de clic avec pyautogui (Outlook)
[Python] Je souhaite utiliser l'option -h avec argparse