Cette entrée est
C'est une continuation de.
Ici aussi J'ai écrit quelque chose de similaire, mais si je l'écris à nouveau, Cloud Datalab est le suivant.
Datalab est conçu pour travailler en étroite collaboration avec les projets GCP.
Par défaut, si rien n'est spécifié, ce sera comme suit.
--Un référentiel sera créé appelé datalab-notebooks
dans le Cloud Source Repository dans le projet. datalab / docs / how-to / datalab-team # use_the_automatically_created_git_repository_for_sharing_notebooks)
--Un bucket $ {PROJECT_ID} .appspot.com / datalab_backups
est créé sur GCS et une [sauvegarde est créée](https://cloud.google.com/datalab/docs/how-to/" dedans. working-with-notebooks # cloud_datalab_backup)
J'essaierai diverses choses sur place. Quoi qu'il en soit, c'est le début de Datalab.
$ datalab create --disk-size-gb 10 --no-create-repository datalab-test
--Spécifiez la taille du disque avec --disk-size-gb
.
--no-create-repository
--no-create-repository
. .. .. Je me demande pourquoi cela. Je vais enquêter correctement à nouveau.Datalab est très agréable de travailler avec BigQuery. Donc, pour changer un peu l'histoire, Jupyter a une fonction de commande appelée Magic Command qui commence par %%
. Des fonctionnalités BigQuery et GCS sont également fournies.
Exemple, mais vous pouvez voir à quel point il est merveilleux de l'écrire dans une cellule. ..
%%bq query
SELECT id, title, num_characters
FROM `publicdata.samples.wikipedia`
WHERE wp_namespace = 0
ORDER BY num_characters DESC
LIMIT 10
J'interroge une cellule pour BQ, donc je veux la traiter telle quelle [ce qui est dans l'exemple](https://github.com/googledatalab/notebooks/blob/master/tutorials/BigQuery/SQL%20and%20Pandas% 20DataFrames.ipynb), mais vous pouvez transmettre le résultat de la requête à Pandas en tant que dataframe. magnifique.
%%bq query -n requests
SELECT timestamp, latency, endpoint
FROM `cloud-datalab-samples.httplogs.logs_20140615`
WHERE endpoint = 'Popular' OR endpoint = 'Recent'
import google.datalab.bigquery as bq
import pandas as pd
df = requests.execute(output_options=bq.QueryOutput.dataframe()).result()
Est-ce que c'est comme ça si cela semble être un peu plus via API?
import google.datalab.bigquery as bq
import pandas as pd
#Requête à émettre
query = """SELECT timestamp, latency, endpoint
FROM `cloud-datalab-samples.httplogs.logs_20140615`
WHERE endpoint = 'Popular' OR endpoint = 'Recent'"""
#Créer un objet de requête
qobj = bq.Query(query)
#Obtenez les résultats de la requête sous forme de trame de données pandas
df2 = qobj.execute(output_options=bq.QueryOutput.dataframe()).result()
#Au fonctionnement des pandas ci-dessous
df2.head()
Si vous y réfléchissez bien, puisque cette API est fournie, il semble que Magic Command soit créé. En fait, si vous regardez ici, «%% b» est défini comme étant la commande Magic. Tu peux voir ça.
Comme avec BigQuery, vous pouvez manipuler des objets sur GCS à partir de la cellule comme exemple. Le fait est, est-il possible de lire et d'écrire des fichiers? Il est également utile de pouvoir utiliser les résultats de BigQuery comme source de données, mais il est intéressant de pouvoir gérer les données GCS car il s'agit d'une source de données transparente.
J'ai pu confirmer que quelque chose fonctionne via l'API pour le moment, mais je vais sauter cette fois car il y a beaucoup de choses que je ne comprends pas comme divers comportements.
C'est la vraie valeur du cloud. Si vous en avez besoin, vous pouvez améliorer les spécifications, ce qui n'est pas possible avec sur site. La commande datalab create vous permet de spécifier le type d'instance avec l'option --machine-type
. Par défaut, n1-standard-1
est lancé.
#Supprimer l'instance avec la commande de suppression
#Dans ce cas, le disque attaché reste tel quel
$ datalab delete datalab-test
#Commencez avec le même nom de machine mais avec des types d'instances différents
#Nom de la machine+Parce que le disque est créé selon la convention de dénomination pd
#Si le nom de la machine est le même, le disque sera joint sans autorisation.
$ datalab create --no-create-repository \
--machine-type n1-standard-4 \
datalab-test
Vous pouvez maintenant augmenter ou réduire les spécifications de votre machine selon vos besoins.
Pour le moment, c'est le point culminant.
avec ça! !! !! Après avoir spécifié l'instance GPU! !! !! !! Vous pouvez facilement obtenir un environnement d'apprentissage automatique GPU! !! !! !!
Quand j'y pense, ce n'est pas si facile dans le monde ... Jusqu'à présent, les instances GPU ne sont pas supportées par Datalab.
Datalab est regrettable à certains endroits, mais on s'attend à peine à ce que les instances GPU le prennent en charge d'une manière ou d'une autre, à l'exception du référentiel Cloud Source et de l'environnement Cloud ML Engine. Cependant, ces jours-ci, je pense que c'est un élément important pour créer un environnement d'analyse de données. La prochaine fois, j'aimerais examiner de plus près ce domaine.
!
, Vous devriez être capable de mettre des paquets qui peuvent être supportés par ʻapt-get`.Recommended Posts