Démarrez la science des données dans le cloud

Cet article est le premier jour du calendrier de l'Avent Cloud Analytics.

Nous gérons l'analyse, le machine learning, l'IA, etc. avec le thème de l'Analytique sur le Cloud. Cette fois, lors du démarrage du calendrier, préparez d'abord l'environnement d'analyse. Ce qui suit est disponible gratuitement pendant 30 jours, veuillez donc le toucher en fonction du calendrier. Aussi, pourquoi ne pas essayer si vous lancez actuellement une équipe de Data Scientist?

Aujourd'hui, je vais donner un aperçu de l'environnement à utiliser et créer le premier notebook.

Data Science Experience DataScienceExperience est une plateforme de science des données sur le Cloud fournie par IBM. Les outils nécessaires pour effectuer la science des données, y compris le bloc-notes Jupyter Un ensemble complet est disponible et pour promouvoir la Data Science dans l'entreprise Une plateforme avec des fonctions de développement d'équipe.

Environnement d'exécution

Dans DataScienceExperience

Python 2.x/3.x
Scala 2.1x
R Il est possible d'utiliser trois langues. De plus, l'exécution de code est distribuée sur Spark dans l'un des Python, Scala et R. (Notebook peut être utilisé avec sc généré) Dans les coulisses, il est connecté à Spark sur Bluemix. Il semble que la valeur par défaut n'est disponible que pour 2Executor, mais Executor peut être étendu.

interface

Jupyter Notebook et R Studio sont actuellement disponibles.

Vous trouverez ci-dessous le bloc-notes Jupyter. スクリーンショット 2016-12-05 10.08.22.png

Ci-dessous se trouve RStudio. スクリーンショット 2016-12-05 10.10.00.png

L'interface est la même que celle du notebook et de RStudio que vous utilisez habituellement.

DataSrouce La manière dont vous obtenez les données est importante lorsque vous démarrez DataScience. DataScienceExperience est fourni avec 5 Go de stockage d'objets gratuitement. De plus, il peut être connecté à chaque stockage de Bluemix avec GUI, en particulier Cloudant (CouchDB) et Il a une bonne connectivité avec DashDB. Ci-dessous se trouve l'écran de création de connexion. スクリーンショット 2016-12-05 10.20.22.png

D'autres informations de connexion telles que S3 et Impara sont requises, mais elles peuvent être utilisées comme source de données. スクリーンショット 2016-12-05 10.20.38.png

Développement d'équipe

Sur DataScienceExperience, créez un projet et créez un notebook. Partagez facilement votre notebook en ajoutant d'autres utilisateurs à votre projet Vous pouvez aller partager le DataSource.

Ce qui suit est l'écran d'édition de Collaborator. スクリーンショット 2016-12-05 10.23.49.png

Vous pouvez définir Admin, Viewer, Editor, etc.

Les blocs-notes et les sources de données peuvent également être partagés pour l'édition collaborative. スクリーンショット 2016-12-05 10.26.12.png

Créer un projet

Commencez par créer un projet.

Dans l'image ci-dessous, certains projets ont déjà été créés, Ici, nous allons créer un nouveau projet. Cliquez sur le bouton Créer un projet en haut à droite pour passer à l'écran de création de projet. スクリーンショット 2016-12-05 10.32.41.png

L'image ci-dessous est l'écran de création du projet. スクリーンショット 2016-12-05 10.37.49.png

À propos des champs Service Spark et Stockage d'objets Ici, sélectionnez Spark Service et Object Storage auxquels Project peut se connecter, mais vous devez créer Spark Service uniquement pour la première fois. Pour Object Storage, vous pouvez sélectionner celui fourni avec Spark Service lorsque vous le créez, ou Object Storage d sur Bluemix.

Vous venez de créer un tout nouveau projet! スクリーンショット 2016-12-05 10.42.06.png

Créer un notebook et exécuter du code simple

Ensuite, nous allons créer un cahier et exécuter le code. À partir du bouton Ajouter des blocs-notes sur l'écran de projet créé précédemment Passe à l'écran de création du bloc-notes.

スクリーンショット 2016-12-05 10.51.04.png

La version Spark peut être sélectionnée entre 2.0 et 1.6. Ici, Python 2 et Spark 1.6 sont sélectionnés.

À propos du nom du notebook Actuellement, il semble y avoir un bogue selon lequel la prévisualisation ne peut pas être effectuée correctement lorsque l'élément Nom est entré en japonais. Depuis que j'ai soulevé le problème, je pense qu'il sera corrigé, mais entrons ici les caractères alphabétiques.

Vous avez maintenant un tout nouveau notebook! スクリーンショット 2016-12-05 10.54.54.png

Essayons d'exécuter le code Python!

hallo = "Hallo Data Scientist!"
print(hallo)

Collez le code ci-dessus dans la cellule Notebook créée et appuyez sur le bouton Exécuter Le code est exécuté et le résultat est sorti.

スクリーンショット 2016-12-05 10.57.39.png

Vous pouvez exécuter des cellules en appuyant sur Maj + Entrée.

Vous êtes maintenant prêt pour la science des données! !! !! Après cela, nous examinerons le traitement de l'analyse à l'aide de Notebook, Object Storage et d'autres DataSources.