: avertissement: Cet article a été publié pour la première fois en juin 2017, mais il est déjà obsolète pour le moment ([février 2019]). L'article lui-même sera laissé tel quel à des fins d'archivage, mais veuillez ne pas vous référer au contenu de cet article. Les articles alternatifs incluent: </ font>
salut! Le 06/01/2017 ** L'icône Data Science Experience est apparue sur IBM Cloud! Même si je suis enthousiasmé par **, je pense que la plupart des gens ont une réaction sympa: "Qu'est-ce que la Data Science Experience?" (Gackli ..) Il y a quelques articles sur Data Science Experience (DSX) sur Qiita, mais je voudrais brièvement présenter "Qu'est-ce que c'est?" Après avoir été enregistré dans le catalogue IBM Cloud. J'ai fait.
(Je pense que les expressions suivantes sont rapides pour les lecteurs habiles de Qiita.) En bref, nous fournissons un ensemble d'environnements de développement et d'exécution pour l'analyse de science des données ouvertes suivante qui a pris de l'ampleur récemment. C'est un service SaaS. En tant qu'utilisateur, nous supposons une équipe de data scientists capables de coder. (Si vous n'aimez pas le codage: nouveau: SPSS est également disponible sur DSX! :-))
--Scala / Python sur Jupyter Notebook (*) --R sur R Studio
en outre
--Articles à étudier ・ Tutotial et open data --Fonction de collaboration pour l'équipe d'analyse
Il est également joint.
Eh bien, la situation actuelle est ** en bref, c'est un service SaaS qui intègre des choses open source **, donc on peut dire que vous pouvez créer un environnement similaire par vous-même, mais je pense qu'il présente les avantages suivants.
DSX semble être particulièrement axé sur ** «l'augmentation de la productivité de l'équipe d'analyse» **. Chaque data scientist a son langage préféré et ses outils dans lesquels il est doué, comme "Je veux le faire en R", "Eh bien, c'est l'IA, donc c'est Python" et ainsi de suite. Si vous souhaitez analyser sur une base individuelle, vous pouvez utiliser ce que vous voulez, mais si vous faites du «travail d'analyse» avec ** «équipe» ** et ** «travail» **, ce n'est pas le cas. Si vous n'unifiez pas l'environnement du langage et de l'outil, il ne sera pas pratique pour l'équipe d'évaluer et de partager les résultats de l'analyse. Cependant, il est assez pénible et moral d'être obligé de décider que "ce travail d'analyse est xxx". .. .. DSX semble viser un environnement dans lequel l'équipe peut ** analyser ce domaine ** avec son langage et ses outils préférés, et ** collaborer ** les livrables. (Cela peut être déduit du fait que le système de prix n'est pas le prix d'un utilisateur, mais le prix pour cinq personnes.)
L'expérience de la science des données elle-même a été proposée en tant que service sur SaaS en 2016, indépendamment de Bluemix, mais uniquement avec un essai de 30 jours. (Autrement dit, il ne pourrait pas être utilisé après la date limite d'essai.): Nouveau: Après cela, il a été publié dans le catalogue Bluemix et la version gratuite a été fournie en 2017/06, et il sera gratuit pendant longtemps avec le changement de nom de Bluemix à IBM Cloud en 2017/11. Le plan Lite était proposé, mais DSX et WML sont également disponibles dans le plan Lite. En bref (bien que les ressources soient limitées) ** le plan Lite vous permet de l'essayer gratuitement et gratuitement **, c'est donc un bon endroit pour commencer à "étudier Jupyter / Python / Scala + Spark". Je crois que non. (Tutotial pour l'étude et des cahiers d'échantillons sont également préparés en abondance)
À propos, les ressources qui peuvent être utilisées dans le plan Lite sont les suivantes. Bien qu'il soit petit, je pense que le niveau "étude" est suffisant. (Le plan Lite a les mêmes fonctionnalités que la version Entreprise payante, seules les ressources machine disponibles et le nombre de Spark Clusters sont différents.) Data Science Experience
Ci-dessous, tout en présentant les fonctions de DSX dans l'environnement Free en guise d'introduction, je vais essayer de créer un projet jusqu'à l'exécution d'un notebook existant avec des explications sur Python / Spark. Dans DSX, des ressources telles que divers notebooks et données sont collectées, gérées et partagées à l'aide d'une unité de gestion appelée «projet».
Connectez-vous à IBM Cloud et sélectionnez Data Science Experience dans le catalogue.
Sur l'écran suivant, donnez au nom du service un nom de votre choix, sélectionnez Plan Lite, puis «Créer». Pour le plan: warning: Lite, définissez ** "Deployment area" sur "Southern United States" **. Depuis novembre 2017, le plan Lite n'est disponible que dans le «sud des États-Unis». (Est-ce approprié car le plus grand choix de services se trouve dans le "sud des États-Unis")
Lorsque l'écran change, "Premiers pas"
Sélectionnez l'organisation et l'espace IBM Cloud à utiliser avec DSX et "Continuer" (est-ce que ça va par défaut)
Attendez un moment, et une fois terminé, "Commencez"
Ci-dessous se trouve l'écran initial de DSX. : nouveau: Avec la mise à jour de 2017/11, ça a l'air cool. --Ce panneau s'affiche en cliquant sur "Commencer" en haut à droite.
―― ① C'est le centre de l'opération, créant un projet et définissant la source de données. -② Liens vers des documents et divers paramètres ―― ③ Icône de raccourci
Le menu de ① est le suivant. --Projets --Accès aux projets et cahiers créés --Outils --Accès à Jupyter et RStudio
: nouveau: Beta, mais SPSS Modeler et Stream Designer ont également été ajoutés
Le bas de l'écran
―― ④ Projet récemment utilisé ――⑤ Il existe de nombreux articles de blog et tutoriels dans les ressources de la communauté, vous pouvez donc commencer à étudier immédiatement à partir d'ici. ――Cliquez sur ⑥ pour demander l'assistance DSX. (Je ne l'ai jamais fait)
"Créer un projet" avec le raccourci de ③
Entrez le nom de votre projet préféré dans le champ Nom
** Pour utiliser DSX, une instance ①Spark ②Object Storage est requise **. Vous pouvez également les créer gratuitement avec le plan Lite. S'il n'est pas défini, vous pouvez le définir immédiatement en cliquant sur ce qui suit dans ce panneau, veuillez donc spécifier à nouveau l'instance à utiliser par «Recharger» après sa création. (Si déjà défini, sélectionnez simplement)
[Si le compte n'a pas d'instance]
Après avoir spécifié l'instance, cliquez sur "Créer"
Le projet est terminé. Il est toujours propre, mais vous pouvez voir que la structure est telle que les blocs-notes et les actifs de données sont stockés dans le projet. À partir de là, vous pouvez créer de nouveaux blocs-notes et modèles d'apprentissage automatique.
Créez un nouveau bloc-notes. "Ajouter des blocs-notes" en haut à droite
Définissez votre nom préféré pour Nom, sélectionnez la langue et la version de Spark, puis cliquez sur "Créer un bloc-notes". J'ai choisi le dernier Python 3.5 / Spark 2.1 ici.
En conséquence, nous avons créé un environnement Jupyter Notebook familier, comme illustré ci-dessous. Le menu et la palette de couleurs en haut sont différents de Jupyter Notebook open source, mais comme la substance est Jupyter lui-même, ceux qui ont déjà de l'expérience avec Jupyter ne se perdront pas en fonctionnement.
À propos, les menus suivants en haut à droite sont des fonctions DSX.
# | Explication |
---|---|
① | Publier le notebook sur github |
② | Partagez votre bloc-notes avec des liens directs, Twitter et LinkedIn |
③ | Programmation récurrente du notebook |
④ | Jeton de projet(※)Insérer |
⑤ | Informations sur ce notebook, telles que l'environnement, la date de création, etc. |
⑥ | Stockage de la version portable (jusqu'à 10)) |
⑦ | Ajouter un commentaire |
⑧ | Connexion à un fichier ou à une source de données |
⑨ | Rechercher des signets et des ressources communautaires |
Une fois le notebook ouvert, tout ce que vous avez à faire est de commencer à coder. Comme indiqué ci-dessous, Spark Context a déjà été initialisé et numpy, pandas, matplotlib, etc., qui sont des bibliothèques standard pour la science des données en Python, peuvent également être utilisés. Au fait, seaborn n'était pas inclus, mais j'ai pu l'installer avec! Pip install seaborn. De cette manière, il est facile "d'ajouter une bibliothèque qui n'existe pas".
Il est difficile pour «étudier à partir de maintenant» de partir de rien, mais DSX a beaucoup de cahiers (en anglais) que «vous pouvez étudier en lisant l'explication et en la déplaçant». Essayons d'exécuter le "Notebook pour utiliser Spark avec Python".
Si vous recherchez «Apache Spark Lab» dans les blocs-notes de la communauté, vous trouverez le bloc-notes en trois parties suivant. Double-cliquez sur la partie 1 pour l'ouvrir.
Un carnet avec des explications s'ouvrira comme indiqué ci-dessous. Sélectionnez "Copier" dans l'icône en haut à droite.
Sélectionnez le nom du projet et l'environnement Spark à utiliser et sélectionnez "Créer un bloc-notes"
Après un certain temps, Notebook sera copié dans votre environnement et fonctionnera comme indiqué ci-dessous.
En guise de préparation avant l'exécution, effacez la sortie précédente si elle reste. 「Cell」-「All Output」-「Clear」
Tout ce que vous avez à faire est d'exécuter la cellule en lisant l'explication. Je pense que c'est bon pour étudier parce que vous pouvez immédiatement essayer ce que vous avez appris dans le commentaire. (À propos, l'exécution des étapes de la cellule se fait avec le bouton suivant ou "Shift + Enter")
Le contenu de ce cahier sort du cadre de cet article, je vais donc les omettre, mais il existe plusieurs autres cahiers, vous pouvez donc choisir le thème qui vous intéresse et étudier de la même manière.
C'était "j'ai essayé de le toucher".
Pour que plusieurs membres collaborent sur un même projet, procédez comme suit: D'après ce que j'ai essayé, il semble que les comptes Lite puissent également le faire.
Saisissez l'adresse e-mail de l'utilisateur que vous souhaitez inviter, définissez les droits d'accès appropriés, puis cliquez sur le bouton «Inviter l'utilisateur».
L'e-mail suivant sera envoyé aux membres invités, acceptez donc l'invitation avec «Rejoindre maintenant» et inscrivez-vous à IBM Cloud.
Étant donné que vous disposez déjà d'un identifiant pour vous connecter à IBM Cloud, inscrivez-vous avec "Vous avez déjà un compte IBM Cloud?" En bas à droite. Cependant, à ce stade, l'invité n'a pas encore partagé le projet, vous ne pouvez donc rien voir.
Il y a à la fois un compte IBM Cloud et un compte DSX ici, et c'est compliqué, veuillez donc vous référer au document Configurer un compte d'entrepriseをご参照ください。
Notez que le bloc-notes est verrouillé pendant que quelqu'un le modifie afin que plusieurs personnes ne mettent pas à jour le même bloc-notes.
Bien que cela ne soit pas présenté dans cet article, DSX a également DSX Local s'exécutant dans un cloud privé et DSX Desktop (version bêta ouverte à partir de juin 2017) qui peut être utilisé sur le bureau. Si vous êtes intéressé, veuillez rechercher Document DSX ou sur Internet.
DSX et WML sont des services distincts sur IBM Cloud, mais la coopération entre eux progresse régulièrement. Si vous faites de la science des données / de l'analyse prédictive sur IBM Cloud, vous utiliserez probablement les deux. Watson Machine Learning est également disponible gratuitement avec le plan Lite, alors essayez-le.