[Mise à jour] Il existe un autre article sur la version mise à jour de la série Jupyter 5.
IPython a été intégré au Project Jupyter depuis la version 4.0. Jupyter peut être utilisé non seulement à partir de Python mais également à partir de R, Julia et Scala, et peut être considéré comme l'outil principal pour l'analyse des données. Non seulement il est disponible dans plus de 40 langages de programmation, mais il peut également encourager la collaboration et s'intégrer à Apache Spark via le Jupyter Notebook Viewer (http://nbviewer.jupyter.org/). C'est différent de la génération qui utilise IPython Notebook, pensant que je devrais essayer SciPy Stack pendant un moment.
Jusqu'à présent, NumPy et pandas semblaient difficiles à installer, mais Jupyter a plusieurs Ils ont préparé une image Docker afin que vous puissiez l'essayer relativement facilement. Si vous souhaitez le compléter dans votre navigateur, vous pouvez l'essayer immédiatement sur le site Try Jupyter!.
Démarrez le serveur Notebook en utilisant l'image Docker officielle. Fondamentalement, jupyter / datascience-notebook est bon, mais si vous utilisez Spark, [jupyter / all-spark-] notebook](https://hub.docker.com/r/jupyter/all-spark-notebook/) ou jupyter / pyspark-notebook Soit /) serait mieux. De nombreux packages sont préinstallés sur l'image, soit environ 4,5 Go. C'est une bonne idée de jeter un œil aux packages installés en attendant le téléchargement.
$ docker pull jupyter/datascience-notebook
$ docker images jupyter/datascience-notebook
REPOSITORY TAG IMAGE ID CREATED VIRTUAL SIZE
jupyter/datascience-notebook latest 8e21bfc3eeba 11 hours ago 4.592 GB
Démarrez le conteneur en utilisant le port 8888.
$ docker run -d --name notebook -p 8888:8888 jupyter/datascience-notebook
Si vous y accédez avec un navigateur, vous pouvez voir l'interface qui semble plus propre que IPython Notebook. Si vous appuyez sur "Nouveau", vous serez peut-être plus enthousiasmé par l'apparition de plusieurs options.
Bien qu'il puisse être utilisé de différentes manières, Python sera le courant dominant du point de vue du détournement d'actifs existants. Assurez-vous que les différents modules Python 3 sont disponibles. Tout d'abord, dessinons une courbe sin / cos en utilisant Bokeh.
Ensuite, obtenons la moyenne Nikkei de l'API Yahoo! En utilisant le module pandas. Assurez-vous également que les caractères ne sont pas déformés même si le japonais est utilisé pour l'axe du graphique.
Je pense que RStudio est plus facile à utiliser si vous écrivez R normalement, mais si vous envisagez la possibilité de partager des blocs-notes avec des équipes et de former des clusters côté serveur, il est préférable de se familiariser avec l'utilisation de Jupyter. On peut dire que c'est bien. Il est également utile pour absorber les différences environnementales telles que si un package est installé ou non, ou s'il peut être installé ou non, en fonction de l'environnement.
Si vous changez de noyau, le logo en haut à droite changera également. Je pense que c'est une fonction utile lors des allers-retours entre plusieurs environnements.
Je ne sais pas s'il s'agissait d'un Jupyter Notebook ou d'un IPython Notebook, mais vous pouvez également télécharger des fichiers de données. Lorsqu'il est lancé via Docker, il peut être difficile de se lier au conteneur de données. Cependant, vous pouvez utiliser le bouton «Télécharger» pour télécharger des données qui se trouvent dans votre système de fichiers local. Bien sûr, c'est également utile si le client et le serveur fonctionnent sur des machines différentes.
Les fichiers téléchargés peuvent être visualisés à partir de blocs-notes dans n'importe quelle langue. Essayons d'utiliser Julia comme noyau et vérifions-le. Cela ne fait peut-être pas beaucoup de différence, mais la langue affichée en haut à droite est Julia 0.3.2.
Les aperçus d'impression et les téléchargements Markdown sont disponibles quelle que soit la langue du noyau. Il semble être utile comme moyen d'enregistrer les résultats de l'analyse sous forme de rapport simple.
Vous pouvez également lancer un terminal et installer le package. Par exemple, essayez d'installer * xlsxwriter * en utilisant pip
.
J'ai démarré le serveur Jupyter Notebook à l'aide de l'image Docker officielle et vérifié que Python, R, Julia fonctionnait. Le téléchargement de l'image prend du temps, mais je pense qu'il est très facile à installer sans aucun problème causé par la non-concordance de version de plusieurs logiciels.
Cela peut être une tâche ardue d'avoir différents environnements d'exécution et de stockage de données en fonction des compétences de l'organisation et des membres, ou de la méthode d'analyse, mais l'intégration avec Jupyter peut réduire les coûts de gestion. Comme le format de sortie est également à peu près unifié, il semble être utile comme moyen d'enregistrement.
Recommended Posts