Placez Jupyter dans le cluster Spark lancé par Amazon EMR En plus de cela, lors de l'utilisation de PySpark, un résumé de la façon de gérer les points bloqués.
Cette fois pour la vérification
Applications: Toutes les applications: Hadoop 2.6.0, Hive 1.0.0, Hue 3.7.1, Mahout 0.11.0, Pig 0.14.0 et Spark 1.5.0 Type d'instance: m3.xlarge Nombre d'instances: 1 Accès: par défaut
Préparer.
Si vous incluez Hue, Hue utilisera le port 8888 Jupyter ne peut plus utiliser le port 8888 (par défaut). Dans ce cas, rendez-le accessible depuis le PC Faites un trou dans le groupe de sécurité.
EC2 démarré par EMR a la version 2.6.9 de Python, changez-le donc en 2.7. Puisque 2.7 est installé à l'origine, changez simplement la destination du lien.
sudo unlink /usr/bin/python
sudo ln -s /usr/bin/python2.7 /usr/bin/python
pip a mis à jour et changé la destination du lien.
sudo pip install -U pip
sudo ln -s /usr/bin/pip-2.7 /usr/bin/pip
Actuellement (octobre 2015), Jupyter 4.0.6 est installé.
sudo pip install jupyter
jupyter-notebook
Créez un fichier de configuration de modèle (la destination de sortie est ~ / .jupyter / jupyter_notebook_config.py)
jupyter notebook --generate-config
py:~/.jupyter/jupyter_notebook_config.py
c = get_config()
c.NotebookApp.ip = '*'
c.NotebookApp.open_browser = False
c.NotebookApp.port = 8888
Si vous incluez Hue, accédez à c.NotebookApp.port Définissez un port autre que 8888 ouvert dans le groupe de sécurité.
Le profil semble-t-il disparaître de Jupyter 4.X? Vous pouvez spécifier un fichier de configuration à l'aide de l'option config. Exemple)
jupyter-notebook --config='~/.ipython/profile_nbservers/ipython_config.py'
Si vous spécifiez le chemin du répertoire dans la variable d'environnement JUPYTER_CONFIG_DIR Il lira jupyter_notebook_config.py dans ce répertoire.
Changement de spark.master de fil à local. (Si vous ne le faites pas, SparkContext s'arrêtera)
/usr/lib/spark/conf/spark-defaults.conf
# spark.master yarn
spark.master local
Auparavant, dans ~ / .ipython / profile_ \ <nom de profil > / startup / 00- \ <nom de profil > - setup.py Je me préparais pour Spark, mais je ne pouvais pas faire ça non plus J'exécute la commande suivante sur mon bloc-notes Jupyter.
export SPARK_HOME='/usr/lib/spark'
import os
import sys
spark_home = os.environ.get('SPARK_HOME', None)
if not spark_home:
raise ValueError('SPARK_HOME environment variable is not set')
sys.path.insert(0, os.path.join(spark_home, 'python'))
sys.path.insert(0, os.path.join(spark_home, 'python/lib/py4j-0.8.2.1-src.zip'))
execfile(os.path.join(spark_home, 'python/pyspark/shell.py'))
Il peut être lu comme un fichier.
Recommended Posts