Wrapper exécutant Hadoop en Python

Je veux faire du machine learning Hadoop avec Python

Vous pouvez écrire des Jobs Hadoop autres que Java, donc J'ai créé un wrapper appelé SkipJack qui peut implémenter Python qui est fort en apprentissage automatique avec Hadoop Python Mokumokukai et New Year.

GitHub est ci-dessous. (Pas de pip) GitHub-SkipJack

Détails ci-dessous

  1. HadoopStreaming
  2. Scikit-learn
  3. SkipJack

HadoopStreaming

À Hadoop

--Exécuter Java sur la partie esclave (Tutoriel Haoop MR) --Exécuter des fichiers via une entrée / sortie standard sur la partie esclave (Tutoriel Hadoop Streaming)

Il existe deux méthodes d'exécution, Hadoop peut être utilisé dans tous les langages qui peuvent gérer les entrées / sorties standard. (Streaming Hadoop)

Vous n'êtes donc pas obligé d'utiliser Mahout simplement parce que vous faites du machine learning avec Hadoop, Vous pouvez l'implémenter dans votre bibliothèque préférée à l'aide de Python, qui est puissant en apprentissage automatique.

Pour le flux général de préparation de Hadoop, reportez-vous à Introduction de Hadoop et MapReduce par Python.

Scikit-learn

La plus importante bibliothèque d'apprentissage automatique implémentée en Python. Pour l'utiliser, il est également nécessaire d'installer Numpy et Scipy, mais comme il n'est pas facile de l'installer avec pip seul, J'ai téléchargé la série 3 de Anaconda qui contient un ensemble de bibliothèques depuis le début et je l'ai installée sur tous les esclaves.

SkipJack

Dans Hadoop Streaming, la commande d'exécution de hadoop devait être tapée à la main, ce qui était gênant. En exécutant python

** Décidez du Job à exécuter → Exécuter Hadoop → Évaluer le résultat → Déterminer le Job à exécuter ensuite → Ci-dessous, boucle jusqu'à l'arrêt **

J'ai fait un emballage qui peut faire. Si vous implémentez le mappeur, le réducteur et la méthode d'évaluation des résultats, vous n'avez pas besoin d'écrire un travail de routine.

Le contenu est C'est aussi simple que d'exécuter les commandes Hadoop (exécuter, mettre un fichier, lire le résultat (cat)).

Dans l'exemple,

--WordCount + Alpha

Nous en avons préparé deux.

Recommended Posts

Wrapper exécutant Hadoop en Python
Wrapper de type Method_missing en Python
Quadtree en Python --2
Python en optimisation
CURL en Python
Métaprogrammation avec Python
Python 3.3 avec Anaconda
Géocodage en python
SendKeys en Python
Méta-analyse en Python
Unittest en Python
Époque en Python
Discord en Python
Allemand en Python
DCI en Python
tri rapide en python
N-Gram en Python
Programmation avec Python
Plink en Python
Constante en Python
Principes de base pour exécuter NoxPlayer en Python
FizzBuzz en Python
Sqlite en Python
Étape AIC en Python
LINE-Bot [0] en Python
CSV en Python
Assemblage inversé avec Python
Réflexion en Python
nCr en Python.
format en python
Scons en Python 3
Puyopuyo en python
python dans virtualenv
Quad-tree en Python
Réflexion en Python
Chimie avec Python
Hashable en Python
DirectLiNGAM en Python
LiNGAM en Python
Aplatir en Python
Aplatir en python
Obtenez le fichier, la fonction, le numéro de ligne en cours d'exécution en python
Liste triée en Python
AtCoder # 36 quotidien avec Python
Texte de cluster en Python
AtCoder # 2 tous les jours avec Python
Daily AtCoder # 32 en Python
Daily AtCoder # 6 en Python
classe wrapper python syslog
Daily AtCoder # 18 en Python
Modifier les polices en Python
Motif singleton en Python
Opérations sur les fichiers en Python
Lire DXF avec python
Daily AtCoder # 53 en Python
Séquence de touches en Python
Utilisez config.ini avec Python
Daily AtCoder # 33 en Python
Résoudre ABC168D en Python