http://connpass.com/event/34680/
Comme d'habitude, j'ai participé au milieu de la session, j'ai donc oublié le & macbook et pris des notes sur mon iPhone dès le milieu de la première annonce, donc je trouve que le japonais n'est pas pratique.
M. Yasuaki Ariga (@chezou) de Cloudera
http://www.slideshare.net/Cloudera_jp/ibis-pandas-summerds
Démo avec le notebook Jupyter
Scikit-learn sort après la création des données des enseignants
spark-sklearn
pip install ibis-framework Peut être installé avec
Si vous souhaitez utiliser Impala, vous devez utiliser le directeur de Cloudera.
M. Haruka Naito, cyber agent
Les trois types de systèmes de recommandation suivants sont utilisés dans Ameba
Item to Item collaborative filtering
Basé sur l'évaluation des utilisateurs proches les uns des autres
Basé sur l'évaluation des utilisateurs basée sur la distance entre les éléments La précision peut être obtenue même si l'élément est moins évalué
Divisez le nombre de cooccurrences (nombre d'utilisateurs en double) par la somme des racines carrées des éléments
Attribuer à chaque travailleur à l'aide de variables de diffusion. Cela élimine le besoin de jointures compliquées
Créez un ensemble d'éléments (filtre) à l'avance et filtrez les résultats
M. Nagato Kasaki, laboratoire DMM.com
Histoire d'opération après avoir fait
Utilisation de Spark à partir de février 2015.
13 à 168 cas avec 3 ingénieurs J'ai pu le gérer car il était automatisé
Les ressources sont environ 1,5 fois 230CPU / 580 Go à 360CPU / 900 Go
Temps de 3h à 4h
Puisqu'il existe de nombreux services, il est facile de commencer à utiliser de nouveaux services.
Étant donné que le rapport entre le nombre d'utilisateurs et le nombre d'éléments varie considérablement en fonction du service, un réglage est également nécessaire individuellement.
Le sens de l'échelle est de 1 million d'utilisateurs ou 4 millions de produits
Nous avons une matrice d'articles pour tous les services → Des recommandations entre services seront également possibles
Deux types d'algorithmes sont utilisés correctement
La recette définit les réglages des paramètres pour hive, spark et sqoop dans JSON.
Un réglage de précision est en fait mis en place et testé A / B (il existe des formules d'évaluation académiques, mais il y a certaines choses qui ne peuvent être comprises sans essayer). Les performances sont faciles à comprendre et les problèmes, alors réglez à l'avance
La division des données échoue parfois en raison de la loi de 20:80 (dans de nombreux cas, même si elle est divisée, elle est biaisée) Si vous pouvez bien le diviser, il sera raccourci de 3 heures à 3 minutes
(Montage ci-dessous)
Cadre LT
les débutants d'étincelles étaient accros aux recommandations
Épuisement du disque lors de la soumission toutes les 15 minutes le pot est copié Soumettre en recréant le cluster
Petit nombre de partitions lors du chargement à partir de BigQuery l'exécuteur ne peut pas être utilisé Le repartitionnement est important
Non recommandé Il y a trop d'utilisateurs pour obtenir des produits directs Traités ensemble dans un ensemble d'utilisateurs
Réglage des performances du moteur de recommandation à l'aide de Spark
visualisation dag Voyons voir
Si non distribué, distribuez Ne pas mélanger avec une grande quantité de données
Rdd utilisé plusieurs fois est mis en cache
Option de ne pas sérialiser en cas de goulot d'étranglement du processeur
KryoSerializer est deux fois plus rapide
Recommended Posts