Comme c'est le 20e anniversaire de la formation, j'ai essayé de visualiser les paroles de Parfum avec Word Cloud

perfume.png

Cet article est le sixième jour de estie Advent Calendar 2019. Je suis ingénieur dans une entreprise immobilière estie.inc.

introduction

Récemment, cet article est devenu un sujet brûlant! [Python] J'ai essayé de visualiser les paroles d'Arashi avec WordCloud et de démêler ce que je voulais transmettre aux fans en 20 ans de formation

Cela me rend vraiment heureux lorsque mes idoles et artistes préférés sont actifs et aimés depuis de nombreuses années. En tant que fan, je comprends vraiment leurs paroles et l'envie de confirmer ce que je voulais transmettre.

Au fait, par hasard, il y a un artiste qui a également fêté ses 20 ans.

C'est vrai, tout le monde aime le parfum.

Comme vous le savez, le parfum a une forte affinité avec la technologie, [Google's Machine Learning](https://cloud.google.com/blog/ja/products/gcp/nhk-perfume-technology-reframe-your-photo- Nous continuons d'envoyer des expressions de pointe telles que la production en direct à l'aide de google-tensorflow) et la distribution en direct sur la 5G. Je vais. M. Rhizomatiks.

Donc, en tant que l'un des fans qui fréquentent Perfume live depuis environ 10 ans J'essaierai l'analyse morphologique + la visualisation WordCloud des paroles de Parfum.

environnement

manière

Comme nos prédécesseurs Obtenir les paroles → Analyse morphologique → WordCloud Je le ferai. Pour plus de détails, veuillez consulter [Site de référence](# Site de référence)

Outil d'analyse morphologique

Je n'ai pas fait beaucoup de text mining, alors j'ai pensé que c'était MeCab en ce qui concerne l'analyse morphologique. Il semble qu'il existe différents outils d'analyse morphologique lorsque je recherche.

Cette fois parmi eux

J'aimerais essayer ce trio.

MeCab Il s'agit d'un outil d'analyse morphologique standard développé par le développeur d'entrée japonais actuel de Google. Cela fonctionne dans n'importe quel environnement, mais un dictionnaire séparé est nécessaire pour l'analyse. Cette fois, j'ai utilisé le dictionnaire IPA officiellement recommandé + un nouveau dictionnaire de mots

macab_.py


import MeCab

#Lecture du fichier de paroles
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')

#Analyse morphologique
mecab = MeCab.Tagger("-ochasen")
node = mecab.parseToNode(text)

perfume_list = []
tags = ["nom","verbe", "adverbe", "adjectif", "形容verbe"]

while node:
    #Extraction de mots
    word = node.surface
    #Extraction de mots de pièce
    word_class = node.feature.split(",")[0]
    
    #Extraire uniquement des mots de partie spécifiques
    if word_class in tags:
        perfume_list.append(word)

    node = node.next

print(perfume_list)

Janome C'est également le deuxième outil d'analyse le plus populaire après MeCab. La vitesse d'exécution est plus lente que MeCab, mais il y a peu d'inclusions de dictionnaire et de bibliothèques dépendantes pip install janome La facilité avec laquelle l'installation est réalisée est attrayante. Il semble qu'il soit souvent utilisé dans la vérification de l'étape précédente de MeCab.

janome_.py


from janome.tokenizer import Tokenizer

#Lecture du fichier de paroles
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')

#Analyse morphologique
t = Tokenizer()
seps = t.tokenize(text)

perfume_list = []
tags = ["nom","verbe", "adverbe", "adjectif", "形容verbe"]

for _ in seps:
    #Extraction de mots
    if _.base_form == '*':
        word = _.surface
    else:
        word = _.base_form

    #Extraction de mots de pièce
    ps = _.part_of_speech
    word_class = ps.split(',')[0]

    #Extraire uniquement des mots de partie spécifiques
    if word_class in tags:
        perfume_list.append(word)

print(perfume_list)

Nagisa C'est un outil relativement nouveau. Environnement facile à construire comme Janome pip install nagisa L'installation est terminée avec. Cette fois, ce sont les paroles, donc je ne peux pas m'en servir, mais il semble que je puisse effectuer une analyse robuste sur les lettres faciales et les URL. Il est facile à extraire car il existe une méthode de filtrage des mots de sortie par partie.

nagisa_.py


import nagisa

#Lecture du fichier de paroles
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')

#Analyse morphologique / extraction de mots en spécifiant des mots de partie
tags = ["nom","verbe", "adverbe", "adjectif", "形容verbe"]
perfume_list = nagisa.extract(text, extract_postags=tags).words

print(perfume_list)

résultat

Mecab et Janome, qui utilisent le même dictionnaire, ont donné des résultats similaires.

en conclusion

Pa Pa Je suis sûr que tu t'aime aujourd'hui, n'est-ce pas une discothèque? Il y a beaucoup de chansons qui répètent les titres des chansons, donc cette influence se reflète également!

Il existe des outils d'exploration de texte abondants et faciles à utiliser, et je suis heureux de pouvoir le visualiser facilement. Pourquoi ne pas l'essayer avec votre artiste préféré?


Au fait, dans l'estie que je rejoins actuellement, en visualisant les données du bureau Nous offrons une variété de services immobiliers x technologiques. Si vous envisagez de déménager votre bureau, veuillez utiliser estie! Nous fournissons également une plateforme de données immobilières estie pro.

Aussi, Estie recherche un ingénieur web Wantedly N'hésitez pas à venir nous rendre visite au bureau!

Site de référence

--Les paroles proviennent de uta-net

Recommended Posts

Comme c'est le 20e anniversaire de la formation, j'ai essayé de visualiser les paroles de Parfum avec Word Cloud
J'ai essayé de vectoriser les paroles de Hinatazaka 46!
[Python] J'ai visualisé les paroles d'Arashi avec WordCloud et j'ai essayé de démêler ce que je voulais transmettre aux fans en 20e année de formation.
J'ai essayé de visualiser facilement les tweets de JAWS DAYS 2017 avec Python + ELK
J'ai essayé de visualiser les caractéristiques des nouvelles informations sur les personnes infectées par le virus corona avec wordcloud
J'ai essayé de visualiser les données de course du jeu de course (Assetto Corsa) avec Plotly
Le 15e temps réel hors ligne, j'ai essayé de résoudre le problème de l'écriture avec python
J'ai essayé de trouver l'entropie de l'image avec python
[Python] J'ai essayé de visualiser la relation de suivi de Twitter
J'ai essayé de visualiser les paroles de GReeeen, que j'écoutais de façon folle dans ma jeunesse mais que je ne l'écoutais plus.
[Flask & Bootstrap] Visualisez le contenu des paroles avec Word Cloud ~ Lyrics Word Cloud ~
J'ai essayé d'afficher les données du groupe de points DB de la préfecture de Shizuoka avec Vue + Leaflet
J'ai essayé de visualiser la consommation électrique de ma maison avec Nature Remo E lite
Depuis que le stock a plongé en raison de l'influence du nouveau virus corona, j'ai essayé de visualiser les performances de ma fiducie d'investissement avec Python.
J'ai essayé d'automatiser l'arrosage du pot avec Raspberry Pi
J'ai essayé de résumer ce qui était sorti avec Qiita avec Word cloud
Visualisez la fréquence des occurrences de mots dans les phrases avec Word Cloud. [Python]
J'ai essayé d'améliorer l'efficacité du travail quotidien avec Python
J'ai essayé de visualiser la condition commune des téléspectateurs de la chaîne VTuber
[Python] J'ai essayé de visualiser le prix en argent de "ONE PIECE" plus de 100 millions de caractères avec matplotlib.
J'ai essayé de reconnaître le mot de réveil
[Python] J'ai essayé de visualiser la nuit du chemin de fer de la galaxie avec WordCloud!
Je veux exprimer mes sentiments avec les paroles de Mr. Children
J'ai essayé d'extraire automatiquement les mouvements des joueurs Wiire avec un logiciel
J'ai essayé d'analyser la négativité de Nono Morikubo. [Comparer avec Posipa]
J'ai essayé de rationaliser le rôle standard des nouveaux employés avec Python
J'ai essayé d'obtenir les informations sur le film de l'API TMDb avec Python
J'ai essayé de visualiser tous les arbres de décision de la forêt aléatoire avec SVG
J'ai essayé de prédire le comportement du nouveau virus corona avec le modèle SEIR.
J'ai essayé Web Scraping pour analyser les paroles.
J'ai essayé de sauvegarder les données avec discorde
Lorsque j'ai essayé de changer le mot de passe root avec ansible, je ne pouvais pas y accéder.
J'ai essayé de corriger la forme trapézoïdale de l'image
J'ai essayé de vérifier le théorème du Big Bang [Est-il sur le point de revenir?]
Je n'ai pas compris le redimensionnement de TensorFlow, alors je l'ai résumé visuellement.
L'histoire de la fabrication de soracom_exporter (j'ai essayé de surveiller SORACOM Air avec Prometheus)
Je voulais connaître le nombre de lignes dans plusieurs fichiers et j'ai essayé de l'obtenir avec une commande
J'ai essayé de créer un modèle avec l'exemple d'Amazon SageMaker Autopilot
J'ai essayé d'envoyer automatiquement la littérature du nouveau virus corona à LINE avec Python
J'ai essayé de faire quelque chose comme un chatbot avec le modèle Seq2Seq de TensorFlow
Python pratique 100 coups J'ai essayé de visualiser l'arbre de décision du chapitre 5 en utilisant graphviz
J'ai essayé d'automatiser la mise à jour de l'article du blog Livedoor avec Python et sélénium.
[SLAYER] J'ai essayé de confirmer l'âme d'acier en visualisant les paroles de slash metal [Word Cloud]
[First data science ⑥] J'ai essayé de visualiser le prix du marché des restaurants à Tokyo
J'ai essayé de faciliter la modification du paramètre du proxy authentifié sur Jupyter
J'ai essayé de comparer la vitesse de traitement avec dplyr de R et pandas de Python
J'ai essayé d'entraîner la fonction péché avec chainer
J'ai essayé d'extraire des fonctionnalités avec SIFT d'OpenCV
Puisque le memory_profiler de python est lourd, je l'ai mesuré
J'ai essayé de résumer la forme de base de GPLVM
J'ai essayé de toucher un fichier CSV avec Python
J'ai essayé de résoudre Soma Cube avec python
J'ai essayé de créer un pipeline ML avec Cloud Composer
Essayez d'obtenir le contenu de Word avec Golang
J'ai essayé d'effacer la partie négative de Meros
J'ai essayé de résoudre le problème avec Python Vol.1
J'ai essayé de classer les voix des acteurs de la voix
J'ai essayé de résumer les opérations de chaîne de Python