Cet article est le sixième jour de estie Advent Calendar 2019. Je suis ingénieur dans une entreprise immobilière estie.inc.
Récemment, cet article est devenu un sujet brûlant! [Python] J'ai essayé de visualiser les paroles d'Arashi avec WordCloud et de démêler ce que je voulais transmettre aux fans en 20 ans de formation
Cela me rend vraiment heureux lorsque mes idoles et artistes préférés sont actifs et aimés depuis de nombreuses années. En tant que fan, je comprends vraiment leurs paroles et l'envie de confirmer ce que je voulais transmettre.
Au fait, par hasard, il y a un artiste qui a également fêté ses 20 ans.
C'est vrai, tout le monde aime le parfum.
Comme vous le savez, le parfum a une forte affinité avec la technologie, [Google's Machine Learning](https://cloud.google.com/blog/ja/products/gcp/nhk-perfume-technology-reframe-your-photo- Nous continuons d'envoyer des expressions de pointe telles que la production en direct à l'aide de google-tensorflow) et la distribution en direct sur la 5G. Je vais. M. Rhizomatiks.
Donc, en tant que l'un des fans qui fréquentent Perfume live depuis environ 10 ans J'essaierai l'analyse morphologique + la visualisation WordCloud des paroles de Parfum.
Comme nos prédécesseurs Obtenir les paroles → Analyse morphologique → WordCloud Je le ferai. Pour plus de détails, veuillez consulter [Site de référence](# Site de référence)
Je n'ai pas fait beaucoup de text mining, alors j'ai pensé que c'était MeCab en ce qui concerne l'analyse morphologique. Il semble qu'il existe différents outils d'analyse morphologique lorsque je recherche.
Cette fois parmi eux
J'aimerais essayer ce trio.
MeCab Il s'agit d'un outil d'analyse morphologique standard développé par le développeur d'entrée japonais actuel de Google. Cela fonctionne dans n'importe quel environnement, mais un dictionnaire séparé est nécessaire pour l'analyse. Cette fois, j'ai utilisé le dictionnaire IPA officiellement recommandé + un nouveau dictionnaire de mots
macab_.py
import MeCab
#Lecture du fichier de paroles
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')
#Analyse morphologique
mecab = MeCab.Tagger("-ochasen")
node = mecab.parseToNode(text)
perfume_list = []
tags = ["nom","verbe", "adverbe", "adjectif", "形容verbe"]
while node:
#Extraction de mots
word = node.surface
#Extraction de mots de pièce
word_class = node.feature.split(",")[0]
#Extraire uniquement des mots de partie spécifiques
if word_class in tags:
perfume_list.append(word)
node = node.next
print(perfume_list)
Janome
C'est également le deuxième outil d'analyse le plus populaire après MeCab.
La vitesse d'exécution est plus lente que MeCab, mais il y a peu d'inclusions de dictionnaire et de bibliothèques dépendantes
pip install janome
La facilité avec laquelle l'installation est réalisée est attrayante.
Il semble qu'il soit souvent utilisé dans la vérification de l'étape précédente de MeCab.
janome_.py
from janome.tokenizer import Tokenizer
#Lecture du fichier de paroles
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')
#Analyse morphologique
t = Tokenizer()
seps = t.tokenize(text)
perfume_list = []
tags = ["nom","verbe", "adverbe", "adjectif", "形容verbe"]
for _ in seps:
#Extraction de mots
if _.base_form == '*':
word = _.surface
else:
word = _.base_form
#Extraction de mots de pièce
ps = _.part_of_speech
word_class = ps.split(',')[0]
#Extraire uniquement des mots de partie spécifiques
if word_class in tags:
perfume_list.append(word)
print(perfume_list)
Nagisa
C'est un outil relativement nouveau. Environnement facile à construire comme Janome
pip install nagisa
L'installation est terminée avec.
Cette fois, ce sont les paroles, donc je ne peux pas m'en servir, mais il semble que je puisse effectuer une analyse robuste sur les lettres faciales et les URL.
Il est facile à extraire car il existe une méthode de filtrage des mots de sortie par partie.
nagisa_.py
import nagisa
#Lecture du fichier de paroles
text_data = open("perfume.txt", "rb").read()
text = text_data.decode('utf-8')
#Analyse morphologique / extraction de mots en spécifiant des mots de partie
tags = ["nom","verbe", "adverbe", "adjectif", "形容verbe"]
perfume_list = nagisa.extract(text, extract_postags=tags).words
print(perfume_list)
Mecab
Janome
Nagisa
Mecab et Janome, qui utilisent le même dictionnaire, ont donné des résultats similaires.
Pa Pa Je suis sûr que tu t'aime aujourd'hui, n'est-ce pas une discothèque? Il y a beaucoup de chansons qui répètent les titres des chansons, donc cette influence se reflète également!
Il existe des outils d'exploration de texte abondants et faciles à utiliser, et je suis heureux de pouvoir le visualiser facilement. Pourquoi ne pas l'essayer avec votre artiste préféré?
Au fait, dans l'estie que je rejoins actuellement, en visualisant les données du bureau Nous offrons une variété de services immobiliers x technologiques. Si vous envisagez de déménager votre bureau, veuillez utiliser estie! Nous fournissons également une plateforme de données immobilières estie pro.
Aussi, Estie recherche un ingénieur web Wantedly N'hésitez pas à venir nous rendre visite au bureau!
--Les paroles proviennent de uta-net
Recommended Posts