Faisons du text mining très facilement en utilisant la série Python 3.x.
** Cette fois, en plus du traitement sur le terminal LINUX autant que possible pour que même les personnes qui n'ont jamais utilisé Python puissent le comprendre, soyez assuré que les commandes à saisir sont également décrites! ** (Je ne sais rien de Python ...)
L'exploration de texte (anglais: text mining) est une exploration de données pour les chaînes de caractères. Il s'agit d'une méthode d'analyse de données textuelles qui extrait des informations utiles en divisant les données constituées de phrases ordinaires en mots et en phrases et en analysant la fréquence de leur apparition, la corrélation de la co-apparition, la tendance de l'apparence et la série chronologique. Source [Wikipedia](https://ja.m.wikipedia.org/wiki/%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%83%9E% E3% 82% A4% E3% 83% 8B% E3% 83% B3% E3% 82% B0)
Cette fois, créons un * nuage de mots * avec la technologie de text mining! Voilà ce qu'est un nuage de mots. ↓
Tout d'abord, préparez les données à analyser. Cependant, il est difficile de se préparer immédiatement, donc cette fois je vais utiliser les données du tweet ** de l'événement en ligne ** "Idol Master Shiny Colors MUSIC DAWN DAY 1" qui a eu lieu le 31 octobre.
cliquez ici pour télécharger [Données textuelles # Shanimas MUSICDAWNday2](https://www.github.com/ysok2135/py/tree/main/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3 % E6% 9E% 90% E5% 85% 83% E3% 83% 86% E3% 82% 99% E3% 83% BC% E3% 82% BF_SC_DOWN_20201031_utf8.csv)
sudo apt install python3.7
Contrairement à l'anglais, le japonais ne sépare pas les segments par des espaces, vous ne pouvez donc pas faire de text mining depuis le début. Par conséquent, cette fois, nous utiliserons le ** moteur d'analyse morphologique open source MeCab **, qui est familier dans la rue.
Tapez l'ordre de commande suivant.
udo apt install mecab
sudo apt install libmecab-dev
sudo apt install mecab-ipadic
sudo apt install mecab-ipadic-utf8
pip install mecab-python3
Si vous souhaitez améliorer la précision de la recherche, vous devez également installer un dictionnaire supplémentaire tel que NEologd, mais cette fois ce n'est pas gênant.
De nombreux sites fonctionnent sur python, mais je pense que c'est beaucoup plus facile. Tout d'abord, définissez le fichier source de l'analyse sur "test.txt". Entrez ensuite ce qui suit dans le terminal:
mecab -Owakati test.txt -o sample.txt
**c'est tout! ** ** Lorsque je vérifie le fichier, il est correctement analysé.
pip install wordcloud
C'est tout.
Copiez l'exemple de code ci-dessous.
sample.py
from wordcloud import WordCloud
with open('sample.txt') as f:
text = f.read()
stop_words = [ u'https', u'co', u'Merci', u'RT', u'Ah', u'']
wc = WordCloud(background_color="white",width=1600, height=1200, font_path='GenEiLateGoP_v2.ttf', stopwords=set(stop_words))
wc.generate(text)
wc.to_file('wc1.png')
** ① Lire wordcloud et importer des fichiers **
from wordcloud import WordCloud
with open('sample.txt') as f:
text = f.read()
** ② Divers réglages ** stop_words ・ ・ ・ Définissez des mots-clés à exclure ** Il est recommandé d'essayer plusieurs fois et de définir des mots-clés. ** ** background_color ・ ・ ・ Couleur de fond largeur, hauteur ・ ・ ・ Réglez la taille de l'image (l'unité est le pixel) fonf_path ・ ・ ・ Spécifiez le chemin de la police (Cette fois, j'utilise la source anglaise Latemin) ↑ ** [Super important! Si vous ne chargez pas la police japonaise, vous obtiendrez du tofu! !! !! ] **
stop_words = [ u'https', u'co', u'Merci', u'RT', u'Ah', u'']
wc = WordCloud(background_color="white",width=1600, height=1200, font_path='GenEiLateGoP_v2.ttf', stopwords=set(stop_words))
** ③ Traitement d'exécution **
wc.generate(text)
wc.to_file('wc1.png')
python3 sample.py
Résultat d'exécution
Génial! !! !! La présence de M. Tsuda est dangereuse! (Lol)
Vous pouvez le visionner avec le thème d'Aozora Bunko. J'espère que vous serez intéressé par l'analyse émotionnelle et ainsi de suite. Merci jusqu'à la fin.
* Environnement de vérification
Ubuntu 18.04 LTS
Python 3.7
Recommended Posts