Exécutez janome étudié dans l'article suivant dans l'environnement local. J'essaierai d'explorer le journal que j'ai écrit. https://mocobeta.github.io/janome/
-PYthon 3.7.4
-Janome 0.30.10 -wordcloud 1.7.0
Dès l'installation du module
pip install Janome
pip install wordcloud
N'oubliez pas de cd dans le dossier du module et procédez comme suit (j'ai oublié)
Python setup.py install
Commande en traitement
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.charfilter import *
from janome.tokenfilter import *
from wordcloud import WordCloud
#Une fonction qui spécifie les mots de partie à filtrer ou à remplacer par des caractères non reconnus
def create_analyzer():
tokenizer=Tokenizer()
char_filters=[RegexReplaceCharFilter('《.*?》', '')] #Filtre qui remplace les chaînes
token_filters=[POSKeepFilter(['nom','adjectif','Verbe adjectif','Des mots impressionnants']),POSStopFilter(['nom,Non indépendant','nom,代nom']),ExtractAttributeFilter('base_form')]
#Conserver les mots cibles, exclure en haut, extraire les cibles uniquement des formulaires de base
#Cette fois, nous avons ciblé la nomenclature, les adjectifs, les verbes adjectifs et les verbes émotionnels.
return Analyzer(char_filters,tokenizer,token_filters=token_filters)
#Une fonction qui divise une phrase en mots et la renvoie sous forme de fichier texte
def split_text(src, out): #Prétraiter en divisant les phrases en mots en appliquant les informations du dictionnaire utilisateur
#Lit le fichier passé dans src, divise les mots et écrit en sortie.
a=create_analyzer()
with open(src,encoding='utf-8') as f1:
with open(out, mode='w', encoding='utf-8') as f2:
for line in f1:
tokens=list(a.analyze(line))
f2.write('%s\n' % ' '.join(tokens))
split_text('data/diary.txt', 'words.txt')
with open("words.txt",encoding='utf-8')as f:
text=f.read()
wc = WordCloud(width=1920, height=1080,
font_path="fonts/ipagp.ttf", #Téléchargement de polices
max_words=100,#Nombre de mots dans le nuage de mots
background_color="white",#Couleur de l'arrière plan
stopwords={"moi même","Absent","Bien","Bien"}) #Définir des mots interdits
wc.generate(text)
wc.to_file('data/test_wordcloud.png')
Vous pouvez ajouter un fichier csv d'un dictionnaire qui décrit les termes techniques avec la toute première fonction create_analyzer, mais cette fois je l'ai omis. Encore une fois, vous pouvez étudier sur la page ci-dessous https://mocobeta.github.io/janome/
Le fichier png suivant est créé. À l'avenir, j'aimerais lire des fichiers JSON en combinaison avec les informations et les API récupérées par le web scraping.
Recommended Posts