Je voulais implémenter Markov Chain Artificial Brainless en Python. À propos, quand j'ai cherché ce qu'il fallait jeter dans l'analyse morphologique, Janome n'a aucune dépendance vis-à-vis d'autres bibliothèques Il semble que vous puissiez l'installer rapidement avec un seul pip. Essayez-le!
Python 3.8.5 Janome 0.4.1
from janome.tokenizer import Tokenizer
t = Tokenizer()
s = "La poudre rouge du crayon de couleur herbe-wakaba est éparpillée et je ne peux pas dormir"
for token in t.tokenize(s):
print(token)
Utilisez la classe Tokenizer.
t = Tokenizer()
Créez une instance de Tokenizer,
for token in t.tokenize(s):
print(token)
Transmettez la phrase que vous souhaitez analyser à la méthode tokenize. Si vous affichez le contenu un par un comme ci-dessus, cela ressemble à ceci.
python analysis.py
Herbe substantif,Général,*,*,*,*,herbe,Kusa,Kusa
Wakaba substantif,Nomenclature propriétaire,Organisation,*,*,*,Wakaba,Wakaba,Wakaba
Crayon de couleur,Général,*,*,*,*,Crayon de couleur,Iroempitsu,Iroempitsu
Mots auxiliaires,syndicat,*,*,*,*,de,Non,Non
Adjectif rouge,Indépendance,*,*,apocalypse,Connexion Word,rouge,Akaki,Akaki
Poudre substantif,Général,*,*,*,*,poudre,Kona,Kona
Mots auxiliaires,Assistant de cas,Général,*,*,*,de,Non,Non
Verbe Scatter,Indépendance,*,*,Cinq étapes, La ligne,Forme basique,Dispersion,Refroidissement,Refroidissement
Est un assistant,Assistant de connexion,*,*,*,*,Mais,Géorgie,Géorgie
Adjectif bien-aimé,Indépendance,*,*,Adjectif / Idan,Connexion continue,Bien-aimé,Itoshiku,Itoshiku
Verbe endormi,Indépendance,*,*,Un pas,Type continu,dormir,Ne,Ne
Te assistant,Assistant de connexion,*,*,*,*,main,Te,Te
Verbe Kezuru,Indépendance,*,*,Cinq étapes, La ligne,Forme basique,Kezuru,Kezuru,Kezuru
Assistant Nari,Assistant de connexion,*,*,*,*,Nari,Nari,Nari
Vous pouvez également retirer les éléments un par un. J'ai essayé de sortir la forme de la couche de surface, la forme de base et les paroles des parties.
from janome.tokenizer import Tokenizer
t = Tokenizer()
s = "Je ne peux pas dormir"
for token in t.tokenize(s):
print("==========")
print(token.surface + " (Type de surface)")
print(token.base_form + " (Forme basique)")
print(token.part_of_speech + " (Partie)")
Résultat d'exécution
python analysis.py
==========
Dormir(Type de surface)
dormir(Forme basique)
verbe,Indépendance,*,* (Partie)
==========
main(Type de surface)
main(Forme basique)
Particule,接続Particule,*,* (Partie)
==========
Kezuru(Type de surface)
Kezuru(Forme basique)
verbe,Indépendance,*,* (Partie)
==========
Nari(Type de surface)
Nari(Forme basique)
Particule,接続Particule,*,* (Partie)
Nous implémenterons la génération de phrases dans le prochain chapitre. Markov Chain Artificial Brainless with Python + Janome (2) Introduction to Markov Chain
Recommended Posts