J'avais besoin de faire un corpus japonais, donc j'écrirai une histoire avec MeCab.
Un moteur d'analyse morphologique open source. En gros, l'analyse morphologique signifie «se décomposer à la plus petite unité d'un mot». En anglais, les plus petits mots unitaires comme "Ceci est un stylo." Sont séparés par des espaces, mais en japonais, ils sont collés ensemble, vous devez donc les analyser et les décomposer. Si vous ne le faites pas, vous ne pourrez pas le faire. URL officielle: http://taku910.github.io/mecab/ Licence:
J'ai fait référence à ce site entièrement. https://gist.github.com/YoshihitoAso/9048005 Merci beaucoup. m (__) m Si vous écrivez la procédure, $ sudo apt-get install mecab libmecab-dev mecab-ipadic $ sudo aptitude install mecab-ipadic-utf8 $ sudo apt-get install python-mecab Le premier est l'installation principale de MeCab, le second est la version UTF8 du dictionnaire IPA et le dernier est la bibliothèque appelée depuis python.
Cette fois, je voulais écrire une note, j'ai donc créé l'exemple de source suivant. Le résultat de son déplacement est comme ça.
Le site suivant a une description claire des options MeCab, merci. Dans mon cas, je ne voulais écrire que d'une manière séparée, donc je n'avais besoin que de "-Owakati", mais je pourrais l'utiliser plus tard. http://www.mwsoft.jp/programming/munou/mecab_command.html
Recommended Posts