Je voudrais résumer quelques prétraitements japonais avec traitement du langage naturel. (Prévu pour être mis à jour à tout moment)
>>> import unicodedata
>>>
>>> text =u '1994'
>>> print unicodedata.normalize(‘NFKC’, text)
1994
Je pense que la plupart des gens analysent le japonais avec mecab.
Et je pense qu'il y a beaucoup de gens qui utilisent neologd comme dictionnaire, mais il y en a un que j'ai trouvé en utilisant ce dictionnaire.
$ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd
nuage
Nuage substantif,Nom propre,Général,*,*,*,nuage~,Kumonomukouyakusokunobasho,Kumonomukouyakusokunobasho
EOS
Kumonomukouyakusokunobasho ...? Quand je l'ai recherché, c'était un film d'anime réalisé par Makoto Shinkai.
Recommended Posts