--Utilisez MeCab pour l'analyse morphologique - http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
--Utiliser un nouveau dictionnaire de mots - https://github.com/neologd/mecab-ipadic-neologd/ --Utiliser en combinaison avec d'autres modules dans les scripts Python
Python 2.7 Utilisez Conda.
$ conda create -n py27con python=2.7 anaconda
$ conda info -e
$ source ~/.pyenv/versions/miniconda3-3.16.0/envs/py27con/bin/activate py27con
mecab-ipadic J'utiliserai mecab-ipadic-neologd plus tard, donc je le mettrai en UTF-8
$ cd ~/path/to/mecab-ipadic-2.7.0-20070801/
$ make clean
$ ./configure --with-charset=utf8
$ make
$ make install
mecab-ipadic-neologd
$ cd ~/path/to/mecab-ipadic-neologd/
$ bin/install-mecab-ipadic-neologd
mecab-python
Liaisons MeCab Python
$ pip install https://mecab.googlecode.com/files/mecab-python-0.996.tar.gz
test.py
# -*- coding: utf-8 -*-
import MeCab
m = MeCab.Tagger(' -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
text = '''
"Idol Master Cinderella Girls" (L'IDOLME@STER CINDERELLA GIRLS) est "THE IDOLM" développé et exploité par Bandai Namco Entertainment (anciennement Bandai Namco Games) et Cygames.@Un jeu social exclusivement pour les terminaux mobiles avec le motif du monde de STER.
'''
print(m.parse(text))
Le texte est [Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%A2%E3%82%A4%E3%83%89%E3%83%AB%E3%83%9E%E3 % 82% B9% E3% 82% BF% E3% 83% BC_% E3% 82% B7% E3% 83% B3% E3% 83% 87% E3% 83% AC% E3% 83% A9% E3% 82 À partir de% AC% E3% 83% BC% E3% 83% AB% E3% 82% BA).
$ python test.py
"Symbole,Ouvrir les parenthèses,*,*,*,*,『,『,『
Idol Master Cinderella Girls Nominal,Nomenclature propriétaire,Général,*,*,*,Idolmaster Cendrillon Filles,Idolmaster Cendrillon Filles,Idolmaster Cendrillon Filles
"Symbole,Fermé entre parenthèses,*,*,*,*,』,』,』
(Symbole,Ouvrir les parenthèses,*,*,*,*,(,(,(
THE IDOLM@Nomenclature STER CINDERELLA GIRLS,Nomenclature propriétaire,Général,*,*,*,THE IDOLM@STER CINDERELLA GIRLS,Idolmaster Cendrillon Filles,Idolmaster Cendrillon Filles
) Symbole,Fermé entre parenthèses,*,*,*,*,),),)
Est un assistant,Assistance,*,*,*,*,Est,C,sensationnel
, Symbole,Point de lecture,*,*,*,*,、,、,、
Bandai Namco Entertainment Noun,Nomenclature propriétaire,Général,*,*,*,Divertissement Bandai Namco,Divertissement Bandai Namco,Divertissement Bandai Namco
(Symbole,Ouvrir les parenthèses,*,*,*,*,(,(,(
Ancien préfixe,Connexion de nom,*,*,*,*,Vieux,Kyu,queue
Bandai Namco Games Noun,Nomenclature propriétaire,Général,*,*,*,BANDAI NAMCO Games,Jeux Bandai Namco,Jeux Bandai Namco
) Symbole,Fermé entre parenthèses,*,*,*,*,),),)
Et des mots auxiliaires,Assistants parallèles,*,*,*,*,Quand,À,À
Nomenclature Cygames,Nomenclature propriétaire,Général,*,*,*,Cygames,Jeux Sai,Jeux Sai
Est un assistant,Assistant de cas,Général,*,*,*,Mais,Géorgie,Géorgie
Nomenclature de développement,Changer de connexion,*,*,*,*,développement de,Kaihatsu,Kaihatsu
· Symbole,Général,*,*,*,*,・,・,・
Nomenclature de gestion,Changer de connexion,*,*,*,*,Opération,Unei,Unei
Verbe,Indépendance,*,*,Sahen / Suru,Forme basique,Faire,Suru,Suru
"Symbole,Ouvrir les parenthèses,*,*,*,*,『,『,『
THE IDOLM@STER substantif,Nomenclature propriétaire,Général,*,*,*,THE IDOLM@STER,Maître des idoles,Maître des idoles
"Symbole,Fermé entre parenthèses,*,*,*,*,』,』,』
Mots auxiliaires,syndicat,*,*,*,*,de,Non,Non
Nomenclature de la vision du monde,Nomenclature propriétaire,Général,*,*,*,Vue du monde,Sekaikan,Sekaikan
Auxiliaire,Assistant de cas,Général,*,*,*,À,Wo,Wo
Motif substantif,Général,*,*,*,*,motif,motif,motif
Et des mots auxiliaires,Assistant de cas,Général,*,*,*,Quand,À,À
Verbe,Indépendance,*,*,Sahen / Suru,Forme basique,Faire,Suru,Suru
Terminal mobile substantif,Nomenclature propriétaire,Général,*,*,*,Terminal mobile,Keitaitanmatsu,Keitaitanmatsu
Nomenclature dédiée,Changer de connexion,*,*,*,*,désigné,Senyou,Senyo
Mots auxiliaires,syndicat,*,*,*,*,de,Non,Non
Nomenclature des jeux sociaux,Nomenclature propriétaire,Général,*,*,*,jeu social,jeu social,jeu social
.. symbole,Phrase,*,*,*,*,。,。,。
EOS
Au fait, si vous omettez -d / usr / local / lib / mecab / dic / mecab-ipadic-neologd
et regardez la différence, vous pouvez voir que le nouveau dictionnaire de mots fonctionne bien (principalement unique). nom).
Liste des problèmes fréquents:
source activate
--Cela peut être fait en spécifiant correctement le chemin de ʻactiver`.
--Travailler pour rendre le script de configuration de liaison Python obtenu et l'exemple de script compatibles avec Python 3.5
--Travailler pour rendre la liaison elle-même 3.5 compatible avec SWIG
--Je reçois encore des erreurs liées à UnicodeJe voulais le faire avec 3,5 si possible, mais je ne pouvais pas m'échapper parce que j'en étais accro, alors je l'ai fait avec 2,7 pour le moment.
Recommended Posts