Montre comment construire et installer le logiciel d'analyse morphologique MeCab, son dictionnaire et la bibliothèque (liaison) pour Python à partir du code source en tant que ** utilisateur général ** sur une machine Linux ne disposant pas de privilèges d'administrateur. La version MeCab est v0.996, la version Python est 2.7 et le dictionnaire IPA recommandé par le créateur de MeCab est utilisé comme dictionnaire.
Ceux qui peuvent gérer les commandes Linux minimales.
L'auteur n'est pas responsable des dommages causés en se référant à cet article. (Toute responsabilité incombe au lecteur.)
De plus, nous ne garantissons pas la validité du contenu de l'article. S'il y a des points qui doivent être corrigés, veuillez nous le faire savoir dans les commentaires.
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
À partir du lien ci-dessus, téléchargez un total de trois fichiers affichés dans la liste ci-dessous. Enregistrez également le fichier téléchargé dans n'importe quel répertoire (ici ~ / src /
) directement sous votre répertoire personnel.
Le troisième fichier est facultatif et ne doit pas nécessairement être installé, mais les programmes de traitement du langage naturel du livre utilisent souvent MeCab de Python et peuvent être nécessaires pour les exécuter. Il y a. (Bien que des bibliothèques pour d'autres langages tels que Ruby et Java soient disponibles en plus de Python, elles sont omises ici.)
Ensuite, allez dans ~ / src /
et décompressez et décompressez le fichier .tar.gz que vous avez téléchargé précédemment.
$ cd ~/src
$ tar zxfv mecab-0.996.tar.gz
$ tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
$ tar zxfv mecab-python-0.996.tar.gz
Lors de l'installation avec les privilèges root, MeCab est installé sous / usr / local /
par défaut. Cependant, l'installation échouera avec les privilèges généraux des utilisateurs.
Dans de tels cas, vous pouvez l'installer sous le répertoire souhaité {local}
en donnant au script .configure
l'option--prefix = {local} ʻ. Veuillez lire la partie de «{local}» selon le cas. Par exemple, dans mon cas, j'ai décidé de créer un répertoire nommé
localdans mon répertoire personnel et d'installer MeCab etc. sous ce répertoire. (Un moyen plus simple de spécifier le répertoire personnel est également courant, mais cette fois j'ai décidé de le mettre sous
~ / local` pour éviter que la structure du répertoire ne se complique.)
À ce stade, ** chemin absolu ** doit être spécifié pour «{local}». Un chemin absolu est un chemin emprunté au répertoire racine, tel que / home / {username} / local
.
Plus précisément, exécutez la commande suivante. Le code de caractère utilisé par MeCab est spécifié en UTF-8 avec l'option --with-charset
.
$ mkdir {local}
$ cd ~/src/mecab-0.996
$ ./configure --prefix={local} --with-charset=utf8
$ make
$ make install
S'il n'y a pas d'erreur, l'installation de MeCab elle-même est terminée.
Ensuite, installez le dictionnaire IPA. ** Si vous utilisez MeCab sans le dictionnaire enregistré, une erreur se produira **, alors assurez-vous de le faire.
Exécutez la commande suivante.
$ cd ~/src/mecab-ipadic-2.7.0-20070801
$ ./configure --with-mecab-config={local}/bin/mecab-config --prefix={local} --with-charset=utf8
$ make
$ make install
Ensuite, définissez les variables d'environnement. Voici un exemple de configuration dans le shell C. Modifiez-le en fonction des paramètres existants.
~/.cshrc
setenv PATH {local}/bin:$PATH
Après avoir enregistré le fichier, fermez l'éditeur de texte pour que les modifications apportées à .cshrc
prennent effet.
$ source ~/.cshrc
Ceci termine l'installation de l'ensemble de la MeCab. Pour voir si cela fonctionne, exécutez la commande suivante:
$ mecab
Bonjour, il fait beau aujourd'hui.
Ensuite, les résultats d'analyse morphologique suivants sont obtenus.
Bonjour l'interjection,*,*,*,*,*,Bonjour,Bonjour,Bonjour
, Symbole,Point de lecture,*,*,*,*,、,、,、
Nom aujourd'hui,Avocat possible,*,*,*,*,aujourd'hui,aujourd'hui,Kyo
Est un assistant,Assistance,*,*,*,*,Est,C,sensationnel
Bon adjectif,Indépendance,*,*,Adjectif bon,Forme basique,Bien,bien,bien
Météo,Général,*,*,*,*,Météo,Météo,Météo
Est un verbe auxiliaire,*,*,*,Mort spéciale,Forme basique,est,mort,mort
Assistant Ne,Aide finale,*,*,*,*,Hey,Ne,Ne
.. symbole,Phrase,*,*,*,*,。,。,。
EOS
Lorsque vous voyez la sortie, appuyez sur Ctrl + c
pour quitter la commande. Si la sortie est brouillée, il est possible que --with-charset = utf8
n'ait pas été spécifié correctement lors de l'exécution de" ./configure "dans le dictionnaire, ou que le code de caractère du shell soit autre que UTF-8. Il y a. Dans le premier cas, veuillez réinstaller le dictionnaire.
Commencez par déplacer le répertoire.
cd ~/src/mecab-python-0.996
Puis réécrivez setup.py
dans n'importe quel éditeur de texte. ** Réécrivez tout mecab-config
sur les lignes 13,18,19,20 vers {local} / bin / mecab-config
. ** **
Exécutez ensuite le script d'installation Python.
$ python setup.py build
$ python setup.py install --prefix={local}
Ensuite, définissez les variables d'environnement. Pour le shell C, ajoutez les deux lignes suivantes à ~ / .cshrc
.
~/.cshrc
setenv LD_LIBRARY_PATH {local}/lib:${LD_LIBRARY_PATH}
setenv PYTHONPATH {local}/lib/python2.7/site-packages:${PYTHONPATH}
À ce moment, si une erreur telle que PYTHONPATH: Variable non définie.
apparaît, supprimez la partie`: $ {PYTHONPATH} ʻet réessayez, et modifiez-la en fonction de l'environnement existant. * (Veuillez indiquer dans les commentaires s'il existe un meilleur moyen) *
Enregistrez les modifications dans le fichier, fermez l'éditeur de texte, puis reflétez les modifications dans .cshrc
.
$ source ~/.cshrc
Le chemin d'accès à la bibliothèque est maintenant en place et MeCab est disponible à partir de Python. Exécutez ~ / src / mecab-python-0.996 / test.py
pour vérification.
$ cd ~/src/mecab-python-0.996/
$ python test.py
0.996
Taro substantif,Nomenclature propriétaire,Nom d'une personne,Nom,*,*,Taro,Taro,Taro
Est un assistant,Assistance,*,*,*,*,Est,C,sensationnel
Cet accessoire,*,*,*,*,*,cette,cette,cette
Cette nomenclature,Général,*,*,*,*,Livre,Hong,Hong
Auxiliaire,Assistant de cas,Général,*,*,*,À,Wo,Wo
Deux nomenclatures,nombre,*,*,*,*,deux,ré,ré
Ro substantif,Général,*,*,*,*,Ro,Rowe,Faible
Auxiliaire,Assistant de cas,Général,*,*,*,À,Wo,Wo
Look verbe,Indépendance,*,*,Un pas,Type continu,à voir,Mi,Mi
Verbe auxiliaire,*,*,*,Spécial,Forme basique,Ta,Ta,Ta
Nomenclature féminine,Général,*,*,*,*,Femme,Josei,Josei
Auxiliaire,Assistant de cas,Général,*,*,*,À,ré,ré
Verbe passant,Indépendance,*,*,Ligne Godan / Sa,Type continu,remettre,je,je
Verbe auxiliaire,*,*,*,Spécial,Forme basique,Ta,Ta,Ta
.. symbole,Phrase,*,*,*,*,。,。,。
EOS
BOS/EOS,*,*,*,*,*,*,*,*
Taro substantif,Nomenclature propriétaire,Nom d'une personne,Nom,*,*,Taro,Taro,Taro
Est un assistant,Assistance,*,*,*,*,Est,C,sensationnel
Cet accessoire,*,*,*,*,*,cette,cette,cette
Cette nomenclature,Général,*,*,*,*,Livre,Hong,Hong
Auxiliaire,Assistant de cas,Général,*,*,*,À,Wo,Wo
Deux nomenclatures,nombre,*,*,*,*,deux,ré,ré
Ro substantif,Général,*,*,*,*,Ro,Rowe,Faible
Auxiliaire,Assistant de cas,Général,*,*,*,À,Wo,Wo
Look verbe,Indépendance,*,*,Un pas,Type continu,à voir,Mi,Mi
Verbe auxiliaire,*,*,*,Spécial,Forme basique,Ta,Ta,Ta
Nomenclature féminine,Général,*,*,*,*,Femme,Josei,Josei
Auxiliaire,Assistant de cas,Général,*,*,*,À,ré,ré
Verbe passant,Indépendance,*,*,Ligne Godan / Sa,Type continu,remettre,je,je
Verbe auxiliaire,*,*,*,Spécial,Forme basique,Ta,Ta,Ta
.. symbole,Phrase,*,*,*,*,。,。,。
BOS/EOS,*,*,*,*,*,*,*,*
EOS
EOS
filename: {local}/lib/mecab/dic/ipadic/sys.dic
charset: utf8
size: 392126
type: 0
lsize: 1316
rsize: 1316
version: 102
Si vous obtenez la sortie ci-dessus, l'installation est terminée.
Recommended Posts