Dans cet article Installez mecab avec UTF-8 sur le serveur partagé Sakura. Après cela, appelez mecab depuis python et essayez l'analyse morphologique. Le serveur de location Sakura ne dispose pas des privilèges root, donc Installez dans le répertoire utilisateur.
-Les commandes de la procédure sont décrites dans bash. Comment changer pour bash Consultez le supplément "Standardiser bash sur le serveur de location Sakura"!
・ Corps Mecab (mecab-0.996) ・ Dictionnaire Mecab ・ Système de gestion de paquets Python pip ・ Mecab-python
(1) Téléchargez le corps mecab à partir du site suivant. http://taku910.github.io/mecab/#download
(2) Décompressez le corps du mecab
Décompressez le corps avec la commande tar
tar xvfz ./mecab-0.996.tar.gz
(3) Déplacer vers le répertoire décompressé
cd mecab-0.996
(4) Compiler et construire
Tapez la commande suivante pour installer dans le répertoire utilisateur
./configure --prefix=$HOME/local --with-charset=utf8 --enable-utf8-only
make make install
Dans mon environnement, il a été installé à l'emplacement suivant. ~/local/bin/mecab
(5) Vérifiez s'il est installé
mecab -v
S'il est installé normalement, vous pouvez taper la commande ci-dessus à "mecab of 0.996"
Un journal comme celui-ci s'affiche.
(1) Téléchargez le dictionnaire mecab et le dictionnaire ipa à partir des sites suivants. http://taku910.github.io/mecab/#download
(2) Décompressez le dictionnaire ipa
tar xvzf mecab-ipadic-2.7.0-20070801.tar.gz
(3) Déplacer vers le dossier du dictionnaire cd mecab-ipadic-2.7.0-20070801
(4) Tapez la commande suivante pour installer dans le répertoire utilisateur
Le code de caractère du dictionnaire est utf-8.
La raison d'utiliser utf-8 est de l'appeler sur le WEB.
./configure --with-charset=utf8
Cependant, même si vous le définissez ici sur utf-8, après avoir exécuté mecab, Le code de caractère du résultat de sortie peut rester EUC.
Dans ce cas, dans "mecab-ipadic-2.7.0-20070801" Convertit les fichiers avec les extensions "csv" et "def" en UTF-8 et les écrase.
Commande de conversion en UTF-8 et commande de confirmation
nkf -w --overwrite *.csv nkf -w --overwrite *.def nkf --guess *.*
référence Comment utiliser Mecab avec le serveur partagé Sakura, dictionnaire UTF-8 http://nymemo.com/sakura/258/
(5) Compiler et construire Tapez la commande suivante pour installer dans le répertoire utilisateur
make make install
Dans mon environnement, le dictionnaire a été installé à l'emplacement suivant. ~/local/lib/mecab/dic/ipadic
Spécifiez le dictionnaire comme indiqué ci-dessous et démarrez mecab.
mecab -d ~/local/lib/mecab/dic/ipadic
Le réglage du terminal est UTF-8.
En cas de succès, ce qui suit sera affiché.
[home@www1635 ~/local/etc]$ mecab -d ~/local/lib/mecab/dic/ipadic Des cuisses et des cuisses Nomenclature Sumomo, général, *, *, *, *, sumomo, sumomo, sumomo Mo assistant, commis, *, *, *, *, mo, mo, mo Nomenclature de la cuisse, général, *, *, *, *, cuisse, pêche, pêche Mo assistant, commis, *, *, *, *, mo, mo, mo Nomenclature de la cuisse, général, *, *, *, *, cuisse, pêche, pêche Auxiliaire, syndicalisation, *, *, *, *, de, non, non Dont nomenclature, non-indépendance, avocat possible, *, *, * EOS
La raison de l'installation de pip est d'installer mecab-python à l'aide de pip.
easy_install --prefix=~/.local pip
[home@www1635 ~/local/etc]$ pip --version pip 9.0.1 from /home/homedir/.local/lib/python2.7/site-packages/pip-9.0.1-py2.7.egg (python 2.7)
pip install mecab-python --user
La raison d'avoir --user est que le serveur Sakura n'a pas de privilèges root, donc installez-le dans le répertoire utilisateur.
Écrivez ce code source.
sample.py
# coding: UTF-8
import MeCab
#Spécifiez l'emplacement du dictionnaire (pour une raison quelconque, cela ne fonctionnera que si vous le spécifiez avec le chemin complet)
userdic_path="-d /home/homedir/local/lib/mecab/dic/ipadic"
t = MeCab.Tagger("-Ochasen " + userdic_path)
text = u'Des cuisses et des cuisses'
encoded_text = text.encode('utf-8')#
meData = t.parse(encoded_text )
print meData
Une fois exécutée, l'instruction suivante sera sortie ʻA Sumomo Sumomo Nomenclature-General Auxiliaire Momo Momo Nez de cuisse pêche-général Auxiliaire Momo Momo Nez de cuisse pêche-général Union auxiliaire de Nono Nomenclature d'Uchi Uchi - Algorithme de non-indépendance possible EOS `
c'est tout! Ensuite, j'écrirai un article sur la façon d'afficher le résultat de l'exécution de MeCab sur un navigateur WEB.
Standardiser bash sur le serveur de location Sakura http://note.sicafe.net/sakuraVPS/sakura_vimInstall.html
Recommended Posts