Défiez le text mining avec Python. (Pour la série Python3) Suivez les étapes ci-dessous.
① Analyse morphologique (cet article) ② Visualisez avec Word Cloud (la prochaine fois)
Analyse morphologique nécessaire pour diviser les phrases japonaises en mots. En tant qu'exemple bien connu et facile à comprendre "Des cuisses et des cuisses" À «Sumomo, Momo, Momo, Uchi» Ce qui se divise en.
Contrairement à l'anglais, le japonais n'a pas de sauts de mots clairs et il est très difficile de diviser les phrases en mots, il n'est donc pas réaliste de traiter avec votre propre code.
Par conséquent, nous utilisons une bibliothèque appelée "MeCab" qui est open source. (Probablement le plus important dans l'analyse morphologique japonaise. Il semble lire "Mekabu")
Pour pouvoir utiliser MeCab en Python ・ Installation de l'unité principale MeCab ・ Installation du dictionnaire · Installation de liaison Python Est nécessaire.
Cependant, comme le package binaire pour Windows inclut un dictionnaire, il n'est pas nécessaire d'installer le dictionnaire. Ici, la procédure est décrite en supposant qu'elle sera installée sur Windows.
Tout d'abord, à partir du site de téléchargement répertorié sur le Site officiel ・ Mecab-0.996.exe ・ Mecab-python-0.996.tar.gz Télécharger.
Ensuite, démarrez mecab-0.996.exe et installez l'unité principale. Sélectionnez le code de caractère du dictionnaire en chemin, mais sélectionnez le Shift-JIS par défaut. (Je suis un peu inquiet si je n'ai pas à utiliser UTF-8 ...)
Vous devriez pouvoir utiliser la commande mecab à ce stade, mais elle ne semble pas être dans votre PATH. Ajoutez manuellement le bac du répertoire d'installation à votre PATH.
Essayez d'utiliser mecab sur la ligne de commande. Comme d'habitude, "hors des cuisses et des cuisses".
>mecab↓
Des cuisses et des cuisses ↓
Sumomo substantif,Général,*,*,*,*,Sumomo,Sumomo,Sumomo
Aussi assistant,Assistance,*,*,*,*,Aussi,Mo,Mo
Cuisse substantif,Général,*,*,*,*,Les pêches,pêche,pêche
Aussi assistant,Assistance,*,*,*,*,Aussi,Mo,Mo
Cuisse substantif,Général,*,*,*,*,Les pêches,pêche,pêche
Mots auxiliaires,syndicat,*,*,*,*,de,Non,Non
Dont nomenclature,Non indépendant,Avocat possible,*,*,*,domicile,Uchi,Uchi
EOS
Ensuite, décompressez mecab-python-0.996.tar.gz dans un répertoire approprié. Accédez au répertoire décompressé et exécutez la compilation et l'installation selon le README. Voici le résultat de l'exécution.
>python setup.py build
'mecab-config'Est une commande interne ou externe,
Non reconnu comme programme opérationnel ou fichier de commandes.
Traceback (most recent call last):
File "setup.py", line 13, in <module>
version = cmd1("mecab-config --version"),
File "setup.py", line 7, in cmd1
return os.popen(str).readlines()[0][:-1]
IndexError: list index out of range
Trébuchez soudainement sur la construction. Il ne semble y avoir aucune commande appelée mecab-config dans setup.py. J'ai un PATH, mais je ne trouve pas de fichier exécutable qui lui ressemble quand je regarde sous bin.
Sur Google, il semble que mettre des liaisons Python sur Windows soit assez ennuyeux. Vous pouvez faire de votre mieux, mais interrompu car le but est de faire du text mining et non d'exécuter MeCab sous Windows. J'ai décidé de le mettre dans un autre environnement Linux.
Site de référence
Création d'un environnement qui utilise MeCab avec R et Python (Windows, Mac)
Recommended Posts