Il est presque toujours nécessaire d'utiliser l'analyse morphologique pour faire des choses liées au traitement du langage naturel. Les analyseurs morphologiques qui peuvent utiliser le japonais sont "MeCab" et "[JUMAN ++](http://nlp.ist.i.kyoto-u.ac." jp / index.php? JUMAN ++) "est célèbre. Cette fois, nous présenterons JUMAN ++ et effectuerons une analyse morphologique.
Le contenu de cet article est le suivant.
Le traitement du langage naturel (anglais: traitement du langage naturel, abréviation: NLP) est une série de technologies qui permettent à un ordinateur de traiter le langage naturel que les humains utilisent au quotidien, et est utilisé en intelligence artificielle et en linguistique. C'est un champ. [Traitement du langage naturel | Wikipédia](https://ja.wikipedia.org/wiki/Traitement du langage naturel)
** "En un mot" **: Technologie qui traite le langage que les humains utilisent habituellement sur un ordinateur
L'analyse morphologique va de données textuelles (phrases) en langage naturel sans notes d'informations grammaticales à des informations telles que la grammaire de la langue cible et les paroles partielles de mots appelés dictionnaires. À l'origine, il s'agit de diviser en colonnes d'éléments morphologiques (Morphème, en gros, la plus petite unité qui a un sens dans la langue), et de déterminer la partie de chaque élément morphologique. [Analyse morphologique | Wikipédia](https://ja.wikipedia.org/wiki/Analyse morphologique)
** "En un mot" **: Processus consistant à diviser une phrase donnée en les plus petits mots significatifs et à donner des informations sur une partie de mot, etc.
JUMAN ++ est un système d'analyse morphologique haute performance développé par le laboratoire Kurohashi / Kawahara de l'Université de Kyoto. En utilisant RNNLM comme modèle de langage, l'analyse est effectuée en tenant compte du caractère sémantique de la séquence de mots. La précision de base ne change pas, mais en plus de la bonne connexion des mots, il semble qu'une précision supérieure à MeCab ait été confirmée à certains égards. Cependant, cela semble être plus lent que d'autres, donc si vous avez besoin de performances en temps réel, vous pouvez utiliser MeCab.
** "En bref" **: Un analyseur morphologique haute performance en japonais, qui peut être plus précis que MeCab.
Environnement d'exploitation
Commençons maintenant à introduire JUMAN ++. Cette fois, nous allons introduire JUMAN ++ sous Linux.
Pour les utilisateurs de Mac, veuillez consulter ici.
Ce sont les deux sites auxquels j'ai fait référence.
Tout d'abord, installez deux packages prérequis pour l'utilisation de JUMAN ++.
gcc (4.9 ou version ultérieure)
Boost C ++ Libraries (1.57 ou version ultérieure)
De nombreuses personnes ont déjà installé gcc, alors ne vous inquiétez pas, mais soyez prudent car une erreur se produira à moins que Boost ne soit 1.57 ou supérieur.
Ensuite, installez JUMAN ++ lui-même.
$ wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.01.tar.xz
$ tar xJvf jumanpp-1.01.tar.xz
$ cd jumanpp-1.01
$ ./configure
$ make
$ make install
JUMAN ++ est maintenant installé! Par défaut, il est installé dans / usr / local /, donc si vous souhaitez spécifier la destination de l'installation, ./configure Ajoutez l'option --prefix = / path à.
Essayez immédiatement.
$ jumanpp
J'ai commencé à étudier l'analyse morphologique
Forme Keitai Forme Nez 6 Nez ordinaire 1* 0 * 0 "Notation représentative:forme/Catégorie Keitai:Forme / motif"
Nez élémentaire 6 Nez ordinaire 1* 0 * 0 "Notation représentative:Élémentaire/Alors lecture de kanji:Catégorie sonore:Abstrait"
Analyse Kaiseki Analyse Nominal 6 Sahen Nom 2* 0 * 0 "Notation représentative:une analyse/Catégorie Kaiseki:Domaine abstrait:Éducation / apprentissage;Science et technologie"
Non non non auxiliaire 9 assistant de connexion 3* 0 * 0 NIL
Study Benkyo Study Noun 6 Sahen Nom 2* 0 * 0 "Notation représentative:étude/Catégorie Benkyo:Domaine abstrait:Éducation / apprentissage"
Vers deux auxiliaires 9 boîtier auxiliaire 1* 0 * 0 NIL
Commencer Commencer Commencer le verbe 2*0 voyelle verbe 1 forme continue de base 8"Notation représentative:début/Début Verbe attaché candidat (basique) Verbe auto-autre:Soi:Début/Rébellion qui commence:verbe:terminer/Ouais"
Masu Masu suffixe 14 verbe sexe suffixe 7 verbe sexe suffixe type 31 ta forme 7"Notation représentative:Masu/Masu"
.. .. .. Spécial 1 Phrase 1* 0 * 0 NIL
EOS
Le fichier exécutable de JUMAN ++ est jumanpp. Dans mon environnement, il était dans / bin dans le dossier de destination. L'analyse morphologique a été réussie avec JUMAN ++!
Ensuite, nous utiliserons JUMAN ++ de Python.
JUMAN ++ est disponible depuis Python en utilisant PyKNP. Lorsque vous utilisez PyKNP, si JUMAN et KNP ne sont pas inclus dans l'environnement actuel, vous devez les installer tous les deux.
Je me suis référé au site suivant. Utilisation de JUMAN ++ depuis Python
Veuillez utiliser le Site de référence pour les trois méthodes d'installation ci-dessus.
Appelons enfin JUMAN ++ depuis Python!
python_jumanpp.py
#-*- encoding: utf-8 -*-
from pyknp import Jumanpp
import sys
import codecs
sys.stdin = codecs.getreader('utf_8')(sys.stdin)
sys.stdout = codecs.getwriter('utf_8')(sys.stdout)
# Use Juman++ in subprocess mode
jumanpp = Jumanpp()
result = jumanpp.analysis(u"J'ai commencé à traiter le langage naturel.")
for mrph in result.mrph_list():
print u"Titre:%s" % (mrph.midasi)
$ python python_jumanpp.py
Titre:La nature
Titre:Langue
Titre:En traitement
Titre:début
Titre:Était
Titre:。
Vous avez utilisé avec succès JUMAN ++ de Python!
c'est tout
Recommended Posts