Aperçu

Je veux faire des choses comme l'analyse morphologique japonaise (MeCab) en chinois, donc j'utilise FNLP

environnement

OS : Windows7 64bit Langue: Java8 IDE: Ecplise4.8.0

Objectif

Identique à analyse morphologique anglaise comme MeCab avec OpenNLP

Je veux faire de la "morphologie", "une partie des mots" et une "forme de base" qui peuvent être obtenues en appliquant des phrases japonaises à Mecab en chinois. Utilisez l'open source «Fudan NLP (FNLP)» pour acquérir des «éléments de formulaire» et des «parties» de la partie chinoise.

table des matières

Connaissance préalable du chinois
Implémentation Java
Préparation
Séparation
Décomposition en mot partiel

1. Connaissance préalable du chinois

Deux types de personnages

Simplifié et traditionnel

Dans cet article, nous nous limiterons aux phrases simplifiées.

Il n'y a pas de système horaire

Le passé, le présent et le futur sont jugés par le contexte

Forme passée: je quitte Shanghai
Je suis allé à Shanghai hier
Forme actuelle: je suis Shanghai
Je vais à Shanghai
Forme future: je vais à Shanghai
Je dois aller à Shanghai demain

Par conséquent, dans cet article, nous supposons que toute la morphologie chinoise peut être obtenue sous la "forme de base".

2. Implémentation Java

1. Préparation

Si vous spécifiez fnlp-core dans MavenRepository directement dans pom.xml, une erreur se produira, alors générez le code source une fois et créez le fichier fnlp-core-2.1-SNAPSHOT.jar.

Pour créer fnlp-core-2.1-SNAPSHOT.jar, effectuez "Download" et "Build" de l'analyse morphologique chinoise avec FNLP.

Créez un projet maven et placez le fichier fnlp-core-2.1-SNAPSHOT.jar créé sous le dossier dic.

Ajoutez ce qui suit à pom.xml

<dependency>
	<groupId>net.sf.trove4j</groupId>
	<artifactId>trove4j</artifactId>
	<version>3.0.3</version>
</dependency>
<dependency>
	<groupId>commons-cli</groupId>
	<artifactId>commons-cli</artifactId>
	<version>1.2</version>
</dependency>
<dependency>
	<groupId>org.fnlp</groupId>
	<artifactId>core</artifactId>
	<version>2.1</version>
</dependency>
<dependency>
    <groupId>org.fnlp</groupId>
    <artifactId>core</artifactId>
    <version>2.1</version>
    <scope>system</scope>
    <systemPath>${project.basedir}/dic/fnlp-core-2.1-SNAPSHOT.jar</systemPath>
</dependency>

Téléchargez également les trois fichiers de modèle (pos.m, seg.m, dep.m) publiés sur https://github.com/xpqiu/fnlp/releases et placez-les dans le dossier dic.

2. Séparation

CNFactory factory = null;
//Spécifiez le chemin du fichier modèle et appelez l'analyseur morphologique
try {
    factory = CNFactory.getInstance("./dic");
} catch (LoadModelException lme) {
    lme.printStackTrace();
}
String message = "Maintenant Tentenga Mayoshi!";
String[][] tokens = factory.tag(message);
System.out.println(Arrays.asList(tokens[0]));
>> [Imaten,Tianqi,vrai,Bien,啊, ！]

3. Décomposition en mot partiel

CNFactory factory = null;
//Spécifiez le chemin du fichier modèle et appelez l'analyseur morphologique
try {
    factory = CNFactory.getInstance("./dic");
} catch (LoadModelException lme) {
    lme.printStackTrace();
}
String message = "Maintenant Tentenga Mayoshi!";
String[][] tokens = factory.tag(message);
System.out.println(Arrays.asList(tokens[1]));
>> [Temps courts mots,Célèbre,Adjoint,Forme,Langue,Point cible]

[JAVA] Analyse morphologique chinoise comme Mecab avec FNLP