Chao ... †
Mit Hilfe von @ragion haben wir endlich das Vorverarbeitungsmodul neologd-java von NEologd in Java veröffentlicht!
https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja
Es gibt eine Grenze, um Wörterbuchdaten redundant zu machen und unterschiedliche Notationen zu absorbieren. Beim Generieren von Wörterbuchdaten wird die gesamte unten beschriebene Normalisierungsverarbeitung angewendet. Wenn also die folgende Normalisierungsverarbeitung auf den zu analysierenden Text angewendet wird, ist es einfacher, die Wörter im Wörterbuch abzugleichen.
Wie Sie auf der obigen Seite sehen können, ist es wichtig, vor dem Parsen mit MeCab eine Normalisierung (Vorverarbeitung) durchzuführen. Deshalb habe ich neologd-java erstellt, ein Vorverarbeitungsmodul für NEologd in Java.
Da es in Maven Central registriert ist, fügen Sie Folgendes zu pom.xml
hinzu.
<dependency>
<groupId>io.github.ikegami-yukino</groupId>
<artifactId>neologdn</artifactId>
<version>0.0.1</version>
</dependency>
Und
package yukinoi.neologdn_example;
import io.github.ikegamiyukino.neologdn.NeologdNormalizer;
/**
* neologdn-example
*
*/
public class App
{
public static void main(String[] args)
{
NeologdNormalizer normalizer = new NeologdNormalizer();
String text = "PRML ergänzendes Lesebuch";
String normalizedText = normalizer.normalize(text);
System.out.println(normalizedText);
}
}
Verwenden Sie wie.
Es wird im folgenden GitHub-Repository entwickelt. https://github.com/ikegami-yukino/neologdn-java
Contributions are welcome!
Recommended Posts