Ich habe einen Code erstellt, mit dem Sie Text Mining genießen können, indem Sie ein einfaches Java-Programm wie das folgende schreiben. Daher denke ich darüber nach, es bald als Open Source zu veröffentlichen. Wir richten uns an Personen, die eine Verarbeitung natürlicher Sprache und Text Mining durchführen möchten.
Der Webdienst von Yahoo Japan wird als morphologische Analyse-Engine verwendet. Gibt charakteristische Schlüsselwörter im Dokument unter Verwendung der Ergebnisse der morphologischen Analyse aus
Verarbeitung und Eingabe
List<Document> docs = new ArrayList<Document>();
{
docs.add(createDocument("Toyota", "Ich mache ein Hybridauto."));
docs.add(createDocument("Toyota", "Wir verkaufen Hybridautos."));
docs.add(createDocument("Toyota", "Ich mache ein Auto."));
docs.add(createDocument("Toyota", "Ich verkaufe Autos."));
docs.add(createDocument("Nissan", "Ich mache einen EV."));
docs.add(createDocument("Nissan", "Ich verkaufe EV."));
docs.add(createDocument("Nissan", "Ich verkaufe Autos."));
docs.add(createDocument("Nissan", "Wir sind mit Renault verbunden."));
docs.add(createDocument("Nissan", "Ich verkaufe leichte Autos."));
docs.add(createDocument("Honda", "Ich mache ein Auto."));
docs.add(createDocument("Honda", "Ich verkaufe Autos."));
docs.add(createDocument("Honda", "Ich mache ein Fahrrad."));
docs.add(createDocument("Honda", "Ich verkaufe Fahrräder."));
docs.add(createDocument("Honda", "Ich verkaufe leichte Autos."));
docs.add(createDocument("Honda", "Ich mache ein leichtes Auto."));
}
Annotator annotator = new YJpMaAnnotator();{
//Morphologische Analyseverarbeitung
annotator.annotate(docs);
}
Index index = new SimpleDocumentIndex();{
//Indizierungsprozess für Schlüsselwörter
index.addDocuments(docs);
}
{
//Erwerb von Keywords mit hoher Koexistenz
List<Keyword> kwds = index.getKeywords("Substantiv", "item=Nissan");
System.out.println("Keywords(Substantiv) for Nissan");
for (Keyword kwd : kwds) {
System.out.println(String.format("%.1f,%s", kwd.getCorrelation(), kwd.getLex()));
}
}
{
//Erwerb von Keywords mit hoher Koexistenz
List<Keyword> kwds = index.getKeywords("Substantiv", "item=Toyota");
System.out.println("Keywords(Substantiv) for Toyota");
for (Keyword kwd : kwds) {
System.out.println(String.format("%.1f,%s", kwd.getCorrelation(), kwd.getLex()));
}
}
{
//Erwerb von Keywords mit hoher Koexistenz
List<Keyword> kwds = index.getKeywords("Substantiv", "item=Honda");
System.out.println("Keywords(Substantiv) for Honda");
for (Keyword kwd : kwds) {
System.out.println(String.format("%.1f,%s", kwd.getCorrelation(), kwd.getLex()));
}
}
}
Ausgabe: Zeigt die für Nissan charakteristischen Schlüsselwörter in absteigender Reihenfolge des Koeffizienten an.
Keywords for Nissan
3.0,EV
3.0,Renault
3.0,Allianz
1.0,Leichtes Auto
0.6,Wagen
Klicken Sie hier für Toyota und Honda
Keywords(Substantiv) for Toyota
3.8,Hybrid
3.8,Wagen
1.5,Wagen
Keywords(Substantiv) for Honda
2.5,Fahrrad
1.7,Leichtes Auto
1.0,Wagen
Recommended Posts