Beitrag 1 Versuch, die COTOHA-API-Syntaxanalyse in Java zu verwenden
Wann
Beitrag 2 Analysieren der Syntaxanalyse der COTOHA-API in Java
Basierend auf habe ich die folgenden Klassen erstellt, damit die COTOHA-API problemlos verwendet werden kann. (Es wird zu einem späteren Zeitpunkt im Maven Repository veröffentlicht.)
CotohaNlpService.java https://github.com/oyahiroki/nlp4j/blob/master/nlp4j/nlp4j-cotoha/src/main/java/nlp4j/cotoha/CotohaNlpService.java
Mit dieser Klasse können Sie das Ergebnis der morphologischen Analyse auf einfache Weise wie folgt erhalten. (Legen Sie die für den API-Aufruf erforderlichen Variablen als Umgebungsvariablen fest.) Separat habe ich eine Klasse erstellt, die JSON formatiert und in einer durch Zeilenumbrüche getrennten Textdatei speichert, sodass die Anzahl der Aufrufe gespeichert werden kann.
CotohaNlpService service = new CotohaNlpService();
DefaultNlpServiceResponse response = service.nlpV1Parse("Ich bin heute zur Schule gelaufen.");
//Der JSON der Antwort wird ausgegeben. Es gibt auch eine Methode, die als Schlüsselwortklasse zurückgegeben werden kann.
System.err.println(response.getOriginalResponseBody());
Wir haben Daten vom Ministerium für Land, Infrastruktur, Verkehr und Tourismus "Automobile Recall / Defect Information" heruntergeladen und 100 Fälle verwendet. Das manuelle Kopieren von HTML ist natürlich mühsam, daher Gonyogonyo /MlitCarInfoCrawler.java) ^ _ ^;
Ministerium für Land, Infrastruktur, Verkehr und Tourismus "Rückruf- / Defektinformationen für Autos" http://carinf.mlit.go.jp/jidosha/carinf/opn/index.html
Das Ergebnis eines 100-maligen Aufrufs ist wie folgt.
Die horizontale Achse ist die Anzahl der Versuche und die vertikale Achse ist die Verarbeitungszeit. Es enthält die JSON-Parsing-Verarbeitung auf der Clientseite, aber Sie können sich das als einige ms vorstellen. Anfangs dauerte es ungefähr 2000 ms, aber dazu gehört auch das Abrufen eines Tokens. Es ist normalerweise innerhalb von 200-300 ms, aber manchmal scheint es plötzlich langsamer zu werden. Ich denke, es besteht eine hohe Wahrscheinlichkeit, dass es für die DEV-Umgebung langsam ist, und natürlich hängt es von der Netzwerkumgebung ab.
Als nächstes sehen Sie ein Diagramm der Zeichenfolgenlänge und der Verarbeitungszeit. Anscheinend scheint es keine Korrelation zwischen der Länge des Strings und der Verarbeitungszeit zu geben. (Ich denke, dass sich extrem lange Charaktere wahrscheinlich ändern werden)
Unten sind die Rohdaten.
length,time
61,2001
73,337
54,310
79,349
58,274
51,269
41,660
21,263
38,283
74,295
52,4472
70,1138
68,3074
31,243
39,251
15,219
11,258
14,259
62,293
66,276
27,272
18,220
63,278
62,428
68,284
50,288
43,250
45,264
70,273
58,250
157,593
88,280
66,264
26,272
38,1514
8,237
42,256
53,1472
42,2668
35,230
32,235
36,241
116,325
17,254
102,309
59,268
21,220
43,278
64,249
32,246
31,247
27,252
70,3698
61,340
51,233
23,225
20,226
60,310
50,1685
72,281
37,270
45,253
13,224
54,243
64,302
52,1876
90,3251
30,9501
73,2323
70,3689
70,1304
61,303
67,262
17,3032
128,302
63,272
33,238
32,257
106,3906
57,261
103,299
82,270
71,268
158,803
41,255
36,284
62,304
36,234
38,1778
19,1478
90,345
22,239
62,310
72,2555
66,256
25,927
33,242
39,283
24,237
42,247
Recommended Posts