Post 1 Essayer d'utiliser l'analyse syntaxique de l'API COTOHA en Java
Quand
Sur la base de, j'ai créé les classes suivantes afin que l'API COTOHA puisse être utilisée facilement. (Il sera publié sur le référentiel Maven à une date ultérieure)
CotohaNlpService.java https://github.com/oyahiroki/nlp4j/blob/master/nlp4j/nlp4j-cotoha/src/main/java/nlp4j/cotoha/CotohaNlpService.java
En utilisant cette classe, vous pouvez facilement obtenir le résultat de l'analyse morphologique comme suit. (Définissez les variables requises pour l'appel d'API en tant que variables d'environnement) Séparément, j'ai créé une classe qui formate JSON et l'enregistre dans un fichier texte séparé par des sauts de ligne, il est donc possible d'enregistrer le nombre d'appels.
CotohaNlpService service = new CotohaNlpService();
DefaultNlpServiceResponse response = service.nlpV1Parse("J'ai couru à l'école aujourd'hui.");
//Le JSON de la réponse est généré. Il existe également une méthode à renvoyer en tant que classe de mots-clés.
System.err.println(response.getOriginalResponseBody());
Nous avons téléchargé les données du ministère des Terres, des Infrastructures, des Transports et du Tourisme «Informations sur les rappels / défauts d'automobiles» et utilisé 100 cas. Copier du HTML à la main est naturellement gênant, donc [Gonyogonyo](https://github.com/oyahiroki/nlp4j/blob/master/nlp4j/nlp4j-webcrawler/src/main/java/nlp4j/webcrawler/mlit /MlitCarInfoCrawler.java) ^ _ ^;
Ministère des Terres, des Infrastructures, des Transports et du Tourisme "Informations sur les rappels / défauts de voitures" http://carinf.mlit.go.jp/jidosha/carinf/opn/index.html
Le résultat de l'appel 100 fois est le suivant.
L'axe horizontal correspond au nombre d'essais et l'axe vertical correspond au temps de traitement. Il inclut le traitement d'analyse JSON côté client, mais vous pouvez le considérer comme quelques ms. Au départ, cela prenait environ 2000 ms, mais cela inclut également l'obtention d'un jeton. C'est généralement dans les 200-300 ms, mais parfois il semble ralentir soudainement. Je pense qu'il y a une forte possibilité qu'il soit lent pour l'environnement DEV, et bien sûr cela dépend de l'environnement réseau.
Vient ensuite un graphique de la longueur de la chaîne et du temps de traitement. Apparemment, il ne semble y avoir aucune corrélation entre la longueur de la chaîne et le temps de traitement. (Je pense que les caractères extrêmement longs sont susceptibles de changer)
Voici les données brutes.
length,time
61,2001
73,337
54,310
79,349
58,274
51,269
41,660
21,263
38,283
74,295
52,4472
70,1138
68,3074
31,243
39,251
15,219
11,258
14,259
62,293
66,276
27,272
18,220
63,278
62,428
68,284
50,288
43,250
45,264
70,273
58,250
157,593
88,280
66,264
26,272
38,1514
8,237
42,256
53,1472
42,2668
35,230
32,235
36,241
116,325
17,254
102,309
59,268
21,220
43,278
64,249
32,246
31,247
27,252
70,3698
61,340
51,233
23,225
20,226
60,310
50,1685
72,281
37,270
45,253
13,224
54,243
64,302
52,1876
90,3251
30,9501
73,2323
70,3689
70,1304
61,303
67,262
17,3032
128,302
63,272
33,238
32,257
106,3906
57,261
103,299
82,270
71,268
158,803
41,255
36,284
62,304
36,234
38,1778
19,1478
90,345
22,239
62,310
72,2555
66,256
25,927
33,242
39,283
24,237
42,247
Recommended Posts