[JAVA] NLP4J [005-2] NLP4J + Twitter4J (analyse 1)

Retour à l'index: [005-1] NLP4J + Twitter4J (collecte de données) > ceci> Page suivante

Jetez un œil aux résultats

Le texte complet du résultat de sortie se trouve à ici.

Voyons maintenant le résultat ...

temps de traitement

temps de traitement[ms]:34586

Cela prend 34 secondes. C'est assez lent. Il y a 90 documents au total, mais je pense que c'est parce que chaque document appelle l'API de Yahoo deux fois et 180 fois au total. L'API de traitement du langage naturel de Yahoo est facile à utiliser, mais compte tenu du nombre de fois limité et des performances, je pense qu'il est nécessaire d'envisager d'utiliser une bibliothèque qui peut être consultée localement.

NLP4J fournit une fonction pour envelopper d'autres bibliothèques de traitement de langage naturel, je voudrais donc l'implémenter plus tard. [Quand? ]

Par fréquence de nomenclature

count=117,facet=nom,lex=co
count=117,facet=nom,lex=https
count=76,facet=nom,lex=2019
count=50,facet=nom,lex=TMS
count=40,facet=nom,lex=Salon de l'automobile de Tokyo
count=30,facet=nom,lex=Nissan
count=30,facet=nom,lex=RT
count=29,facet=nom,lex=2
count=28,facet=nom,lex=HondaTMS
count=25,facet=nom,lex=1
count=24,facet=nom,lex=3
count=24,facet=nom,lex=4
count=22,facet=nom,lex=6
count=22,facet=nom,lex=TOYOTA
count=21,facet=nom,lex=cabine
count=20,facet=nom,lex=5
count=19,facet=nom,lex=Ici
count=18,facet=nom,lex=Honda
count=18,facet=nom,lex=8
count=16,facet=nom,lex=Toyota
count=15,facet=nom,lex=10
count=14,facet=nom,lex=joueur
count=14,facet=nom,lex=futur
count=14,facet=nom,lex=Voir
count=12,facet=nom,lex=9
count=12,facet=nom,lex=Expérience
count=12,facet=nom,lex=NissanTMS
count=11,facet=nom,lex=Par tous les moyens
count=10,facet=nom,lex=Lieu
count=10,facet=nom,lex=en forme
count=10,facet=nom,lex=Attendre
count=10,facet=nom,lex=PR

Depuis que le Tokyo Motor Show a lieu, "TMS", "Tokyo Motor Show", "Future", etc. sont classés en haut.

Donc, "co" et "http" sont les plus élevés, donc c'est ennuyeux. .. Apparemment, l'API de traitement du langage naturel de Yahoo ne traite pas "URL" différemment. En outre, des chiffres comme «2019» se démarquent. L'API de traitement du langage naturel de Yahoo semble être une spécification qui ne renvoie pas de «nombres».

Vérifiez l'analyse morphologique de Yahoo

Voyons quel est le résultat pour les URL et les nombres.

//Texte naturel
String text = "http://www.yahoo.co.jp/est. J'ai ramassé 100 yens.";
//Analyse morphologique japonaise
YJpMaService service = new YJpMaService();
//Obtenez le résultat de l'analyse morphologique
ArrayList<Keyword> kwds = service.getKeywords(text);
//Afficher tous les mots-clés
for (Keyword kwd : kwds) {
	System.out.println(kwd);
}

http [sequence=1, facet=nom, lex=http, str=http, reading=http, count=-1, begin=0, end=4, correlation=0.0]
: [sequence=2, facet=Spécial, lex=:, str=:, reading=:, count=-1, begin=4, end=5, correlation=0.0]
/ [sequence=3, facet=Spécial, lex=/, str=/, reading=/, count=-1, begin=5, end=6, correlation=0.0]
/ [sequence=4, facet=Spécial, lex=/, str=/, reading=/, count=-1, begin=5, end=6, correlation=0.0]
www [sequence=5, facet=nom, lex=www, str=www, reading=www, count=-1, begin=7, end=10, correlation=0.0]
. [sequence=6, facet=Spécial, lex=., str=., reading=., count=-1, begin=10, end=11, correlation=0.0]
yahoo [sequence=7, facet=nom, lex=yahoo, str=yahoo, reading=yahoo, count=-1, begin=11, end=16, correlation=0.0]
. [sequence=8, facet=Spécial, lex=., str=., reading=., count=-1, begin=16, end=17, correlation=0.0]
co [sequence=9, facet=nom, lex=co, str=co, reading=co, count=-1, begin=17, end=19, correlation=0.0]
. [sequence=10, facet=Spécial, lex=., str=., reading=., count=-1, begin=19, end=20, correlation=0.0]
jp [sequence=11, facet=nom, lex=jp, str=jp, reading=jp, count=-1, begin=20, end=22, correlation=0.0]
/ [sequence=12, facet=Spécial, lex=/, str=/, reading=/, count=-1, begin=22, end=23, correlation=0.0]
  [sequence=13, facet=Spécial, lex= , str= , reading= , count=-1, begin=23, end=24, correlation=0.0]
est[sequence=14, facet=Verbe auxiliaire, lex=est, str=est, reading=est, count=-1, begin=24, end=26, correlation=0.0]
。 [sequence=15, facet=Spécial, lex=。, str=。, reading=。, count=-1, begin=26, end=27, correlation=0.0]
100 [sequence=16, facet=nom, lex=100, str=100, reading=100, count=-1, begin=27, end=30, correlation=0.0]
Cercle[sequence=17, facet=Suffixe, lex=Cercle, str=Cercle, reading=yen, count=-1, begin=30, end=31, correlation=0.0]
ramasser[sequence=18, facet=verbe, lex=ramasser, str=Ramasser, reading=Large, count=-1, begin=31, end=33, correlation=0.0]
Masu[sequence=19, facet=Verbe auxiliaire, lex=Masu, str=Mieux, reading=Mieux, count=-1, begin=33, end=35, correlation=0.0]
Ta[sequence=20, facet=Verbe auxiliaire, lex=Ta, str=Ta, reading=Ta, count=-1, begin=35, end=36, correlation=0.0]
。 [sequence=21, facet=Spécial, lex=。, str=。, reading=。, count=-1, begin=36, end=37, correlation=0.0]

... c'était un peu un problème. Les URL et les nombres sont jugés comme des «noms», c'est donc quelque chose que je voudrais corriger. NLP4J dispose également d'un mécanisme pour traiter les résultats de l'analyse morphologique, je voudrais donc le soutenir à partir de la prochaine fois.

Retour à l'index: [005-1] NLP4J + Twitter4J (collecte de données) > ceci> Page suivante

Recommended Posts

NLP4J [005-2] NLP4J + Twitter4J (analyse 1)
NLP4J [005-1] Essayez l'analyse Twitter avec Twitter4J et NLP4J (collecte de données)
NLP4J [001b] Analyse morphologique en Java (utilisant kuromoji)