LangID est une bibliothèque qui effectue l'identification de la langue. Si vous donnez une chaîne en entrée, cela indiquera à quelle langue appartient la chaîne.
L'utilisation simple est la suivante.
# -*- coding: utf-8 -*-
import langid
result = langid.classify('C'est japonais')
print(result) #=> ('ja', -197.7628321647644)
Les algorithmes de cette bibliothèque sont issus de recherches connues, et des références peuvent être trouvées sur ici.
Le point à s'inquiéter est la difficulté de vitesse. Étant donné que le test simple ci-dessus prend près de 3 secondes, il semble qu'il ne puisse pas être beaucoup utilisé dans le monde Web où les performances en temps réel sont importantes.
Recommended Posts