Nous avons publié un modèle entraîné de fastText. Vous pouvez télécharger le modèle entraîné à partir de:
Les informations sur le vecteur intégré sont résumées dans le référentiel suivant, veuillez donc également les consulter. awesome-embedding-models
Motivation Dans l'article suivant, j'ai collé le lien que icoxfog417 a publié sur GitHub.
Cependant, il y avait un problème en ce que Git LFS devait télécharger le vecteur publié et l'emplacement était difficile à comprendre. Par conséquent, cette fois, nous l'avons appris et publié afin qu'il puisse être facilement téléchargé.
How to make Je me suis référé à l'article suivant pour savoir comment utiliser fastText. C'est un bon article qui explique la théorie et l'utilisation de fastText.
Les données utilisées pour l'apprentissage sont wikipedia 01/01/2017.
Les paramètres Hyper sont définis comme suit. D'autres hyper paramètres utilisent le paramètre par défaut.
How to use Après avoir téléchargé les données, vous pouvez les charger comme suit. (Pour gensim)
import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)
Les mots apparentés peuvent être trouvés comme suit.
>>> model.most_similar(positive=['Japonais'])
[('coréen', 0.7338133454322815),
('chinois', 0.717720627784729),
('américain', 0.6725355982780457),
('Femme japonaise', 0.6723321676254272),
('Étranger', 0.6420464515686035),
('Philippin', 0.6264426708221436),
('Occidentaux', 0.621786892414093),
('asiatique', 0.6192302703857422),
('Taïwanais', 0.6034690141677856),
('Nikkei', 0.5906497240066528)]
Good NLP Life!