Publication d'un modèle entraîné de fastText

Nous avons publié un modèle entraîné de fastText. Vous pouvez télécharger le modèle entraîné à partir de:

Les informations sur le vecteur intégré sont résumées dans le référentiel suivant, veuillez donc également les consulter. awesome-embedding-models

Motivation Dans l'article suivant, j'ai collé le lien que icoxfog417 a publié sur GitHub.

Cependant, il y avait un problème en ce que Git LFS devait télécharger le vecteur publié et l'emplacement était difficile à comprendre. Par conséquent, cette fois, nous l'avons appris et publié afin qu'il puisse être facilement téléchargé.

How to make Je me suis référé à l'article suivant pour savoir comment utiliser fastText. C'est un bon article qui explique la théorie et l'utilisation de fastText.

Les données utilisées pour l'apprentissage sont wikipedia 01/01/2017.

Les paramètres Hyper sont définis comme suit. D'autres hyper paramètres utilisent le paramètre par défaut.

How to use Après avoir téléchargé les données, vous pouvez les charger comme suit. (Pour gensim)

import gensim

model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)

Les mots apparentés peuvent être trouvés comme suit.

>>> model.most_similar(positive=['Japonais'])
[('coréen', 0.7338133454322815),
 ('chinois', 0.717720627784729),
 ('américain', 0.6725355982780457),
 ('Femme japonaise', 0.6723321676254272),
 ('Étranger', 0.6420464515686035),
 ('Philippin', 0.6264426708221436),
 ('Occidentaux', 0.621786892414093),
 ('asiatique', 0.6192302703857422),
 ('Taïwanais', 0.6034690141677856),
 ('Nikkei', 0.5906497240066528)]

Good NLP Life!

Recommended Posts

Publication d'un modèle entraîné de fastText
Implémentation de VGG16 à l'aide de Keras créé sans utiliser de modèle entraîné
Détournement de couches de modèle de keras entraînées
Utiliser le modèle entraîné fastText de Python
Utiliser un modèle scikit-learn formé à PySpark
Somme des variables dans un modèle mathématique
Nous avons publié un module Python qui génère un maillage régional pour le Japon
[NNabla] Comment ajouter une couche de quantification à la couche intermédiaire d'un modèle entraîné
[Python] Implémentation du clustering à l'aide d'un modèle gaussien mixte
Un résumé des choses que j'ai touchées comme un blog
Visualisation bidimensionnelle des vecteurs de documents à l'aide du modèle entraîné Word2Vec