Les expressions distribuées de mots sont couramment utilisées dans le traitement moderne du langage naturel. Récemment, de nombreux modèles formés ont été publiés et il est moins nécessaire de dépenser du temps et de l'argent pour apprendre par soi-même. Cependant, même s'il est ouvert au public, il faut beaucoup de temps pour le trouver et le télécharger.
Pour éliminer ce problème, j'ai créé un téléchargeur d'expression de distribution de mots. Le nom est ** chakin **. chakki-works/chakin (Je me sens motivé si vous me donnez une étoile m (__) m)
La caractéristique de chakin est qu'il est écrit en Python et peut être installé avec pip, cela peut être fait de la recherche au téléchargement en un seul arrêt, et il prend en charge 23 vecteurs (au 29 mai 2017). .. Nous prévoyons d'augmenter le nombre de vecteurs pris en charge à l'avenir.
Voyons comment l'utiliser.
L'installation est simple. Utilisez pip pour exécuter la commande suivante:
$ pip install chakin
Vous pouvez l'utiliser après l'installation. Vous devez écrire trois lignes de code pour télécharger l'ensemble de données. Cette fois, essayons de télécharger un jeu de données de représentation distribué japonais. Tout d'abord, lancez Python:
$ python
Après avoir lancé Python, importez le [chakin] installé (https://github.com/chakki-works/chakin). Après l'importation, vous pouvez rechercher des modèles pré-entraînés en spécifiant la langue (japonais dans ce cas) dans la méthode de recherche:
>>> import chakin
>>> chakin.search(lang='Japanese')
Name Dimension Corpus VocabularySize Method Language
6 fastText(ja) 300 Wikipedia 580K fastText Japanese
22 word2vec.Wiki-NEologd.50d 50 Wikipedia 335K word2vec + NEologd Japanese
Actuellement, seule la langue cible peut être recherchée. Ce domaine est l'un des endroits où nous voulons améliorer la convivialité à l'avenir.
Une fois que vous avez trouvé l'ensemble de données que vous souhaitez télécharger, spécifiez son index dans la méthode de téléchargement pour le télécharger. Cette fois, j'ai spécifié ** 22 **, qui est l'index de "word2vec.Wiki-NEologd.50d":
>>> chakin.download(number=22, save_dir='./')
Test: 100% || | Time: 0:00:02 60.7 MiB/s
'./latest-ja-word2vec-gensim-model.zip'
C'est tout pour savoir comment l'utiliser.
Il prend actuellement en charge les vecteurs suivants. Nous continuerons d'ajouter des vecteurs correspondants à l'avenir, veuillez donc les utiliser.
Name | Dimension | Corpus | VocabularySize | Method | Language |
---|---|---|---|---|---|
fastText(ar) | 300 | Wikipedia | 610K | fastText | Arabic |
fastText(de) | 300 | Wikipedia | 2.3M | fastText | German |
fastText(en) | 300 | Wikipedia | 2.5M | fastText | English |
fastText(es) | 300 | Wikipedia | 985K | fastText | Spanish |
fastText(fr) | 300 | Wikipedia | 1.2M | fastText | French |
fastText(it) | 300 | Wikipedia | 871K | fastText | Italian |
fastText(ja) | 300 | Wikipedia | 580K | fastText | Japanese |
fastText(ko) | 300 | Wikipedia | 880K | fastText | Korean |
fastText(pt) | 300 | Wikipedia | 592K | fastText | Portuguese |
fastText(ru) | 300 | Wikipedia | 1.9M | fastText | Russian |
fastText(zh) | 300 | Wikipedia | 330K | fastText | Chinese |
GloVe.6B.50d | 50 | Wikipedia+Gigaword 5 (6B) | 400K | GloVe | English |
GloVe.6B.100d | 100 | Wikipedia+Gigaword 5 (6B) | 400K | GloVe | English |
GloVe.6B.200d | 200 | Wikipedia+Gigaword 5 (6B) | 400K | GloVe | English |
GloVe.6B.300d | 300 | Wikipedia+Gigaword 5 (6B) | 400K | GloVe | English |
GloVe.42B.300d | 300 | Common Crawl(42B) | 1.9M | GloVe | English |
GloVe.840B.300d | 300 | Common Crawl(840B) | 2.2M | GloVe | English |
GloVe.Twitter.25d | 25 | Twitter(27B) | 1.2M | GloVe | English |
GloVe.Twitter.50d | 50 | Twitter(27B) | 1.2M | GloVe | English |
GloVe.Twitter.100d | 100 | Twitter(27B) | 1.2M | GloVe | English |
GloVe.Twitter.200d | 200 | Twitter(27B) | 1.2M | GloVe | English |
word2vec.GoogleNews | 300 | Google News(100B) | 3.0M | word2vec | English |
word2vec.Wiki-NEologd.50d | 50 | Wikipedia | 335K | word2vec + NEologd | Japanese |
Les représentations distribuées de mots pré-appris sont courantes et importantes dans le traitement du langage naturel. Cependant, il est étonnamment difficile de les trouver par vous-même. Dans cet article, j'ai présenté un téléchargeur que j'ai créé pour éliminer le problème. Nous espérons que vous trouverez cet article utile.
Je tweet également des informations sur l'apprentissage automatique et le traitement du langage naturel dans mon compte Twitter. @Hironsan
Nous nous réjouissons de votre suivi si vous êtes intéressé par ce domaine.
Recommended Posts