Nous avons résumé la classification des documents à l'aide du Microsoft Cognitive Toolkit (CNTK).
Dans la première partie, nous préparerons la classification des documents à l'aide de CNTK.
Je vais les présenter dans l'ordre suivant.
corpus de nouvelles
・ Communication allemande ・ Piratage de la vie informatique ・ Chaîne d'appareils ménagers ・ Livedoor HOMME ・ ENTRER FILM ・ Pêche ・ Esmax ・ Montre de sport ・ Actualités du sujet
Il s'agit d'un corpus composé de 9 types d'articles. Chaque fichier article est couvert par la licence Creative Commons, dont l'affichage ou la modification est interdit.
Accédez à la page ci-dessus et téléchargez / décompressez ldcc-20140209.tar.gz.
La structure des répertoires cette fois est la suivante.
Doc2Vec |―text |―... doc2vec_corpus.py Word2Vec
Le prétraitement des données de texte réutilise les fonctions implémentées dans Natural Language: Word2Vec Part1 --Japanese Corpus.
Pour le fractionnement de mots, utilisez Mecab, basé sur le dictionnaire NEologd, pour supprimer les mots vides.
De plus, pour l'évaluation des performances du modèle, 10 documents sont séparés de chaque catégorie en tant que données de vérification.
Cette fois, après Computer Vision: Image Caption Part1 --STAIR Captions, les mots qui n'apparaissaient pas plus d'une fois ont été remplacés par UNK.
Pendant la formation, nous utiliserons CTFDeserializer, l'un des leaders intégrés de CNTK. Cette fois, une étiquette de catégorie est attribuée à un document composé de plusieurs mots.
Le flux de traitement général du programme qui prépare Doc2Vec est le suivant.
・ Processeur Intel (R) Core (TM) i7-6700K 4,00 GHz
・ Windows 10 Professionnel 1909 ・ Python 3.6.6 ・ Mecab 0.996
Le programme implémenté est publié sur GitHub.
doc2vec_corpus.py
Je vais extraire et compléter certaines parties du programme à exécuter.
Le contenu du CTFDeserializer utilisé pour cette formation est le suivant.
0 |word 346:1 |label 0:1
0 |word 535:1
0 |word 6880:1
...
1 |word 209:1 |label 0:1
1 |word 21218:1
1 |word 6301:1
...
Le nombre à l'extrême gauche représente un document, plusieurs mots|Une étiquette de catégorie pour les documents composés de mots|L'étiquette est attribuée.
Lorsque le programme est exécuté, le dictionnaire de mots est créé et enregistré comme suit.
Number of total words: 73794
Number of words: 45044
Saved word2id.
Saved id2word.
Now 1000 samples...
Now 2000 samples...
...
Now 7000 samples...
Number of training samples 7277
Number of validation samples 90
Maintenant que vous êtes prêt à vous entraîner, la partie 2 utilisera CNTK pour entraîner Doc2Vec.
Computer Vision : Image Caption Part1 - STAIR Captions Natural Language : Word2Vec Part1 - Japanese Corpus
Recommended Posts