Nous avons résumé la traduction automatique à l'aide du Microsoft Cognitive Toolkit (CNTK).
Dans la première partie, nous préparerons la traduction automatique à l'aide de Microsoft Cognitive Toolkit.
Je vais les présenter dans l'ordre suivant.
Le corpus de sous-titres japonais-anglais est un vaste corpus bilingue japonais-anglais comprenant le verbal. [1]
Japanese-English Subtitle Corpus
Allez sur la page ci-dessus pour télécharger et décompresser les partitions officielles sous Télécharger. La structure du répertoire cette fois est la suivante.
Doc2Vec NMTT |―JESC dev test train nmtt_corpus.py STSA Word2Vec
Cette fois, nous avons effectué un prétraitement sur l'ensemble de données JESC, comme la réduction de la redondance et la suppression des non-japonais.
Concernant la division des mots, phrasepiece ainsi que Natural Language: Chat Bot Part1-Twitter API Corpus Créez un modèle de sous-mots à l'aide d'un phrase
Après la conversion en ID de mot à l'aide du modèle de morceau de phrase entraîné avec les données d'entraînement, vous êtes prêt à créer un fichier texte pour le CTFDeserializer utilisé pour l'entraînement.
・ Processeur Intel (R) Core (TM) i7-7700 3,60 GHz
・ Windows 10 Professionnel 1909 ・ Python 3.6.6 ・ Pièce de phrase 0.1.86
Le programme implémenté est publié sur GitHub.
nmtt_corpus.py
La fonction jesc_preprocessing génère train.english.txt et train.japanese.txt pour créer le modèle Phrase Piece.
Entraînez ensuite le modèle de morceau de phrase. La formation commence par définir les arguments comme indiqué ci-dessous. Créez un modèle séparément pour le japonais et l'anglais. J'ai fixé le nombre de mots à 32 000.
$ spm_train --input=/mnt/c/.../JESC/train.english.txt --model_prefix=english --vocab_size=32000
A la fin de la formation, english.model, english.vocab et japanese.model, japanese.vocab seront créés.
Enfin, exécutez la fonction jesc_sentencepiece pour créer un fichier texte à lire par CTFDeserializer.
Now 10000 samples...
Now 20000 samples...
...
Now 2740000 samples...
Number of samples 2748930
Maximum Sequence Length 97
Maintenant que vous êtes prêt à vous entraîner, la partie 2 utilisera CNTK pour vous former à la traduction automatique.
Natural Language : Chat Bot Part1 - Twitter API Corpus
Recommended Posts