Mellotron, le successeur de Tacotron 2, a été annoncé. De nos jours, l'industrie de la synthèse vocale a enfin un vent arrière. Je développe toujours TTS avec Taco2
Bien que Meron soit basé sur Taco2, C'est une spécification anglaise bâclée Lisez un peu plus pour le traduire en japonais ──
── Non, Jusqu'à présent, je ne pense pas à la migration
Quand je développais avec Taco2 J'ai vu une phrase comme celle-ci
"La quantité et la qualité des données de l'ensemble de données sont très importantes" </ b>
Je suis généralement d'accord, Trop vague
C'est un défi auquel on ne peut plus répondre, Il ne fait aucun doute que la qualité en dépend
ensuite, [Blog de Lento](https://medium.com/@crosssceneofwindff/%E7%BE%8E%E5%B0%91%E5%A5%B3%E5%A3%B0%E3%81%B8%E3 % 81% AE% E5% A4% 89% E6% 8F% 9B% E3% 81% A8% E5% 90% 88% E6% 88% 90-fe251a8e6933) Je pensais
"Peu importe le bruit qu'il y a Même s'il y a peu de données Si vous parvenez à le faire de cette façon Pouvez-vous faire du TTS? ""
Décidé d'essayer
Pour le moment, je ne pourrais pas dire du résultat Non, je devrais dire que je n'étais pas satisfait
Taco2
120k steps
target
inference
WaveGlow
Taco2 L'inférence Taco2 semble être bonne dans l'évaluation qualitative
Comme mentionné dans l'article précédent, La sortie d'inférence a une belle gradation, C'est le même résultat avec TOA-TTS
Et encore une chose "Il y a du bruit, mais ce n'est pas grave." Mon attente (de sentiment) basée sur le développement précédent est Parce qu'il est effacé par cette gradation Après tout, j'arrive à la conclusion que cela n'a pas vraiment d'importance </ b>
L'apprentissage Taco2 s'est arrêté à 121 000 pas, Si vous continuez tel quel, la qualité peut s'améliorer un peu plus.
WaveGlow C'est un calcul merveilleusement différent
Combien WaveGlow doit-il apprendre? Selon la mémoire du problème, 1 million est nécessaire </ b>
Essayez de composer à 120k, 600k, J'ai eu l'impression que le bruit était réduit, j'ai donc continué le calcul. Le résultat était comme ça
Ce résultat est tout à fait le même que TOA-TTS (HP, procédure de création de jeu de données, etc.). La qualité de la voix semble affecter ici
Même en considérant qu'il n'y a pas de problème avec le raisonnement de Taco2 La raison pour laquelle il y a tant de bruit dans la composition Il y a probablement un problème avec ce modèle de génération de forme d'onde vocale
D'une manière ou d'une autre, je veux créer un modèle qui fonctionne bien jusqu'à la régénération de la voix Ensuite, je vais essayer de gratter un peu plus avec la politique d'amélioration de la précision de la synthèse vocale
À la suite de la synthèse de ce modèle Taco2 et du modèle WvGw de TOA-TTS, Parce qu'il était capable de synthétiser normalement avec la voix de TOA Après tout, il a été confirmé que l'anomalie est dans ce modèle WvGw
Suppression actuelle de la voix bruyante Apprendre à nouveau
350k pas maintenant Il semble que la valeur d'évaluation soit supérieure à la synthèse effectuée précédemment
Exemple de mise à jour audio Wavglw a été réappris et synthétisé uniquement avec des données moins bruyantes.
Extrait audio (taco2: 121k, wavglw: 458k)
La voix est devenue claire, mais c'était différent de ce à quoi je m'attendais Une qualité de voix presque identique à celle du TOA-TTS a été synthétisée
Vous avez peut-être fait une erreur pour apprendre la qualité de la voix.