J'ai comparé la précision de la reconnaissance vocale d'Amazon, Google, IBM, Microsoft

――Les données audio utilisées cette fois sont un enregistrement de ma réunion de recherche (un séminaire d'études supérieures) avec les AirPods. Le nombre de participants à la réunion est de 3 à 5. Veuillez noter que l'audio contient des informations personnelles et ne peut être divulgué.

Quantité de données: 300 remarques (environ 27 minutes) ――La qualité de la voix comprend beaucoup de sons et de bruits de la vie quotidienne. La qualité de la voix n'est pas bonne (par rapport au corpus de reconnaissance vocale tel que CSJ) ――La précision de la reconnaissance vocale de Google, etc. est assez bonne (WER à un seul chiffre même en japonais), comme publié dans l'article.
La précision est assez bonne car elle utilise un son de bonne qualité pour la recherche. ―― *** Il n'y a pas beaucoup de rapports sur l'exactitude de la reconnaissance des voix dans la vie quotidienne *** Cette fois, j'ai enquêté *** avec quelle précision vous pouvez reconnaître les voix dans votre vie quotidienne. De plus, puisqu'il s'agit d'une voix liée à la recherche, elle contient de nombreux termes techniques. Je me demande aussi dans quelle mesure cela correspond aux termes techniques. -Veuillez vous reporter à l'article Utilisation d'Amazon, Google, IBM, le service de reconnaissance vocale de Microsoft pour un résumé de l'utilisation de l'API.

Comparaison de la précision de la reconnaissance

--En plus d'Amazon, Google, IBM et Microsoft, la précision de reconnaissance de Kaldi (apprise avec CSJ, JNS, S-JNAS, CEJC) est également répertoriée.

        GCP
        WER: 0.3344722854973424
        CER: 0.2765527007889945

        AWS
        WER: 0.36209150326797385
        CER: 0.2218905472636816

        Azure
        WER: 0.28109824430332464
        CER: 0.21596337579617833

        Watson
        WER: 0.4107744107744108
        CER: 0.29126794258373206

        Kaldi
        WER: 0.616504854368932
        CER: 0.47915630285543725

Les résultats montrent que Microsoft est le plus précis. Je pensais que Google était le meilleur, mais ce n'était pas le cas. Si vous regardez WER, vous pouvez voir que même le meilleur Microsoft est d'environ 28%. Si la qualité de la voix est bonne, le WER sera amélioré à un chiffre, mais il a été constaté que la précision diminue à ce point dans un environnement avec beaucoup de sons et de bruits de la vie quotidienne comme la voix de la vie quotidienne. Cependant, comme Kaldi est misérable, je pense que les logiciels de reconnaissance vocale tels que Google et Microsoft peuvent gérer un peu de bruit.

――Je publierai un des résultats de reconnaissance pour le moment

Bonne réponse:Puisqu'il est possible de calculer la proximité, en utilisant ceci, le son de frappe est exprimé comme une matrice de distance pour chaque matériau, et la densité est exprimée comme ceci, de sorte que cette carte bidimensionnelle puisse être utilisée. J'ai essayé de le remplacer, mais c'est incroyable de faire quelque chose

Google:La proximité peut être calculée, donc même si vous l'utilisez, vous pouvez remplacer le son frappant par une matrice de distance pour chaque matériau et la remplacer par cette carte bidimensionnelle qui est devenue comme ça. Mais c'est incroyable de faire quelque chose

Amazon:Puisqu'il est possible de calculer la proximité, même si cela est utilisé, le son frappant est représenté par un nœud comme celui-ci dans la matrice de distance pour chaque matériau, donc cet être humain Le remplacer par une carte est une évidence!Je l'ai essayé, mais c'est incroyable de faire quelque chose

Microsoft:Je l'ai utilisé parce que je peux calculer la proximité, mais j'ai utilisé cette carte bidimensionnelle parce qu'il y avait un moyen d'exprimer le son frappant pour chaque matériau dans une matrice de distance avec le même sentiment qu'avant. J'ai essayé de le remplacer par un, mais c'est incroyable de faire quelque chose

IBM:Puisqu'il est possible de calculer le contrôle, même s'il est utilisé, on ne peut pas dire que le son de frappe est représenté par une matrice pour chaque matériau sur l'horloge, comme c'était le cas ci-dessus. Remplacez-le par la carte humaine ici. J'ai essayé de le faire pour le moment, mais c'est incroyable de faire quelque chose

Kaldi:Comme il est possible de calculer la proximité pendant 5 jours, il n'est pas nécessaire de l'utiliser, de sorte que le son de frappe est supprimé pour chaque matériau. J'ai été passif une fois, surtout pour le remplacer, mais c'est pratique de faire quelque chose.

Comparaison de la précision de la reconnaissance vocale dans le cloud de 4 grandes entreprises

J'ai comparé la précision de la reconnaissance vocale d'Amazon, Google, IBM, Microsoft

Comparaison de la précision de la reconnaissance