Reconnaissance vocale en streaming avec l'API Google Cloud Speech

Essayez de diffuser la reconnaissance vocale à partir de l'entrée du microphone avec l'API Google Cloud Speech.

Auparavant j'ai essayé de reconnaître les fichiers enregistrés avec la version API REST, donc cette fois j'essaierai la reconnaissance en continu avec la version gRPC.

procédure

Exemple officiel de Google Suivez les étapes de LISEZ-MOI.

Cette fois, je vais essayer la reconnaissance en continu transcript_streaming.py.

Même procédure que la version REST jusqu'à l'obtention du json du compte de service.

  1. Inscrivez-vous à la plateforme Google Cloud
  2. Créez un projet dans la console Developer, activez l'API Speech et obtenez le fichier json du compte de service pour l'authentification.
  3. Définissez le fichier json téléchargé sur la variable d'environnement GOOGLE_APPLICATION_CREDENTIALS
  4. Exécutez un exemple de script
  5. Activer l'audio du port
  6. Installation du module pip requis (virtualenv recommandé)
  7. Configurez transcribe_streaming.py pour reconnaître le japonais
  8. Changez le code de langue de la reconnaissance_config de en-US en ja-JP
  9. Ajustez la fréquence d'échantillonnage, etc. en fonction de votre environnement
  10. Le réglage autour de l'appareil est record_audio, qui est la méthode de pyaudio.
  11. Exécutez l'exemple dans $ python transcribe_streaming.py``` et parlez dans le microphone

Une fois lancée, la reconnaissance se poursuit tant que service.StreamingRecognize renvoie une valeur dans listen_print_loop (elle se termine par un délai d'expiration lorsque le nombre de secondes de DEADLINE_SECS s'écoule).

Cet exemple termine le traitement si l'instruction contient les mots ʻexit ou quit(la seconde moitié de * listen_print_loop *), donc ces mots doivent êtrearrêtés ou finis` Si vous le modifiez, vous pouvez faire de même en japonais.

Comportement de reconnaissance

Jusqu'à ce qu'il y ait silence pendant un certain temps, il sera reconnu comme un discours continu même s'il y a un certain temps. --Une fois reconnu, ʻis_final = Trueetconfidence sont renvoyés avec le texte résultant. -Si vous spécifiez ʻinterim_results = True dans * streaming_config *, vous pouvez obtenir le résultat de la reconnaissance pendant le discours.

Il semble que la reconnaissance au milieu du discours se fait au niveau des mots, et je suis surpris de la vitesse à laquelle je ne peux pas penser à travers le réseau. Cependant, le résultat de la reconnaissance au milieu peut être faux, donc si vous ne vous dépêchez pas, cela mettra fin à tout Il vaut mieux attendre.

Pour d'autres options, consultez le Manuel de l'API gRPC

Le code Github est mis à jour assez souvent, vous devriez donc le vérifier quotidiennement.

Punaise

Je l'ai essayé avec un ordinateur portable / microphone externe USB intégré sur MAC et Linux respectivement, mais après environ 3-10 discours ou 15-30 secondes, ils ont disparu sans aucune erreur. Enquête requise.

Sentiments divers

Puisqu'il s'agit de v1beta1, il semble qu'il soit encore en phase de test. Il semble difficile de l'utiliser correctement à moins d'être habitué à gRPC (et comment le gérer à partir de pyton).

Recommended Posts

Reconnaissance vocale en streaming avec l'API Google Cloud Speech
Reconnaissance vocale des fichiers wav avec Google Cloud Speech API Beta
Transcription vocale automatique avec l'API Google Cloud Speech
API Google Cloud Speech et Amazon Transcribe
Procédure de transcription vocale à l'aide de l'API Google Cloud Speech
Transcrire des fichiers WAV avec l'API Cloud Speech
Diffusez la reconnaissance vocale à l'aide de l'API gRPC Google Cloud Speech avec python3 sur Mac!
Procédure de transcription vocale à l'aide de Python et de l'API Google Cloud Speech
Reconnaissance vocale des fichiers par l'API Google Speech v2 à l'aide de Python
Présentation de l'API Google Map avec rails
J'ai essayé d'utiliser l'API de reconnaissance vocale docomo et l'API Google Speech en Java
Exemple d'API Google Cloud Vision pour python
Reconnaissance vocale en anglais avec python [speech to text]
Introduction facile de la reconnaissance vocale avec Python
Essayez d'utiliser Python avec Google Cloud Functions
Utiliser l'API Google Cloud Vision de Python
[GCP] Exploitez Google Cloud Storage avec Python
Obtenez des vacances avec l'API Google Agenda
API de reconnaissance faciale sans serveur conçue avec Python
Extraire des mots populaires soudains avec l'API de streaming Twitter
Suivi automatique à l'aide de l'API de streaming avec Tweepy
Extraction de texte avec l'API GCP Cloud Vision (Python3.6)
J'ai essayé "License OCR" avec l'API Google Vision
Afficher l'API Google Maps avec Rails et affichage des broches
J'ai essayé d'utiliser l'API Google Cloud Vision
Comparaison de la précision de la reconnaissance vocale dans le cloud de 4 grandes entreprises
Comment utiliser l'API Google Cloud Translation
Jusqu'à ce que vous puissiez utiliser l'API Google Speech
J'ai essayé "Receipt OCR" avec l'API Google Vision
[GoogleCloudPlatform] Utiliser l'API Google Cloud avec la bibliothèque cliente d'API
Obtenez des étiquettes de données en les associant à l'API Google Cloud Vision lors de la prévisualisation d'images avec Rails
Étude de la relation entre le prétraitement de la voix et la précision de la transcription dans l'API Google Cloud Speech
Enregistrement facile des livres avec l'API et Rails de Google Livres
Créez une carte thermique de tweet avec l'API Google Maps
Une histoire liée à Google Cloud Storage avec un peu d'ingéniosité
Utilisation de Google Cloud Storage (GCS) par "GAE / Py"
Comment analyser avec Google Colaboratory à l'aide de l'API Kaggle
Transférer vers un Drive partagé avec l'API Google Drive V3
Recevez des tweets avec des mots-clés arbitraires à l'aide de l'API Streaming de Twitter
Choisissez uniquement du japonais croustillant avec l'API de streaming Twitter
Reconnaissance faciale avec Edison
Reconnaissance d'image avec keras
Reconnaissance vocale avec Python
Extruder avec l'API Fusion360
Nuage de points avec du poivre
API Nifty Cloud facile à utiliser avec botocore et python
Flux d'extraction de texte au format PDF avec l'API Cloud Vision
Hello World avec Google App Engine (Java 8) + API Servlet 3.1 + Gradle
J'ai essayé Google Sign-In avec Spring Boot + Spring Security REST API
Reconnaissance d'image avec API à partir de zéro connaissance avec AutoML Vision
Rendre les objets reconnus avec IBM Watson Developer Cloud Visual Recognition
Essayez de juger des photos de plats à l'aide de l'API Google Cloud Vision
Obtenez des données de l'API d'analyse avec le client API Google pour python
J'ai essayé l'API Google Cloud Vision pour la première fois
Publions l'API de super résolution à l'aide de Google Cloud Platform
Mettez en place le géocodage inversé en japonais avec l'API Python Google Maps
Importez et supprimez des fichiers dans Google Cloud Storages avec django-storage
Jouez avec l'API de données YouTube v3 à l'aide du client Python de l'API Google