3.3 Cloud Speech API (Speech to text) - NerimanK/Cloud-Computing-Technology---Google-Home GitHub Wiki

Speech to Text dient dazu, gesprochene Inhalte des Menschen in Textdateien zu konvertieren. Dabei wird Maschinenintelligenz als auch Algorithmen genutzt, um Informationen zur Sprachstruktur mit Informationen zur Zusammensetzung des Tonsignals zu kombinieren und eine präzise Transkription zu generieren (Vgl. https://www.itwissen.info/Speech-to-Text-speech-to-text-STT.html).

Das Unternehmen Google bietet einen Speech-To-Text (STT) Dienst an Audio zu Text umzuwandeln, indem leistungsstarke neuronale Netzwerkmodelle die sogenannte Google Speech Cloud API verwenden (Vgl. Google Cloud-Speech-API, o. J., https://cloud.google.com/speech-to-text/).

Die Google Speech-Cloud-API ist in der Lage das gesprochene in über 80 Sprachen zu erkennen und in Text umzuwandeln. Diese Sprachen werden im Parameter angegeben. Jeder Sprachcode-Parameter besteht aus einer BCP 47 Kennung. Die Tags haben die Form als Sprache-Region. Die Sprache bezieht sich dabei auf die Primärsprache und die Region auf die regionale Ausprägung. Beispiel: Englisch angeben entweder als amerikanisches Englisch (en-US) oder britisches Englisch (en-GB) (Vgl. Google Cloud-Speech-API Documentation, 2016, https://cloud.google.com/speech-to-text/docs/languages).

Die Google Cloud-Speech-API verwendet drei Methoden um die Spracherkennung durchzuführen (Vgl. https://cloud.google.com/speech-to-text/docs/basics).

Synchrone Erkennung (REST und gRPC): Hierbei werden Audiodaten and die Speech-API gesendet. Für den Input wird eine Spracherkennung durchgeführt, alle Audiodaten werden verarbeitet und anschließend werden die Ergebnisse zurückgegeben. Die synchrone Erkennung auf Audiodaten sind begrenzt auf einer Dauer von einer Minute.

Asynchrone Erkennung (REST und gRPC): Bei einer asynchronen Erkennung mittels REST oder gRPC werden die Audiodaten an die Speech-to-Text API gesendet und laufender Vorgang eingeleitet. Durch diesen Vorgang besteht die Möglichkeit regelmäßig Erkennungsergebnisse abzufragen. Diese Erkennung kann bei einer Audiodateilänge von 180 Minuten genutzt werden.

Streaming-Erkennung (nur gRPC): Diese Methode führt die Erkennung von Audiodaten durch, die innerhalb eines gRPC-bidirektionalen Streams bereitgestellt werden. Streaming Anfragen werden in Echtzeit bearbeitet und sind für das Erfassen von Live-Audio konzipiert. Dies ermöglicht, dass der gesprochene Text ohne Verzögerung in Echtzeit auf dem Display als geschriebener Text angezeigt wird. (Vgl. https://cloud.google.com/speech-to-text/docs/basics).