3.2 Spracherkennung – von analog zu digital - NerimanK/Cloud-Computing-Technology---Google-Home GitHub Wiki

Dieser Abschnitt präsentiert eine kurze Einführung in das Spracherkennungssystem. Unter dem Begriff der Spracherkennung wird verstanden, dass ein akustisches Signal in Text umgewandelt wird, die ein Benutzer artikuliert (Vgl. Russell/Norvig.2018, S.1054).

spracherkennung

Dieses System besteht aus fünf Modulen:

• Merkmalextraktion

• Akustisches Modell

• Sprachmodell

• Wortlexikon

• Dekodierung

Diese Module werden im Nachfolgenden näher beschrieben.

3.2.1 Merkmalextraktionsmodul

Dieses Merkmal wird verwendet, um Sprachmerkmalvektoren aus einem Sprachsignal zu erzeugen. Ziel ist es, nützliche Informationen zu extrahieren und Entfernen von irrelevanten Informationen wie z.B. Rauschen aus dem Sprachsignal.

3.2.2 Akustisches Modell

Ziel des akustischen Modells ist es die Wahrscheinlichkeit, von der Wortfolge die gesprochen wird, möglichst genau zu beschreiben. Da sich die charakteristischen Eigenschaften der Laute auf die Merkmalsequenz auswirken, sind für eine gegebene Wortfolge gewisse Merkmalsequenzen wahrscheinlicher als andere. Aufgrund vieler Beispiele von Sprachsignalen, kann durch die Erzeugung einer staatlichen Beschreibung (akustisches Modell) ermittelt werden, welche Merkmalsequenz für welche Wortfolgen wie wahrscheinlich sind. In einem akustischen Modell mit großem Vokabular wird typischerweise ein HMM (Hidden-Markov-Modell) verwendet, um eine Basiseinheit der Sprache zu modellieren, die als Phonem bezeichnet wird. Die Zuordnung von Wörtern zu Sequenzen wird in einem Wortlexikon erfasst.

3.2.3 Wortlexikon

Das Wortlexikon gilt als Teilkomponente des akustischen Modells (auch phonetisches Wörterbuch) und spezifiziert, welche Wörter erkannt werden können und aus welchen Phonemen diese bestehen. Eine Gruppe von Lauten (Phonen) die ähnlich klingen und niemals einen Bedeutungsunterschied bewirken, nennt man Phonem.

3.2.4 Sprachmodell

Während das akustische Modell zur Bewertung des akustischen Eingabemerkmals verwendet wird, weist das Sprachmodell während der Dekodierung jeder hypothesierten Wortsequenz eine Wahrscheinlichkeit zu, um Sprachinformationen aufzunehmen und die Leistung der Spracherkennung zu verbessern. Zum Beispiel sollte der Wortfolge „we are“ eine höhere Wahrscheinlichkeit zugewiesen werden als der Reihenfolge „we is“ für ein Modell mit englischer Sprache.

3.2.5 Decoding

Der Decodierungsblock, der auch als Suchblock bezeichnet wird, decodiert die Folge von Merkmalsvektoren in eine symbolische Darstellung. Dieser Block verwendet das akustische Modell und das Wortlexikon, um für jede Hypothesensequenz eine akustische Bewertung bereitzustellen. Das Sprachmodell wird gleichzeitig angewendet, um die Sprachmodellbewertung für jede hypothesierte Wortsequenz zu berechnen.

Die Aufgabe des Decoders ist es, die beste hypothetische Wortfolge zu bestimmen, die dann basierend auf der kombinierten Bewertung zwischen den akustischen und Sprachbewertungen für das gegebene Eingangssignal ausgewählt werden kann.