4.5.2 Streaming Genauigkeit - NerimanK/Cloud-Computing-Technology---Google-Home GitHub Wiki

Die meisten Audio-Erkennungsanwendungen müssen in einem kontinuierlichen Audiostrom und nicht in einzelnen Clips ausgeführt werden. Ein typischer Weg, um ein Modell in dieser Umgebung zu verwenden, besteht darin, es wiederholt zu verschiedenen „offsets“ zeitlich anzuwenden und die Ergebnisse über ein kurzes Fenster zu mitteln, um eine geglättete Vorhersage zu erhalten. Wenn man sich den Input als Bild vorstellt, läuft sie kontinuierlich entlang der Zeitachse. Die Wörter die wir erkennen möchten, können jederzeit auftauchen. Daher muss man eine Reihe von Momentaufnahmen erstellen, um eine Ausrichtung zu haben, die den größten Teil der Äußerung in dem Zeitfenster erfasst, das wir in das Modell einfließen lassen. Wenn wir mit einer ausreichend hohen Abtastrate abtasten, besteht eine gute Chance, das Wort in mehreren Fenstern zu erfassen. Durch den Durch-schnitt der Ergebnisse wird die Zuverlässigkeit der Vorhersage insgesamt verbessert.

Da das Netzwerk aus verschiedenen Arten von Schichten besteht, gestaltet sich das Training als komplizierter. Die feed-forward propagation und die backward propagation folgen jeweils speziellen Regeln für jede Schicht einzelne Schicht. Die erste Phase wird als forward-propagation bezeichnet, bei der das Signal von den Inputs der CNNs zu seinem Output weitergeleitet wird. In der letzten Schicht wird die Ausgabe anhand der Kostenfunktion mit dem gewünschten Wert verglichen und der Fehler geschätzt. In der zweiten Phase wird wieder ein Backpropagations-Algorithmus verwendet, um den Fehlerbetrag einzelner Einheiten zu schätzen. Variable Parameter des Netzwerks werden wiederum durch einen Gradientenabstiegs-Algorithmus optimiert.