Article

Spracherkennung in stark gestörten Unterwasserumgebungen

* Presenting author
Day / Time: 21.03.2018, 15:40-16:00
Room: MW 2250
Typ: Vortrag (strukturierte Sitzung)
Session: Meeresakustik
Abstract: Sprachkommunikation unter Wasser ist ein kompliziertes Tätigkeitsfeld. Aktuell gibt es nur wenige technische Ansätze, die es Schwimmern oder Tauchern erlauben mit Menschen außerhalb des Wassers Kontakt zu halten oder Kommandos zu empfangen. Der menschliche Sprach- und Hörapparat ist nicht an die Artikulation unter Wasser angepasst, weshalb das Sprechen unter Wasser für den Menschen eine Herausforderung ist. In einem vorangegangenen Projekt an der Universität Kiel wurde bereits eine Tauchermaske entworfen, die mit wasserfesten Mikrofonen und einem WLAN-Modul ausgerüstet ist. Da es sich jedoch um eine Vollgesichtsschwimmaske handelt, wird in den luftgefüllten Raum zwischen Maske und Gesicht artikuliert. In diesem Beitrag wird die Idee aufgegriffen und erweitert, sodass mithilfe von an einer Schwimmbrille befestigten Mikrofonen direkt ins Wasser gesprochene Kommandos detektiert werden. Als erster Schritt wurde eine Spracherkennung für einen MP3-Player aufgebaut. In Testreihen in Schwimmbädern und Pools wurden Sprachdaten unterschiedlicher Personen aufgezeichnet und mit verschiedenen Machine-Learning-Algorithmen prozessiert. Für die Spracherkennung kommen Gauß‘sche Mischmodelle mit Erweiterungen zum Einsatz, bei denen zusätzlich zu den Wahrscheinlichkeiten der Modelle die Abfolge der Gauß-Verteilungen mit maximaler Wahrscheinlichkeit in Betracht gezogen wird. Mit dem Gaussian-Mixture-Model Mean-Value-Tracking (GMM-MVT) wird eine Erkennungsrate von 81,7% erreicht.