Projektbericht: Text-to-Speech-Systeme bei der Anwendung von Sprachtests

Wann immer das Sprachverständnis einer Person überprüft werden soll, wird ein Sprachtest durchgeführt. Die Erstellung dieser Sprachtests ist im Vorfeld eine langwierige Arbeit. Sie benötigen viel Zeit, gute Sprecherinnen und Sprecher sowie eine geeignete Ausrüstung. Die Erstellung von Sprachtests kann durch den Einsatz von synthetischer Sprache aus Text-to-Speech-Systemen (TTS) erleichtert werden. Dies wurde bereits in einigen Studien gezeigt, z. B. von Nuesse et al. (2019) und Ibelings et al. (2022). Es wurde jedoch nicht untersucht, wie gut synthetische Sprache maskiert werden kann oder wie gut diese synthetische Sprache ein Sprachsignal maskiert.

Diese Aspekte wurden im Rahmen eines Projektes im 6. Semester unter der Leitung von Anne Schlüter und Saskia Ibelings untersucht. Als Sprachtest wurde der Oldenburger Satztest (OLSA) verwendet. Der OLSA ist ein Matrixtest in der Form Name-Verb-Zahl-Adjektiv-Objekt. Dieser lag in einer Originalaufnahme mit einer weiblichen und einer synthetischen Sprecherin vor. Um nun den Maskierungseffekt zu überprüfen, wurde der originale OLSA mit Rauschen maskiert und einmal mit sich selbst und den synthetischen OLSA-Sätzen. Umgekehrt wurde dasselbe mit dem synthetischen OLSA gemacht. Insgesamt ergaben sich sechs Messkonditionen, die je dreimal pro Proband:in gemessen werden sollten, verteilt über 18 Messungen. Dies diente dazu, einen stabilen Messwert zu erhalten. Gemessen wurde das Signal-Rausch-Verhältnis an dem Punkt, an dem 50 % der Sprachverständlichkeit (engl.: Speech Recognition Threshold, SRT) erreicht werden. An der Studie nahmen 13 normalhörende, ohrgesunde Probanden im Alter von 21 bis 35 Jahren teil. Die Messungen fanden in einer schallisolierten Kabine über Kopfhörer statt.

Die Ergebnisse zeigten, dass Rauschen als Maskierungsart einen höheren SRT als Sprache erreicht und somit eine bessere Maskierungswirkung hat. Weiterhin wurde festgestellt, dass die Wahl der Zielsprecherin einen Einfluss auf den SRT hat, d.h. dass sowohl die natürliche als auch die synthetische Zielsprecherin einen Einfluss auf das Sprachverstehen haben. Wenn Maskierer und Zielsprecherin zusammen betrachtet wurden, gab es keinen Einfluss auf den SRT. Außerdem gab es keinen signifikanten Unterschied in der Maskierungswirkung zwischen natürlicher und synthetischer Sprache, d.h. synthetische Sprache kann genauso gut maskieren wie natürliche Sprache. Zusammenfassend kann gesagt werden, dass die synthetische Sprache für den OLSA genauso verwendet werden kann wie die natürliche Sprache des OLSA. 

Diese Ergebnisse bilden eine Grundlage für weitere mögliche Fragestellungen, die in Zukunft untersucht werden können. Unter anderem wäre es interessant zu sehen, wie die synthetische Sprache als Maskierungsart auch bei hörgeschädigten Personen funktioniert oder wie sich die synthetische Sprache bei anderen Sprachtests verhält.