SprechpausenerkennungSprechpausenerkennung (englisch voice activity detection, VAD) ist eine in der Sprachverarbeitung genutzte Technik, bei der die An- oder Abwesenheit menschlicher Stimme erkannt wird.[1] Die Hauptverwendungszwecke für Sprechpausenerkennung liegen in den Bereichen der Sprachkodierung und Spracherkennung. Es kann die Sprachverarbeitung erleichtern und kann genutzt werden, um manche Vorgänge während einer Sprechpause zu deaktivieren: Es kann unnötige Kodierung und Übertragung von inhaltsleeren Datenpaketen in IP-Telefonieanwendungen vermeiden und so Rechenleistung und Übertragungskapazität einsparen. Sprechpausenerkennung ist eine Schlüsseltechnik für eine Vielzahl Sprach-basierter Anwendungen. Daher wurden verschiedene Algorithmen entwickelt, die unterschiedliche Merkmale aufweisen und eine Abwägung zwischen Latenz, Empfindlichkeit, Präzision und Berechnungsaufwand darstellen. Manche Algorithmen liefern auch weitere Analysedaten, zum Beispiel ob die Sprache stimmhaft, stimmlos oder ausgehalten ist. Sprechpausenerkennung ist üblicherweise unabhängig von der Sprache. Erstmals untersucht wurde sie zur Verwendung in Systemen für zeitzugeordnete Sprachinterpolation (ZSI). AlgorithmusDer typische Entwurf eines VAD-Algorithmus ist folgendermaßen:[1]
In dieser Abfolge kann es Rückkopplungen geben, in der die Entscheidung der Sprechpausenerkennung genutzt wird, um die Störgeräuscherkennung anzupassen oder den Schwellwert bzw. die Schwellwerte dynamisch anzupassen. Diese Rückkopplungsmechanismen verbessern die Erkennungsleistung bei veränderlichen Störgeräuschen.[1] Ein repräsentativer Satz kürzlich veröffentlichter Sprechpausenerkennungsmethoden bestimmt die Entscheidungsregel von Block zu Block unter Verwendung fortlaufend gemessener Abweichungsabstand zwischen Sprache und Störgeräusch. Die unterschiedlichen Messgrößen, die bei der Sprechpausenerkennung genutzt werden, umfassen Abfall der Spektralverteilungskurve, Korrelationskoeffizienten, logarithmischer Wahrscheinlichkeits-Quotient, Cepstrum-, gewichtete Cepstrum- und modifizierte Abstandsmaße. Unabhängig von der Wahl des Pausenerkennungsalgorithmus muss abgewägt werden zwischen der Erkennung von Störgeräuschen als Sprache oder Sprache als Störgeräusch (zwischen falsch positiv und falsch negativ). Eine in einem Mobiltelefon betriebene Sprechpausenerkennung muss Sprachsignale unter Anwesenheit einer Palette sehr unterschiedlicher Arten akustischer Hintergrundgeräusche erkennen können. Unter diesen schwierigen Erkennungsbedingungen ist es oft wünschenswert, eine konservative Pausenerkennung zu haben, die im Zweifelsfall als Sprachsignal kategorisiert, um die Gefahr verlorener Sprachabschnitte zu mindern. Die größte Schwierigkeit bei der Erkennung der Sprachabschnitte in dieser Umgebung sind die geringen anzutreffenden Rauschabstände. Wenn Teile der Sprachäußerungen in Störgeräuschen untergehen, kann eine Unterscheidung zwischen Sprache und Störgeräuschen aufgrund einfacher Pegelbestimmung unmöglich sein. Anwendungen
Bei einer breiten Palette von Anwendungen wie digitalem Sprechfunk, Digital Simultaneous Voice and Data (DSVD) oder Sprachaufzeichnungen ist es wünschenswert, eine unterbrochene Übertragung von Sprachkodierungsparametern. Vorteile können niedrigerer durchschnittlicher Energiebedarf in Mobilgeräten, höhere durchschnittliche Bitrate für gleichzeitige Dienste wie Datenübertragung oder höhere Kapazität auf Speicher-Chips sein. Allerdings sind die Vorteile abhängig vom Anteil von Pausen in Gesprächen und der Zuverlässigkeit der eingesetzten Sprechpausenerkennung. Einerseits ist es vorteilhaft, einen geringen Anteil von Sprachabschnitten zu haben. Andererseits sollten Einschnitte in Sprachabschnitte, also der Verlust von Sprachabschnitten, minimiert werden, um Qualität zu erhalten. Das ist das entscheidende Problem für einen Sprechpausenerkennungsalgorithmus unter der Bedingung starker Störgeräusche. Nutzung im TelefonverkaufEine umstrittene Anwendung von Sprechpausenerkennung ist in Verbindung mit von Telefonverkaufsfirmen verwendeten Predictive Dialern. Um die Produktivität der Agenten zu maximieren, richten Telefonverkaufsfirmen Predictive Dialer ein, um mehr Nummern anzurufen, als Agenten verfügbar sind, in dem Wissen, dass die meisten Anrufe unbeantwortet oder bei Anrufbeantwortern enden. Wenn eine Person annimmt, so sprechen sie meist kurz („Hallo“, „Guten Abend“ etc.) und dann folgt ein Zeitraum der Stille. Anrufbeantworteransagen enthalten üblicherweise 3 bis 15 Sekunden an kontinuierlichem Sprachfluss. Mit korrekt gewählten Sprechpausenerkennungsparametern können Dialer bestimmen, ob eine Person oder ein Anrufbeantworter den Ruf angenommen hat und wenn es eine Person ist, den Anruf an einen verfügbaren Agenten übergeben. Wenn ein Anrufbeantworter erkannt wurde, so hängt der Dialer auf. Oft erkennt das System korrektermaßen die Annahme durch eine Person, wobei kein Agent verfügbar ist. LeistungsbewertungUm eine Sprechpausenerkennungsmethode zu bewerten, wird seine Ausgabe anhand von Testaufnahmen mit den Ergebnissen einer „idealen“ Sprechpausenerkennung verglichen – erstellt durch manuelle Feststellung der An- und Abwesenheit von Sprache in den Aufnahmen. Die Leistung einer Sprechpausenerkennung wird üblicherweise anhand der folgenden vier Parameter untersucht:[2]
Trotzdem die oben beschriebene Methode nützliche objektive Informationen zur Leistung einer Sprechpausenerkennung liefert, ist sie nur ein näherungsweises Maß für die subjektive Auswirkung. Beispielsweise können die Auswirkungen angeschnittener Sprachabschnitte abhängig von der Art des gewählten Komfortrauschgenerators manchmal durch die Anwesenheit von Hintergrundgeräuschen verdeckt sein, wodurch manche mit objektiven Tests gemessene Einschnitte in Sprachabschnitte eigentlich nicht wahrnehmbar sind. Daher ist es wichtig, Sprechpausenerkennungen subjektiven Tests zu unterziehen, hauptsächlich um die Annehmbarkeit der wahrgenommenen Einschnitte sicherzustellen. Diese Art von Tests erfordert von einer gewissen Anzahl von Hörern die Bewertung von Aufnahmen mit den Erkennungsergebnissen der zu testenden Verfahren. Die Hörer müssen die folgenden Merkmale bewerten:
Diese durch das Anhören einiger Sprachsequenzen erhaltenen Bewertungen werden dann benutzt, um Durchschnittsergebnisse für die einzelnen oben aufgezählten Merkmale zu berechnen und dadurch eine allgemeine Einschätzung des Verhaltens der getesteten Sprechpausenerkennung zu erhalten. Während also objektive Methoden in einem anfänglichen Entwicklungsstadium sehr nützlich sind um die Qualität einer Sprechpausenerkennung zu prüfen, sind subjektive Methoden aussagekräftiger. Da sie jedoch teurer sind (weil sie die Teilnahme einer gewissen Anzahl von Leuten über einige Tage erfordern), werden sie allgemein nur genutzt, wenn sich ein Vorschlag in der Standardisierung befindet. Implementierungen
Siehe auchLiteratur
Fußnoten
|