Voice Modeling Methods for Automatic Speaker Recognition
Building a voice model means to capture the characteristics of a speaker´s voice in a data structure. This data structure is then used by a computer for further processing, such as comparison with other voices. Voice modeling is a vital step in the process of automatic speaker recognition that itsel...
Main Author: | |
---|---|
Contributors: | |
Format: | Doctoral Thesis |
Language: | German |
Published: |
Philipps-Universität Marburg
2010
|
Subjects: | |
Online Access: | PDF Full Text |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Ein Stimmmodell (voice model) fasst die charakteristischen Eigenschaften einer Stimme in einer Datenstruktur zusammen. Diese wird zur maschinellen Weiterverarbeitung verwendet, z.B. zum Vergleich mit anderen Stimmen. Dies ist ein Hauptschritt auf dem Weg zur automatischen Sprechererkennung, welche wiederum der Kern mehrerer marktreifer Technologien ist: (a) biometrische Authentisierung, (b) automatische Spracherkennung und (c) multimediale Suche. Die automatische Sprechererkennung birgt mehrere Herausforderungen. Zum einen besteht das Problem der Datenknappheit, d.h. der zu kurzen Sprach-Äußerungen. Es entsteht durch die Eigenschaft des Sprachsignals, unterschiedliche Aspekte des Klangs in einer einzelnen eindimensionalen Zeitreihe unterzubringen: linguistische (was wurde gesagt?), prosodische (wie wurde es gesagt?), individuelle (wer hat es gesagt?), örtliche (wo befindet sich der Sprecher?) und emotionale Merkmale der Sprache an sich (um nur einige zu nennen) werden ebenso vermittelt wie Informationen über akustische Nebengeräusche. Um einen bestimmten Aspekt unabhängig von den übrigen Aspekten zu analysieren, müssen die ansonsten ähnlichen Analysetechniken auf eine bestimmte zeitliche Einheit im Signal geeicht werden, in der dieser Aspekt gegenüber anderen heraussticht. Beispielsweise entfaltet sich linguistische Information (welches Phonem oder welche Silbe wurde gerade ausgesprochen?) auf einer Skala von nur wenigen Millisekunden Länge. Sprecherspezifische Informationen hingegen lassen sich um so besser extrahieren, je länger der zu analysierende Sprachabschnitt ist. Lange, zusammenhängende Sprachäußerungen sind allerdings nicht immer verfügbar. Zum anderen wird das Sprachsignal leicht durch Nebengeräusche wie z.B. Musik oder Soundeffekte beeinträchtigt. Das Stimmmodell tendiert dann dazu, eher die Charakteristiken der Nebengeräusche abzubilden anstatt diejenigen der Stimme. Ein Modellvergleich geschieht dann fälschlicherweise hautptsächlich auf Basis der Nebengeräusche anstatt anhand der Stimme. Aktuelle Systeme zur automatischen Sprechererkennung arbeiten zufriedenstellend unter relativ kontrollierten Umständen wie in geräuscharmen Studioaufnahmen oder wenn zusätzliche Informationen z.B. über die Anzahl und Identität der auftretenden Sprecher verfügbar sind. Unter verschärften Bedingungen, wie sie beispielsweise in Filmen oder Amateurvideomaterial im Internet auftreten, sinkt die Erkennungsrate unter die für Endanwender oder eine Weiterverarbeitung akzeptable Schwelle. Zum Beispiel machen die typische Sprachdauer von ca. einer Sekunde in Kinofilmen und die dort auftretenden Soundeffekte eine Anwendung der meisten aktuellen Systeme auf solchen Daten unmöglich. In dieser Arbeit werden Methoden für die Stimmmodellierung untersucht, die robust gegenüber kurzen Sprachäußerungen und Nebengeräuschen sind. Das anvisierte Ziel ist die Indexierung von Filmen hinsichtlich der auftretenden Sprecher. Zu diesem Zweck werden algorithmische Verbesserungen vorgestellt, die (a) die Modellierung von kurzen Sprachsegmenten erlauben, (b) die Modellbildung auch unter beträchtlichem Nebengeräuscheinfluss ermöglichen und (c) einen effizienten Vergleich von Stimmmodellen durchführen können, um die Indexierung von großen Multimediaarchiven zu unterstützen. Neben diesen punktuellen algorithmischen Verbesserungen beschäftigen sich die folgenden Kapitel auch mit {prinzipiellen Schwächen aktueller Ansätze zur Stimmmodellierung. Mittels einer Studie mit menschlichen Probanden wird gezeigt, dass die Ausklammerung von zeitlichen Kontextinformationen aus dem Stimmmodell eine künstliche Obergrenze für die Leistungsfähigkeit automatischer Analysemethoden einführt. Eine beispielhafte Implementierung bestätigt den Nutzen der Informationsquelle zeitlicher Kontext durch die Halbierung der Fehlerrate. Dieses Resultat stellt das Sprechererkennungs-Paradigma der letzten beiden Dekaden in Frage und präsentiert einen zukunftsträchtigen neuen Weg. Die vorangegangenen Ergebnisse wurden mit einem neuartigen methodischen Ansatz zum Algorithmenentwurf namens "Eidetic Design" erzielt. Er sieht die Analyse von abstrakten Zwischenergebnissen bestehender Algorithmen mittels Introspektion vor. Das Ziel dabei ist, Nachteile und Fehler in den bestehenden Methoden intuitiv aufzudecken und Lösungen nahezulegen. Die Zwischenergebnisse bestehen häufig aus Matrizen voller Zahlen, deren Bedeutung sich dem menschlichen Beobachter nicht ohne weiteres erschließt. Der Kern des Ansatzes ist deshalb, Zwischenergebnisse in eine passende Domäne der Wahrnehmung zu transformieren (z.B. Sprachmerkmalsvektoren in hörbare Sprachsignale umzuwandeln), in der ihr Inhalt, ihre Bedeutung und potentielle Probleme intuitiv erfasst werden können. Schließlich wird die Nutzung der vorgestellten Verfahren in Problemen aus dem Video Retrieval und der Filmanalyse sowie ihre Implemetierung in der auf Nachfrage erhältlichen Softwarebibliothek sclib präsentiert.