Entwicklung einer synthetischen Stimme einer Corporate Voice auf Basis eines vorliegenden Sprachkorpus und deren Optimierung mittels instrumenteller Schätzer

01.03.2014 -

Abgeschlossen
TU Berlin & Deutsche Telekom AG

Name des Teilnehmers: Florian Hinterleitner

Beschreibung des IT-Forschungsprojektes: Die richtige Stimme sorgt für Wiedererkennung und verleiht einer Marke Charakter. Deshalb beschäftigen große Unternehmen häufig einen festen Sprecher, durch dessen Stimme sie in Radio? und TV?Werbesports vertreten werden. Eine solche Markenstimme ist eine spezifische Sprechstimme, die konsequent und langfristig für die verbale Kommunikation eines Unternehmens eingesetzt wird. Diese für den Zuhörer bekannte Stimme wird intuitiv mit dem jeweiligen Unternehmen verknüpft. Zu solchen Stimmen liegen in den jeweiligen Unternehmen oft bereits größere Datenbanken mit aufgezeichneten Sprachdaten vor, allerdings lässt sich damit nicht jede gewünschte Äußerung erstellen. In dem Projekt CV_TTS soll aus einer solchen Datenbank eine synthetische Stimme für beliebige Äußerungen erzeugt werden, welche flexibel und dynamisch eingesetzt werden kann. Hierzu sind zunächst grundlegende Forschungsarbeiten notwendig. Durch den Einsatz neuer instrumenteller Qualitätsschätzer (ein Algorithmus, der die von einem Nutzer empfundene Qualität vorhersagt) für Gesamtqualität sowie relevante perzeptive Qualitätsdimensionen soll die Sprachsynthese während der Entwicklung nicht nur kontinuierlich verbessert werden, es werden zudem auch die Menge der anfallenden Hörversuche zur Qualitätsbestimmung der Synthese auf ein Minimum reduziert. Im Ergebnis soll eine evaluierte Sprachsynthese der Corporate Voice (CV) vorliegen, die beliebigen Text in Sprache umsetzen kann.

Im Rahmen dieses Projekts soll außerdem wissenschaftlich untersucht werden, in wieweit sich eine Datenbank mit Aufnahmen einer Corporate Voice als Basis für eine Sprachsynthese eignen. Die Qualität der erzeugten Stimme wird neben konventionellen Hörversuchen dabei erstmals auch durch instrumentelle Schätzung bestimmt werden. Dabei wird die Eignung dieses neuen Maßes für den Fall der Entwicklung sowie den Betrieb einer Sprachsynthese untersucht. Im Gegenzug ergibt sich auch eine wissenschaftliche Validierung des Maßes für die neu erstellte Synthese. Im Ergebnis soll eine hoch?qualitative Sprachsynthese vorliegen, die z.B. in ein Telekommunikationssystem oder ein Sprachportal eines Unternehmens eingebunden werden kann und diesem somit ermöglicht, sich auch auf dieser Ebene des Kundenkontakts durch seine Corporate Voice zu repräsentieren.

Software Campus-Partner: TU BerlinDeutsche Telekom AG

Umsetzungszeitraum: 01.03.2014 - 31.12.2015