News 27.10.2015, 13:15 Uhr

So entsteht eine Computerstimme

Nuance Communications AG lud PCtipp zu einem Rundgang durch sein Sprachlabor in Zürich ein.
«Sprache fasziniert uns alle irgendwie», sagt Johan Wouters, Leiter der Sprachentwicklung von Nuance Communications Switzerland auf meine Begeisterung hin, welch komplexe Mechanismen beim Substrat eines «Sprachwurms» von acht aufgezeichneten Sprachstunden anfallen. Nuance, ehemals eine kleine Scan-Software-Firma aus den Neunzigern, unterhält heute weltweit mehrere Sprachlabors, in Europa unter anderem in Deutschland, Belgien, Italien, Österreich und der Schweiz. Mit diversifizierter Ausrichtung auf verschiedenste Unternehmenszweige wie Healthcare, Autoindustrie und Smartphone-Business findet man Spracherkennungstechnik von Nuance mittlerweile in vielen Alltagsgeräten: etwa in der Siri-Konkurrentin «S-Voice» von Samsung, in der bekannten Tastatur-App Swype oder auch in neueren Panasonic-Fernsehern.
Johan Wouters, Leiter der Nuance-Sprachentwicklung, im kleinen Aufnahmekämmerchen
Quelle: NMGZ

Sprachbedienung im Alltag als visionäres Ziel von Nuance

Die visionäre Anspielung auf eine übergeordnete Mission hin, durch Sprache den Umgang mit Technik im Alltag intelligenter zu gestalten, liess mich im Gespräch zunächst unbeeindruckt: Denn Spracherkennung im Alltag ist noch längst nicht da, wo sie sein sollte. Rudimentär betrachtet, frage ich Siri oder Google nur selten gerne, was ich demnächst im Kino sehen möchte, zumal kontextbasierte Informationsanzeige noch immer nicht funktioniert. Statt eine konkrete Koordinate will mir Siri immer Listen anzeigen. Zudem bringen mich während der Autofahrt die TomTom-Ansagen phonetisch abgekürzter Wortklänge wie «Oberwil-Li-Li» immer wieder zum Schmunzeln.
Dominic Schnyder, der die Oberhand über die sogenannte Sprachsynthese hat, führt mich durch die Räumlichkeiten des Schweizer Sprachlabors an der Baslerstrasse in Zürich-Altstetten. Die eigentlichen Aufzeichnungsstudios wirken eher unspektakulär und klein. Platz ist für höchstens eine sprechende Person. Die Wände sind von dickem schwarzen Gummischaumstoff abgedichtet.

Wer qualifiziert sich für eine Stimmaufzeichnung?

Das Recruiting-Verfahren für geeignete Sprecher der über 80 verschiedenen Sprachen erfolge über verschiedene Agenturen. Dabei sei das Auswahlverfahren recht streng: Die gesprochene Sprache müsse gewisse Grundeigenschaften erfüllen. So dürfe ein Sprecher nicht zu stark guttural oder nasal sprechen, sagt Schnyder. In einem nächsten Schritt sprechen rund 40-50 ausgewählte Personen etwa einen Tag lang verschiedenste Sätze ein. Schlussendlich seien aber nur jeweils vier bis fünf Sprechende im Rennen. Das letzte Wort hätten die Linguisten, welche eng am Entscheidungsprozess beteiligt sind. Die Profikandidaten sprechen danach pro Woche rund fünf mal vier Stunden verschiedenste Sätze ein.
Nächste Seite: Die Nachbearbeitung der Aufzeichnung

Autor(in) Simon Gröflin



Kommentare
Es sind keine Kommentare vorhanden.