James Bond

Bald droht der Stimmenklau: Eine Vision aus einem Bond-Film wird Realität

Im Bond-Streifen «Diamonds are forever» spricht James Bond (Sean Connery) mit gefälschter Stimme. Q (Desmond Llewelyn) hat einen Stimmen-Modulator gebaut.

Im Bond-Streifen «Diamonds are forever» spricht James Bond (Sean Connery) mit gefälschter Stimme. Q (Desmond Llewelyn) hat einen Stimmen-Modulator gebaut.

Was heute in der Forschung noch wie Science-Fiction tönt, wird morgen wahr. An der Scientifica 2019 wird an der ETH und Universität Zürich von Freitag bis Sonntag gezeigt, wie man Fake News von der richtigen Fakten unterscheidet. Und man kann testen, ob man einen Stimmenklon durchschaut.

Der Gadget-Entwickler seiner Majestät «Q»dreht an ein paar Knöpfen. 007-Agent James Bond nimmt darauf behutsam den roten Telefonhörer in die Hand und beginnt zu sprechen: Allerdings nicht mit seiner eigenen Stimme, sondern mit jener von Casino-Besitzer Bert Saxby. Möglich macht diese Täuschung im Film «Diamonds are forever» aus dem Jahr 1971 Qs Stimmen-Modulator. Q bemerkt in dieser Filmszene lässig: «Einen solchen Stimmen-Modulator zu bauen, ist keine Schwierigkeit. Ich habe erst letzte Weihnachten einen für meine Kinder konstruiert.»

, sagt Neurowissenschafter Sascha Frühholz von der Universität Zürich. Auch Volker Dellwo vom Institut für Computer-Lingustik der Uni hält diese Bond-Szene mit Sean Connery für visionär. Stimmenklone sind erst seit der Digitalisierung überhaupt möglich. Im analogen Zeitalter hätte dieser Stimmenklau nicht funktioniert. «Damals musste man originale Stimmaufnahmen einer Person aus verschiedenen Aufnahmen zu einem neuen Satz zusammenschneiden. Das war das erste Klonen», sagt Frühholz. Dass ein Drehbuchautor Ende der 1960er auf eine solche Science-Fiction-Idee kommt, wundert ihn aber nicht. Schliesslich war das eine Zeit, in der sich die Tele-Techniken rasant entwickelten.

Per Stimme ins Gebäude, oder den Computer

Inzwischen ist die Technologie der digitalen Stimmendigitalisierung weit gediehen und diene einer Vielfalt von Zwecken wie die beiden Uni-Professoren erklären. Im zivilen Bereich kann die Stimmidentifizierung von Banken und Callcentern eingesetzt werden. Die Swisscom macht das schon mit dem Swisscom Voiceprint. Dann ermöglicht die digitale Stimmerkennung Zugang zu digitalen Geräten wie Telefonen und Computern sowie Gebäuden und sie ist eine Funktion der virtuellen Welten und beim Gaming. In der Forschung dient die Technik der Erfassung von tierischen Geräuschen.

Stimmensynthesizer für Kehlkopf-Patienten

Sehr interessant ist die Technik in der Medizin. «Patienten mit Kehlkopfkrankheiten kann mit einem Stimmensynthesizer ihre eigene originale Stimme zurückgegeben werden», sagt Frühholz. Das Gedächtnis von Demenzpatienten wird aktiviert, in dem für sie Stimmen von früheren bekannten Personen digital hergestellt werden. Einen Gewinn verspricht man sich auch bei der Strafverfolgung, wenn die Stimme eines Verdächtigen mit einer grossen Stimmendatenbank abgeglichen werden könnte, so wie heute Fingerabdruck oder DNA.

Denn die Stimme ist einzigartig und trägt stark zur Erkennung eines Menschen bei. «Unendlich viele Faktoren machen die Stimme individuell», sagt Dellwo. «Das Wichtigste ist jedoch, dass eine Stimme im Vokaltrakt, das sind die Hohlräume zwischen Kehlkopf und Lippen, gebildet wird.» Wie unser Gesicht einzigartig ist, ist es auch unser Vokaltrakt. Und so wie Lichtstrahlen im Gesicht, lassen die akustischen Ausstrahlungen des Vokaltrakts einen einzigartigen Eindruck entstehen. Eine wichtige Eigenschaft in der Stimme sind die unterschiedlichen akustischen Frequenzen, welche durch die Anatomie des Vokaltrakts bestimmt sind. «Menschen können diese unterschiedlichen Frequenzen sehr gut wahrnehmen, und dadurch Personen identifizieren», erklärt Dellwo.

Doch die Digitalisierung macht die Einzigartigkeit der Stimme zunichte. Die Science-Fiction aus dem Bond-Film ist beinahe wahr geworden. An der Entwicklung von Stimmenklonen sind die Forscher nahe dran. Frühholz und Dellwo arbeiten an der Universität Zürich an einem gemeinsamen Projekt solcher Klon-Systeme. «Die Entwicklung geht hier rasant voran. Ein entscheidender Punkt ist auch, dass wir immer weniger Originalmaterial der Stimme brauchen, um eine Stimme zu klonen. Dadurch werden die Systeme immer effizienter», sagt Dellwo.

Kein Verlass mehr auf die eigene Stimme

So wird irgendwann kein Verlass mehr auf die Stimme sein. «Vor allem im Bereich der Fake News oder des Identitätenklaus gibt es Risiken», sagt Dellwo. Kriminelle können sich Zugang zu einem Bankkonto verschaffen oder im Internet anderen Personen falsche, ungesagte Botschaften in den Mund legen. Bei den Bildern seien solche Manipulationen schon lange möglich und seien nicht immer leicht zu enttarnen. Ob sich Stimmenklone in der Breite durchsetzten und ob diese eine Bedrohung für die Gesellschaft würden, werde sich erst zeigen.

Welche Vision würden die beiden Forscher heute für einen Bond-Film wählen?

Dass man einen Text ohne Stimme, also alleine über Gedanken diktieren kann. In Ansätzen gebe es das schon, zum Beispiel mit gedachten Befehlen an Rollstühle. «Wir können heute schon teilweise aus dem Gehirnsignal einer Person direkt das Sprach- und Sprechsignal akustisch re-synthetisieren», sagt Frühholz. Wird diese Vision real, wäre es mit der Privatsphäre endgültig vorbei.

Eine andere Vision zeigt aktuell die russische Science-Fiction-Netflix-Serie «Better than us». Dort treibt im Jahr 2029 ein weiblicher Killer-Roboter sein Unwesen. Um ihre Umgebung zu täuschen, imitiert sie blitzschnell die Stimme anderer. Darauf will man in 50 Jahren nicht als erfüllte Science-Fiction zurückblicken.

Meistgesehen

Artboard 1