Im Januar 2017 kam es in den USA zu einem denkwürdigen Vorfall. Ein Nachrichtensprecher erteilte in einer Live-Sendung dem vernetzten Lautsprecher «Amazon Echo» den Sprachbefehl, ein Puppenhaus zu bestellen.

Eigentlich berichtete der Sprecher von einem kleinen Mädchen, das versehentlich ein Puppenhaus und Kekse bestellte. Er konnte nicht ahnen, welche Kettenreaktion er damit in Gang setzte.

Bei Hunderten Zuschauern, die die Sendung live im Fernseher ihres Wohnzimmers verfolgt hatten, aktivierte sich wie von Zauberhand der Lautsprecher, interpretierte die Meldung als Sprachbefehl und löste einen Bestellvorgang aus, der nur deshalb nicht finalisiert wurde, weil Amazon einen gesprochenen Bestätigungscode als Autorisierungselement zwischengeschaltet hat.

Dass Netzwerklautsprecher ständig lauschen und nicht weghören können, ist ein bekanntes Problem. Amazon hat unlängst ein Patent auf einen Algorithmus angemeldet, der in Echtzeit Audiodateien auf Schlüsselwörter wie «lieben», «gekauft» oder «gefällt mir nicht» analysiert und daraus Präferenzen ableitet. Doch smarte Lautsprecher hören auch Geräusche in Frequenzen, die für das menschliche Ohr gar nicht wahrnehmbar sind.

Die US-Computerwissenschafter Nicholas Carlini und David Wagner von der University of Berkeley in Kalifornien beschreiben in einer aktuellen Studie, wie man Sprachassistenten Siri, Alexa und Google Assistant mit geheimen Sprachkommandos überlisten kann. Durch Hinzufügen einer nicht hörbaren Störfrequenz soll es möglich sein, den Inhalt eines Sprachbefehls zu manipulieren und so eine Attacke auf Netzwerklautsprecher zu lancieren.

Dazu muss man wissen, wie automatisierte Spracherkennung funktioniert: Ein Sprachkommando ist zunächst eine Audiodatei, die von Computern sequenziert und transkribiert, das heisst in Textform umgewandelt wird. Je mehr Trainingsdaten der maschinell lernende Algorithmus bekommt, desto präziser wird die maschinelle Übersetzung.

Das neuronale Netz arbeitet jedoch streng nach Schema F. Wird die Sprachdatei durch den Einbau eines synthetischen Signals nur minimal verzerrt, laufen die Dekodierregeln ins Leere. Die Maschine übersetzt dann etwas völlig anderes, als mit der Original-Sprachbotschaft intendiert war. Durch die subtile Manipulation der Audiodatei gelang es den Wissenschaftern, den originären Inhalt wie in einem Texteditor zu überschreiben beziehungsweise zu verbergen, ohne dass dies für das menschliche Ohr erkennbar war.

Auf ihrer Website präsentieren die Wissenschafter zwei dreisekündige Hörproben, die auch nach dem dritten und vierten Anhören identisch klingen. Eine männliche Stimme sagt darauf: «Ohne den Datensatz ist der Artikel nutzlos.» Der Satz scheint eindeutig. Doch die Maschinen interpretieren die eine Hörprobe völlig anderes als die andere.

In der ersten Transkriptionsvariante bleibt die Bedeutung erhalten, in der zweiten wird daraus der subversive Befehl: «Okay Google, browse auf evil.com» (eine Anspielung an Googles alten Wahlspruch «Don’t be evil»). Mithilfe eines Algorithmus konnte dieselbe Botschaft auch in Verdis Requiem geschmuggelt werden.

Weit unter Hörschwelle

Die Störung bewegt sich einem Lautstärkebereich von minus 30 Dezibel. Zum Vergleich: Am stillsten Ort der Welt, einem Tonstudio in Minnesota, wurde eine Lautstärke von minus 9 Dezibel gemessen. Die übereinandergelegten Wellen der originalen und manipulierten Audiodatei unterscheiden sich kaum. Die Computerwissenschafter geben an, dass sich durch die Methode bis zu fünfzig Buchstaben pro Sekunde umcodieren lassen.

Die Studie führt ein ungeahntes Manipulations- und Missbrauchspotenzial vor Augen – und eine neue akustische Gefahr. Hacker könnten in Musikdateien oder Youtube-Videos versteckte Sprachkommandos einschleusen, die unerwünschte Prozesse in Gang setzen – zum Beispiel, dass sich die Rollläden wie von Geisterhand abdunkeln oder die Heizung sich im Hochsommer auf 30 Grad Celsius hochdreht.

Sicherheitsforscher haben Angriffe auf Smart Homes bereits mittels schädlicher Computerprogramme, sogenannter Ransomware, demonstriert. Bei einer akustischen Attacke bildet aber nicht ungesicherte Ports oder Netze das Eingangstor, sondern der scheinbar harmlose Konsum von Unterhaltungsmedien. Das macht die Sache so gefährlich.

Laut der Marktforschungsgesellschaft Forrester werden bis 2022 allein in den USA 244 Millionen Smart-Home-Geräte in Betrieb sein. Die Methode der kalifornischen Forscher ist nicht die einzige, mit der diese Apparate manipuliert werden können.

Sicherheitsforscher der University of Illinois at Urbana-Champaign haben gezeigt, dass smarte Lautsprecher aus rund acht Metern Distanz durch unhörbare Befehle im Ultraschallbereich fremdgesteuert werden können – zwar nicht durch die Mauern, aber durch offene Fenster, die somit zur Sicherheitslücke werden. Während man seelenruhig Musik hört, könnte es sein, dass der Sprachassistent das digitale Türschloss entriegelt. Die Gefahr kommt auf ultraleisen Sohlen daher.