Unsichere Helferin
Wenn Musik bei Amazon bestellt
Symbolbild
Symbolbild
Alexa

Sicherheitslücke. Ein Forscher*innenteam der RUB hat eine Sicherheitslücke in der Spracherkennungssoftware Kaldi entdeckt. Über versteckte Audiosignale könnten Alexa und Co ausgetrickst werden.

Kaldi ist eine gängige Spracherkennungssoftware, die vermutlich auch bei Amazon und anderen Systemen genutzt wird. Ein Forscher*innenteam der Ruhr-Uni hat einen Weg gefunden, die Sprachsoftware mit geheimen, für den Menschen nicht hörbaren, Informationen zu füttern und so Befehle auszugeben.  Die Gruppe um Lea Schönherr, Prof. Dorothea Kolossa und Prof. Thorsten Holz vom Horst-Görtz-Institut für IT-Sicherheit versteckte verschiedene Befehle in unterschiedlichen Audiofiles, beispielsweise in Vogelgezwitscher, in Musik oder in Sprache.
Als besonderen Bereich eines möglichen Angriffspunkts nennt Thorsten Holz Online-Bestellungen, die durch die versteckten Befehle ausgelöst werden könnten. „Wir könnten eine Audiodatei, etwa einen Song, der im Radio abgespielt wird, so manipulieren, dass sie den Befehl enthält, ein bestimmtes Produkt einzukaufen“, erklärt der Forscher. Solche „Adversarial Examples“, wie sie in der Fachsprache heißen, wurden schonmal für Bilder beschrieben. Dabei werden einzelne Pixel für den Menschen nicht sichtbar verändert, im Netzwerk führen sie aber zu anderen Resultaten. Akustisch sind sie komplexer, da die Nachricht über die Zeit des Abspielens übermittelt wird und nicht auf einen Blick wie bei Bildern.
Um die Signale in den Audiodateien zu verstecken, nutzte das Forscher*innenteam das psychoakustische Modell des Hörens, präziser den lautstärke- und frequenzabhängigen Effekt der Maskierung. Dorothea Kolossa erklärt den Effekt so: „Wenn das Gehör damit beschäftigt ist, einen lauten Ton einer bestimmten Frequenz zu verarbeiten, können wir für einige Millisekunden auf dieser Frequenz andere, leisere Töne nicht mehr wahrnehmen.“ Bei MP3-Formaten wird auf diesem Wege die Dateigröße minimiert, da der nicht hörbare Bereich der Files einfach entfernt wird. Werden in diesem Bereich Befehle versteckt, wie es die Forscher*innen gemacht haben, werden sie vom Menschen höchstens als unauffälliges Hintergrundrauschen wahrgenommen, von Systemen wie beispielsweise Alexa aber anders verstanden. Im Prinzip liegt eine Nachricht unter einer anderen. Während wir beispielsweise Song A hören, nehmen Spracherkennungsassistenten die im Rauschen versteckte Nachricht B wahr. Der Aufwand für eine solche versteckte Botschaft beträgt nur wenige Minuten.

Bisher wurde die Übertragung über die Luft noch nicht getestet, die Forscher*innen haben die Audiodateien direkt in Kaldi eingespielt. Für die Zukunft seien Untersuchungen mit Lautsprecherausgabe geplant, um eine Übertragung der Befehle über Luft zu untersuchen. „Durch die Hintergrundgeräusche wird der Angriff nicht mehr ganz so effizient sein“, vermutet Lea Schönherr. „Aber wir gehen davon aus, dass es immer noch funktioniert.“

Einen Schutz vor derartigen Angriffen gibt es bisher nicht. Aber die Forscher*innen haben das Ziel, Sprachassistenten gegen dieses Gefahrenpotential abzusichern. Für das vorgestellte Szenario sei es beispielsweise eine Möglichkeit, die Systeme standardmäßig den Anteil an nicht hörbaren Signalen berechnen und entfernen zu lassen, um derart verschlüsselte geheime Befehle zu entfernen. Dorothea Kolossa betont allerdings, es gebe „sicher auch andere Möglichkeiten, um die geheimen Befehle in den Dateien zu verstecken, als das MP3-Prinzip.“ Dann seien wieder andere Schutzvorrichtungen nötig. Grundsätzlich gebe es bisher aber keinen Grund zur Sorge, das Gefahrenpotential sei gering, erklärt Holz: „Unser Angriff funktioniert derzeit noch nicht über die Luftschnittstelle. Außerdem sind Sprachassistenten derzeit nicht in sicherheitsrelevanten Bereichen im Einsatz, sondern dienen lediglich dem Komfort.“      

Beispielaudiodateien für die verschlüsselten Signale und mehr Informationen findet Ihr unter adversarial-attacks.net

:Kendra Smielowski