Veröffentlicht inScience

Darum solltest du deine Stimme nicht als Passwort nutzen

Iris-Scan, Fingerabdruck und Gesichtserkennung: alles schon dagewesen. Auch die Stimmidentifizierung ist ein alter Hut – und unsicher dazu.

Symbolbild
Worin liegt der Ursprung der Sprache und wohin wird die Technik uns führen? Foto: imago/Jochen Tack

In diversen Spionage- und Actionfilmen spielen Schutzmaßnahmen wie die Identifizierung per Iris oder per Stimme eine Schlüsselrolle. Sie gilt es dann in den meisten Fällen zu überwinden, um an die königlichen Kronjuwelen oder die nuklearen Abschusscodes zu kommen. Doch sind nur Top-Agenten wie James Bond dazu im Stande, solche Systeme zu umgehen? Offenbar nicht – das behaupten zumindest die Sicherheitsforscher John Seymour und Azeem Aqil.

Künstliche Intelligenz imitiert die Stimme

Programme und Systeme, die nach entsprechender Datenspeisung die Stimme einer Person imitieren, gibt es bereits. Allerdings schienen sie bislang noch nicht in dem Maße überzeugend, dass sie einen Menschen oder gar eine Stimmsicherung hätten austricksen können. Die Experten Seymour und Aqil scheinen nun jedoch ebendies bewältigt zu haben. Auf der Sicherheitskonferenz „Def Con“ gelang es ihnen, sowohl Apples Siri als auch den Azure-Speaker von Microsoft mit der nachgeahmten Stimme reinzulegen.

Die Def Con dient in vielen Fällen dazu, auf Sicherheitsmissstände aufmerksam zu machen. Neben dieser Demonstration unsicherer Stimmerkennungssysteme gelang es besipielsweise dem elfjährigen Emmet, ins Wahl-System Floridas einzudringen. Sicherheitslücken wie diese können – sofern entdeckt – die künftige Entwicklung von Technologien massiv voranbringen.

Wie man die Stimmerkennung überzeugt

Grundlegend für die Methode, die Seymour und Aqil eingesetzt haben, ist das TTS-Verfahren (Text to Speech). Hiermit sollen beliebige Texteingaben in die gewünschte Stimme transformiert werden. Wie Heise Online berichtet, nutzten die beiden Forscher für ihr Projekt Googles TTS-Dienst Tcotron 2. Um das gewünschte Resultat zu erzielen, muss das Programm zunächst mit der nötigen Menge an Daten gefüttert werden: In diesem Fall werden Daten im Audioformat verwendet. Normalerweise werden hierfür circa 24 Stunden an hochwertigen Tonaufnahmen benötigt.

Da man im Regelfall allerdings nicht über ein solches Datenpensum der Person verfügt, deren Stimmhürde man überwinden will, mussten die Experten umdenken. Aus den 24 Stunden wurden lediglich zehn Minuten Audiomaterial. In weiteren Schritten schnitten sie diese zunächst in zehn Sekunden lange Fetzen, die sie anschließend auf Grundlage eines Datensatzes aus den Open-Source-Sprachdatenbanken Blizzard und LJ Speech ausweiteten. Am Ende erhielten Seymour und Aqil dadurch 300 Minuten an Stimmmaterial.

Für menschliche Ohren klang das Ergebnis der tatsächlichen Aufnahme verblüffend ähnlich. Die Assistenten Siri und Azure konnten das Material nicht voneinander unterscheiden und gewährten Einlass.

Du willst mehr von uns lesen? Folge uns auf Google News.