Michael Scheyer
Journalismus & Öffentlichkeitsarbeit
Michael Scheyer
Journalismus & Öffentlichkeitsarbeit

Blog Post

Wie künstliche Intelligenz das Fälschen lernt

4. Februar 2019 Feature, Text
Wie künstliche Intelligenz das Fälschen lernt

Neulich, da sprach mein Smartphone zu mir. Es sendete einen Hinweis aufs Display: Es habe festgestellt, dass ich die Pin-Sperre meines Geräts am häufigsten dann entriegelte, wenn ich zuhause sei. Und dass ich das einfacher haben könne. Mein Smartphone schlug vor, dass es die Pin-Sperre abschalten könne, sobald ich mich in einem Umkreis von etwa 80 Metern um mein Zuhause befände. Ich müsse nur zustimmen.

Ich entschied mich gegen die Funktion, die sich „Smart Unlock“ nennt, übersetzt also „intelligentes entsperren“. Die Technologie, die hinter all diesem Smartphone-Hokuspokus steckt, nennt sich wiederum „Deep Learning“ (siehe Infokasten). Und diese macht Maschinen erst wirklich intelligent. Heiko Neumann, Professor am Institut für Neuroinformatik der Universität Ulm, erklärt: „Das ist eine Technologie, die Ergebnisse produziert, die es vor fünf Jahren noch nicht gab.“

Überall dort, wo sehr große Datenmengen anfallen, kommt sie zum Einsatz. Zum Beispiel in der Krebsfrüherkennung, wo künstliche Intelligenz (KI) häufig schon sicherere Diagnosen fällt als Mediziner. Oder beim autonomen Fahren, wo KI sicherer auto fährt als ermüdete oder abgelenkte Menschen.

Oder bei der Gesichtserkennung im Smartphone. Am Anfang, im Auslieferungszustand, ist ein Smartphone noch gar nicht so intelligent. Da ist es gerade mal in der Lage, ein Muster aus Licht und Schatten als Gesicht zu erkennen. Informatiker sprechen in diesem Fall von einem „Konzept“. Aber dann, mit jedem neuen Foto, wird das Smartphone ein bisschen intelligenter. Denn es lernt, Gesichter ein und derselben Person zu erkennen, und auch, wie wichtig diese Person im Gegensatz zu anderen ist. Das heißt, zusätzlich zum Konzept „Das ist ein Gesicht“ erlernt das Gerät das Konzept „Das ist ein Freund“.

„Deep Learning“ ist der Vorgang, bei dem künstliche Intelligenz in bereitgestellten Daten sich wiederholende Muster erkennt und anschließend lernt, aus vielen verschiedenen Konzepten diejenigen herauszufiltern, die richtige und sinnvolle Ergebnisse liefern. Dank Deep Learning sind Maschinen in der Lage, Schriften zu erkennen, auch wenn sie sehr unterschiedlich aussehen. Dank Deep Learning unterscheiden Maschinen auch gefährliche Leberflecken von ungefährlichen besser als Menschen.

Und dank diesem Deep Learning erkannte auch mein Smartphone, dass ich es am häufigsten an dem Ort entsperre, den es als mein Zuhause identifiziert hat. „Dazu können Sie nun eine Meinung haben“, sagt Professor Neumann, „ob sie das nun ganz toll finden, wie die allermeisten Menschen. Oder ob Ihnen das nicht ein wenig zu weit geht, was die so alles von Ihnen wissen.“ Nun, im Nachhinein schockiert mich weniger die Tatsache, dass mein Smartphone dazu in der Lage ist. Sondern eher die Tatsache, dass das Gerät die Analyse betrieb, ohne mich vorher danach zu fragen. Für mich ist das ein schwerwiegender Einbruch in meine Privatsphäre. Übrigens handelt es sich um einen chinesischen Hersteller.

Als Wissenschaftler stehe Neumann neuen Technologien positiv gegenüber. „Da ergeben sich manche Fragen erst dann“, sagt Neumann, „wenn es eine überraschende Erkenntnis gibt“. So wie 2012. Da gab es in der Forschungsdisziplin „Maschinelles Sehen“ einen folgenreichen Durchbruch. Bei einem alljährlichen, internationalen Wettbewerb namens „ImageNet“, bei dem Forscher das visuelle Erkennungsvermögen ihrer Deep-Learning-Algorithmen miteinander vergleichen, sorgte ein im kanadischen Toronto entwickelter Algorithmus namens „AlexNet“ für weltweites Aufsehen. AlexNet schnitt mit weitem Abstand genauer ab als alle anderen. Bis heute gelten die Forschungsergebnisse dazu als die Einflussreichsten in der Disziplin des Maschinellen Sehens.

Ein Stein geriet ins Rollen und plötzlich sind für jeden Durchschnittsmenschen Bildbearbeitungen möglich, die früher so viel Arbeit, Zeit und Geld kosteten, dass sie sich nur für Hollywoodspielfilme lohnten. Seit vergangenem Jahr sorgt zum Beispiel eine Software für Aufsehen, die kostenlos im Internet verfügbar ist und auf jedem handelsüblichen Rechner läuft. Dieser Software namens „FakeApp“ liegt ein Deep Learning-Algorithmus zugrunde. Speist man diesen mit vielen verschiedenen Gesichtsausdrücken zweier unterschiedlicher Personen und lässt ihm etwas Zeit, um zu trainieren, so kopiert er am Ende das Gesicht der ersten Person in das der zweiten. Und zwar so gut, dass es auf den oberflächlichen ersten Blick kaum als Fälschung zu erkennen ist.

Für mediale Aufmerksamkeit sorgte allerdings weniger die Technologie an sich, sondern die Tatsache, dass sie dazu verwendet wurde, um Gesichter von Hollywoodschauspielerinnen wie Scarlett Johannson in pornographische Filme einzufügen. Auf diese sogenannten „Deep Fake Videos“ angesprochen zeigte sich Johannson resigniert: Gegen die Videos vorzugehen sei sinnlos. Zu verhindern seien sie nicht, es hänge ja nur davon ab, ob einer das machen wolle oder nicht. Gesetze dagegen gibt es nicht.

Man muss derweil kein Science-Fiction-Autor sein, um sich auszumalen, was die Software in den Händen Krimineller leisten kann. Wer kompromittierendes Bildmaterial haben will, muss sich nun nicht mehr langwierig auf die Lauer legen, sondern kann es am Heim-PC nun einfach selbst herstellen. Für eine kurze Filmfälschung reichen der Software schon 500 verschiedene Bilder eines Gesichts. Abgesehen davon, dass das Internet voll ist mit Bildern Prominenter, reicht rechnerisch ein einminütiges Videointerview, aus dem theoretisch 1500 Bilder extrahiert werden können. Und wer die Fülle an privatem Bild- und Videomaterial in den sozialen Medien kennt, der versteht, dass man kein Prominenter sein muss, um Opfer eines Deep Fake Videos zu werden.

Aber wenn sie eh nicht zu verhindern sind, muss man verstehen, wie man sie entlarvt. Im Falle der im Internet auffindbaren Deep Fake Pornographie ist das recht einfach. Deren digitale Gesichtstransplantationen überzeugen, sagen wir mal, genauso wenig wie deren Handlung. Auch wer kein Sachverständiger ist, erkennt die Verzerrungen von Augen, Nase und Mund und die schattigen Kanten am Rande des Gesichts auf Anhieb.

Ich möchte deshalb hierzu keine Auskünfte geben.

Aber wer genug Fleiß in die Korrektur solcher Verzerrungen steckt, wer die Software also trainiert, der wird überzeugende Ergebnisse zu Tage fördern. Die Frage, wie sich Deep Fake Videos entlarven lassen, ist heikel. Das zeigt die schriftliche Interviewabsage eines Mediengutachters: „Vielen Dank für Ihre Anfrage. Das Thema ist hochsensibel. Ich möchte deshalb hierzu keine Auskünfte geben. Ich bitte um Verständnis.“ Nachvollziehbar ist, dass Kriminelle nicht aufs Brot geschmiert bekommen sollen, wie man ihnen auf die Schliche kommt.

Auskunftsfreudiger ist dagegen Martin Rieger, Professor für Digitale Forensik an der Hochschule Albstadt-Sigmaringen. „Frühe Versionen der Software lassen die Augen nicht blinzeln“, erklärt Rieger. Natürlich sei es immer nur eine Frage der Zeit, bis Programmierer solche Kinderkrankheiten ausmerzten. Mit den Fortschritten gelte es eben Schritt zu halten. In Deutschland fange die Forensik jedenfalls erst an, sich intensiver mit Videofälschungen zu beschäftigen. Bislang war das nicht notwendig. „In Deutschland ist mir kein Delikt bekannt“, sagt Rieger, der deshalb der Meinung ist, dass sich Videofälschungen in der nahen Zukunft noch zu keinem ernsthaften Problem auswachsen werden.

Gravierender sei das Thema Tonmanipulation. „Mit der Stimmensynthese ist man schon sehr weit“, erklärt Rieger und erinnert an einen US-amerikanischen Radioreporter namens Jamie Dupree. Dieser verlor aufgrund einer neuronalen Erkrankung im Gehirn die Fähigkeit zu sprechen – für einen Radioreporter denkbar schlecht. Aber weil es tausende Tonaufnahmen von ihm gab, konnte ein darauf spezialisiertes Unternehmen seine Stimme digital rekonstruieren – auch mittels Deep Learning Technologie. Zwar kann Dupree nicht mehr sprechen, als Radioreporter arbeitet er jedoch immer noch. Weil seine Beiträge nun von einem Computer gesprochen werden, der seine Stimme imitiert. Sie klingt etwas blechern, aber doch erkennbar nach ihm.

Professor Rieger sieht auch wenig Sinn darin, Fälschungen verhindern zu wollen. Sinnvoller sei es, Audio- und Videodateien besser zu schützen – zum Beispiel mit digitalen, fälschungssicheren Zertifikaten. Videos können beispielsweise mit einem unsichtbaren Wasserzeichen versehen werden. Jedwede Bearbeitung zerstört das Wasserzeichen. Das würde auch vor Gericht als Beweis standhalten können. Die Zertifizierungstechnologie gibt es bereits. Allerdings beschäftige sich die Politik noch nicht damit. „Der Gesetzgeber wird erst reagieren“, meint Rieger, „wenn er unter Druck gerät“. Wenig Verständnis zeigt Rieger dafür, dass handschriftliche Unterschriften immer noch als Authentifizierung zulässig sein. Immerhin schaffen etliche Kreditkartenanbieter aktuell die Unterschrift als Verifizierungsmethode ab – aus Sicherheitsgründen.

Und dann gibt es noch die Fälschung mittels Live-Übertragung, bei der die Gesichter nicht im Nachhinein transplantiert, sondern live übergestülpt werden. Entwickelt wurden diese Algorithmen an der Technischen Universität in München vom Team um Matthias Nießner, Professor für „Visual Computing“. Deren Videos gehen derzeit mit einem Aufschrei um die Welt. Vor allem das, in dem der ehemalige US-Präsident Barack Obama übersetzt sagt: „Donald Trump ist ein Volldepp“. Dabei handelt es sich um eine Fälschung. Aber um eine so erschreckend gute, dass es einem das Blut gefrieren lässt.

Das mediale Interesse an dieser Technologie ist derart enorm, dass Interviewanfragen vergeblich sind. „Eigentlich ist es gerade nicht so gut“, sagt Professor Nießner am Telefon. Nun, wenn es gerade nicht geht, geht es vielleicht in zwei oder drei Tagen? „Nein, ich meine, in diesem Jahr ist es gerade nicht so gut“, sagt Nießner, „wir haben einfach zu viele Anfragen, ich kann Ihnen leider nicht helfen.“ Das war’s. Ein Blick in die Publikationsliste seines Instituts lässt jedenfalls vermuten, dass Nießner die Bedeutung seiner eigenen Technologie sehr ernst nimmt. Mehrere Publikationen beschäftigen sich mit Forensik: Wie lassen sich Live-Fälschungen entlarven? Auch in diesem Fall würden Zertifikate helfen.

Fälschungen sind natürlich nichts Neues. Seit der Erfindung der Fotografie wurden alle technischen Möglichkeiten zur vollendeten Täuschung ausgeschöpft. Ob für die Propaganda der Nationalsozialisten, Stalins oder der kommunistischen Partei Chinas, oder gar – wenn auch weniger schwerwiegend – für die Landesregierung Thüringens, die 1998 aus einem Bild des Staatsbesuchs Bill Clintons ein Plakat aus der Menge entfernen ließ, auf dem stand: „Ihr habt auch in schlechten Zeiten dicke Backen“. Angesichts dieser Historie lässt Deep Learning nun lediglich den Funken auf Video überspringen.

 „Ich sehe das nicht so pessimistisch“, sagt Andreas Schreitmüller, Honorarprofessor für Medienwissenschaft an der Universität Konstanz und Spielfilmchef bei Arte in Straßburg. Seine Antrittsvorlesung trug den Titel „Alle Bilder lügen: Foto, Film, Fernsehen, Fälschung“. Das war 2004. „Heute müsste ich meine Vorlesung völlig anders gestalten“, sagt Schreitmüller, „denn damals gab es noch die Gatekeeper, die die meisten Fälschungen herausfilterten, bevor sie veröffentlicht wurden.“ Heute könne jeder jeden Unsinn in die Welt setzen.

Trotzdem sieht er der Zukunft gelassen entgegen: „Wenn all das kommt, steigt gleichzeitig das Misstrauen“. Die Menschen würden dann eben nicht mehr jedem Video blind vertrauen. Fälschungen habe es schon in der Antike gegeben. Und bei einer Studie unter Lesern der Bildzeitung sei einmal herausgekommen, dass 80 Prozent der Leser der Meinung waren, dass das, was in der Bildzeitung stehe, gelogen sei. Also, warum hysterisch werden? Heiko Neumann unterstreicht die Gelassenheit: „Dass wir informiert sind, dass es diese Methoden gibt und damit auch Fälschungen, ist schon der erste Schritt, das Problem in den Griff zu bekommen. Gefährlich wird es erst dann, wenn wir zu sorglos damit umgehen.“

Vermutlich sind wir aber genau das: zu sorglos. Das Bewusstsein dafür, was unverfälschte Realität und was Manipulation ist, gleitet uns allmählich aus der Hand. Und zwar jedes Mal dann, wenn wir einen Filter über Fotos legen. Auch ohne kriminelle Absicht ist das eine bewusste Täuschung. Denn wir geben nicht die Realität wieder, sondern wir erzeugen damit nur ein Abbild einer Realität, so wie wir sie uns wünschen.

Mein Smartphone bietet 17 verschiedene Algorithmen an (Porträt, Nacht, HDR, etc.), die mir helfen sollen bessere Fotos zu machen. Die Frage, die ich mir stelle: Will ich, dass eine künstliche Intelligenz für mich entscheidet, was „bessere Fotos“ sind? Bedeutet das nicht auch, dass KI für mich entscheidet, was real ist?

***

Erschienen am 14. Februar 2019 in der Schwäbischen Zeitung.

Taggs: