Digitales & Technologie

18. Juni 2019

Deep Fakes

Deep Fakes sind seit Ende 2017 ein medial und politisch viel behandeltes und brisantes Thema. Der Begriff Deep Fake beschreibt Techniken, bei denen mit Hilfe von Methoden des maschinellen Lernens Bilder und Videos manipuliert und insbesondere Bilder der Gesichter von Personen dazu verwendet werden, das Gesicht auf Bild- oder Videomaterial von anderen Personen zu legen. Damit können die Gesichter bestimmter Personen künstlich in Videos eingesetzt werden oder auch nur die Mimik und Lippenbewegungen von Personen in Videos angepasst werden. Häufige Verwendungszwecke sind einerseits pornografischer Natur, vor allem wenn das Gesicht von Pornodarstellerinnen durch das Gesicht eines anderen ersetzt wird und andererseits das Bearbeiten des Gesichtes von Personen in Videos, sodass beispielsweise die Lippenbewegungen so angepasst werden, dass es mit der entsprechenden Audiospur aussieht, als hätte die Person etwas gesagt, was sie nie gesagt hat. Vor allem die zweite Anwendung wird in Kombination mit Software zum imitieren von Stimmen oft als gefährlich für die Demokratie angesehen, da solche Fälschungen insbesondere im politischen Kontext enorme Wirkungen entfalten könnten.

In den vergangenen Wochen ist das Thema vermehrt in der Öffentlichkeit behandelt worden, vor allem durch einen Deep Fake von Mark Zuckerberg, der über die Macht von Daten redet, und eine Anhörung im amerikanischen Kongress zum Thema Deep Fakes und deren Gefahr. Manipulation durch das Bearbeiten von Bildern ist fast so alt wie die Fotografie selbst und auch die Möglichkeiten der Bildbearbeitung durch Photoshop sind mittlerweile bestens bekannt. Durch die Fortschritte der vergangenen Jahre in den Bereichen der Video-, Bild- und Audiobearbeitung bekommt dieser Themenbereich momentan aber eine neue Facette. Die Fähigkeit, die Realität zu verzerren, hat mit der "Deep Fake"-Technologie einen exponentiellen Sprung nach vorne gemacht. Es wird möglich, Audio und Video von echten Menschen zu erstellen, die Dinge sagen und tun, die sie nie gesagt oder getan haben. Machine Learning-Techniken steigern die Komplexität der Technologie und machen Deep Fakes zunehmend realistischer und schwer zu erkennen. Zudem besitzen Deep-Fake-Technologien Eigenschaften, die eine schnelle und weitreichende Verbreitung ermöglichen, wenn sie in falsche Hände geraten – etwa von Propagandisten, die emotional verstörende Deep Fakes erzeugen wollen, um die öffentliche Meinungsbildung zu beeinflussen.

Dieses Living Fact Sheet bietet eine kommentierte Liste von Links zu entscheidenden und wichtigen Facetten dieses Themas für eine vertiefende Recherche. Es wird laufend erweitert, erhebt aber keinen Anspruch auf Vollständigkeit.

Inhaltsverzeichnis

  • Was sind Deep Fakes?
  • Aktuelle Beispiele
  • Meta-Diskussion über Deep Fakes
  • Beispiele für Deep Fake Anwendungen in der Videomanipulation
  • Neue Methoden der Audiomanipulation
  • Neue Methoden der Bildmanipulation
  • Anderes
  • Mögliche technische Gegenmaßnahmen
  • Mögliche juristische Gegenmaßnahmen

Was sind Deep Fakes?

Aktuelle Beispiele

Meta-Diskussion über Deep Fakes

Beispiele für Deep Fake Anwendungen in der Videomanipulation

  • Deep Fake von Mark Zuckerberg, in dem er über die Macht von Daten spricht. Artikel von Vice
  • Der Fake selbst ist von dem israelischen Unternehmen CannyAI
  • Video, in dem Regierungschefs „Imagine“ von John Lennon singen, ebenfalls von CannyAI
  • Artikel über das „Imagine“-Video und CannyAI
  • Programm, das mit nur wenigen Trainingsbildern das Gesicht einer Person über ein Video vom sprechenden Gesicht einer anderen legen kann: Paper und Video
  • Programm, das zu gegebenem Audio-Input von Barack Obama ein Video mit zu dem Audio passender Lippensynchronisation generiert: Paper und Video
  • Face2Face: Programm, das die Mimik einer mit einer Webcam gefilmten Person in Echtzeit auf die Mimik einer Person in einem Video übertragen kann: Paper und Video
  • Synthesia, das Unternehmen von einem der Autoren des Face2Face Papers, ist darauf spezialisiert, die Lippenbewegungen und Mimik in Videos an Sprachsynchronisationen anzupassen: Artikel über Synthesia
  • Methode, die ein Video und das dazugehörige Transkript benötigt. Das Transkript kann dann bearbeitet werden und das Video wird so verändert, dass die Lippenbewegungen den Worten aus dem editierten Transkript entsprechen. Das veränderte Audio muss allerdings separat aufgenommen oder erstellt werden: Paper und Video

Neue Methoden der Audiomanipulation

  • Text-to-Speech Modell „RealTalk“ des Unternehmens Dessa, das die Stimme des Comedians und Podcasters Joe Rogan imitiert
  • Implikationen dieses Modells und Begründung, warum Dessa das Modell nicht komplett veröffentlicht: Artikel des Unternehmens auf Medium
  • Das Programm „Lyrebird“ erstellt basierend auf Audioaufnahmen einer Person eine Kopie von deren Stimme. Das Programm kann die Fälschung der Stimme dann jeden vorgegebenen Satz sprechen lassen. Je mehr Audioaufnahmen zur Verfügung gestellt werden, desto echter klingt die Kopie der Stimme
  • NEU: Mit Lyrebird imitierte Stimme von einem Unternehmenschef ermöglichte Betrug per Telefonanruf und Diebstahl von 220.000 Euro: Artikel der SZ
  • MelNet: Modell, das mit Audiodaten von TED Talks und Hörbüchern antrainiert wurde und unter anderem die Stimmen bestimmter Sprecher imitieren kann: Beispiele
  • VoCo: Programm, mit dem bei einem Transkript neue Worte eingefügt werden können, deren Aussprache dann von VoCo synthetisiert wird, auch, wenn diese Worte vom Sprecher im vorliegenden Beispiel nicht gesprochen wurden. Die Aussprache selbst kann weiter editiert werden. Allerdings ist unklar, in welchem Entwicklungsstadium das Programm momentan ist und ob es veröffentlicht werden soll: Video

Neue Methoden der Bildmanipulation

Anderes

  • Algorithmus, der die Handschrift einer Person anhand kommentierter Beispiele imitieren kann

Mögliche technische Gegenmaßnahmen

  • Tool, das charakteristische Gesichtsausdrücke und Kopfbewegungen bestimmter bekannter amerikanischer Politiker (Donald Trump, Hillary Clinton, Bernie Sanders, Barack Obama, Elizabeth Warren) analysiert, davon Profile erstellt und so eine bestimmte Art von Deep Fakes von diesen Personen erkennen kann: Artikel darüber; Cnet
  • Media Forensics (MediFor), ein DARPA-Projekt zur verbesserten automatischen Erkennung von manipuliertem Bild- und Videomaterial
  • Unterprojekt von MediFor
  • DARPA Projekt gegen DeepFakes: Artikel von Technology Review
  • FaceForensics: Datenset von 1004 manipulierten Videos mit insgesamt über 500.000 Frames
  • FaceForensics++: Projekt, das einen Datensatz von 1,5 Millionen manipulierten Bildern bekannter Deep Fake Ansätze, eine Evaluation aktueller Detektionsmöglichkeiten und eine eigene Methode zur Identifikation von Deep Fakes beinhaltet: Paper
  • ForensicTransfer: Modell, das nicht nur eine spezifische Art von manipulierten Bildern gut erkennt, sondern auch bei anderen Manipulationsvarianten eine bessere Übertragbarkeit aufweist, als viele andere Modelle: Paper
  • Shallow, Algorithmus, der Videos auf Echtheit überprüft und auf der Seite direkt für jedermann zu benutzen ist
  • Der dazugehörige Code
  • NEU: Methode, um von Photoshop bearbeitete Bilder zu erkennen

Mögliche juristische Gegenmaßnahmen

Erste Version: 18.06.2019
Ergänzt am: 28.06.2019