Deep Fakes

Deep Fakes sind seit Ende 2017 ein medial und politisch viel behandeltes und brisantes Thema. Der Begriff Deep Fake beschreibt Techniken, bei denen mit Hilfe von Methoden des maschinellen Lernens Bilder und Videos manipuliert und insbesondere Bilder der Gesichter von Personen dazu verwendet werden, das Gesicht auf Bild- oder Videomaterial von anderen Personen zu legen. Damit können die Gesichter bestimmter Personen künstlich in Videos eingesetzt werden oder auch nur die Mimik und Lippenbewegungen von Personen in Videos angepasst werden. Häufige Verwendungszwecke sind einerseits pornografischer Natur, vor allem wenn das Gesicht von Pornodarstellerinnen durch das Gesicht eines anderen ersetzt wird und andererseits das Bearbeiten des Gesichtes von Personen in Videos, sodass beispielsweise die Lippenbewegungen so angepasst werden, dass es mit der entsprechenden Audiospur aussieht, als hätte die Person etwas gesagt, was sie nie gesagt hat. Vor allem die zweite Anwendung wird in Kombination mit Software zum imitieren von Stimmen oft als gefährlich für die Demokratie angesehen, da solche Fälschungen insbesondere im politischen Kontext enorme Wirkungen entfalten könnten.

In den vergangenen Wochen ist das Thema vermehrt in der Öffentlichkeit behandelt worden, vor allem durch einen Deep Fake von Mark Zuckerberg, der über die Macht von Daten redet, und eine Anhörung im amerikanischen Kongress zum Thema Deep Fakes und deren Gefahr. Manipulation durch das Bearbeiten von Bildern ist fast so alt wie die Fotografie selbst und auch die Möglichkeiten der Bildbearbeitung durch Photoshop sind mittlerweile bestens bekannt. Durch die Fortschritte der vergangenen Jahre in den Bereichen der Video-, Bild- und Audiobearbeitung bekommt dieser Themenbereich momentan aber eine neue Facette. Die Fähigkeit, die Realität zu verzerren, hat mit der "Deep Fake"-Technologie einen exponentiellen Sprung nach vorne gemacht. Es wird möglich, Audio und Video von echten Menschen zu erstellen, die Dinge sagen und tun, die sie nie gesagt oder getan haben. Machine Learning-Techniken steigern die Komplexität der Technologie und machen Deep Fakes zunehmend realistischer und schwer zu erkennen. Zudem besitzen Deep-Fake-Technologien Eigenschaften, die eine schnelle und weitreichende Verbreitung ermöglichen, wenn sie in falsche Hände geraten – etwa von Propagandisten, die emotional verstörende Deep Fakes erzeugen wollen, um die öffentliche Meinungsbildung zu beeinflussen.

Dieses Living Fact Sheet bietet eine kommentierte Liste von Links zu entscheidenden und wichtigen Facetten dieses Themas für eine vertiefende Recherche. Es wird laufend erweitert, erhebt aber keinen Anspruch auf Vollständigkeit.

Inhaltsverzeichnis

Was sind Deep Fakes?
Aktuelle Beispiele
Meta-Diskussion über Deep Fakes
Beispiele für Deep Fake Anwendungen in der Videomanipulation
Neue Methoden der Audiomanipulation
Neue Methoden der Bildmanipulation
Anderes
Mögliche technische Gegenmaßnahmen
Mögliche juristische Gegenmaßnahmen

Was sind Deep Fakes?

Wissenschaftliches Paper zu Deep Fakes in der Porno-Industrie
Einsatz von Deep Fake in der Gesichtserkennung
Die politisch-gesellschaftlichen Implikationen von Deep Fakes
Erklärender Artikel mit Informationen zu möglichen technischen Gegenmaßnahmen; CNN
Deep Fakes, besonderer Bezug auf pornografische Manipulationen; Washington Post
NEU: Zusammenfassender Artikel aus dem Standard

Aktuelle Beispiele

Ein möglicherweise zu Spionage eingesetzter Account hatte wahrscheinlich ein von einem GAN generiertes Profilbild; AP
Aktueller Artikel über Deep Fakes, Tenor: Faker sind gegenüber den Prüfenden im Vorteil; Washington Post
Anhörung des US-amerikanischen House Intelligence Committee zu Deep Fakes und KI
Die gesamte Anhörung
Technology Review dazu
NEU: DeepNude, eine mittlerweile nicht mehr verfügbare App, die ein Bild einer gekleideten Person nimmt und den Körper durch den nackten Körper einer Frau ersetzt, sodass es so aussieht, als wäre die ursprüngliche Person nackt: Vice Artikel, der auch die negativen Folgen von pornografischen Deep Fakes für Frauen betont
NEU: Facebook denkt momentan darüber nach, wie sie Deep Fake Videos behandeln sollen, Artikel der New York Times
NEU: Verschiedene Arten von Videomanipulation, erklärender Artikel der Washington Post, jeweils mit Beispielen

Meta-Diskussion über Deep Fakes

Die Gefahren von Deep Fakes, Gründe dafür, mögliche Gegenmaßnahmen und Konsequenzen wie die „liar’s dividend“: Die Existenz von Deep Fakes kann es leichter machen, Verantwortung von sich zu weisen und Wahres als Fälschung zu bezeichnen. Paper der Rechtswissenschaftler Robert Chesney und Danielle Citron. Dazu ein Artikel aus dem Guardian
Ergebnisse eines Gesprächs von Experten, unter anderem aus den Bereichen Medienforensik und Fact Checking: Report des Witness Media Lab, Teil der Menschenrechtsorganisation Witness
Die Gefahren von Deep Fakes für Journalismus, Tenor: Journalismus ist schlecht auf Deep Fakes vorbereitet; Artikel von NiemanLab
Die befürchtete Welle von Deep Fakes ist ausgeblieben und die Gefahr durch Deep Fakes wird überbewertet; Artikel von The Verge

Beispiele für Deep Fake Anwendungen in der Videomanipulation

Deep Fake von Mark Zuckerberg, in dem er über die Macht von Daten spricht. Artikel von Vice
Der Fake selbst ist von dem israelischen Unternehmen CannyAI
Video, in dem Regierungschefs „Imagine“ von John Lennon singen, ebenfalls von CannyAI
Artikel über das „Imagine“-Video und CannyAI
Programm, das mit nur wenigen Trainingsbildern das Gesicht einer Person über ein Video vom sprechenden Gesicht einer anderen legen kann: Paper und Video
Programm, das zu gegebenem Audio-Input von Barack Obama ein Video mit zu dem Audio passender Lippensynchronisation generiert: Paper und Video
Face2Face: Programm, das die Mimik einer mit einer Webcam gefilmten Person in Echtzeit auf die Mimik einer Person in einem Video übertragen kann: Paper und Video
Synthesia, das Unternehmen von einem der Autoren des Face2Face Papers, ist darauf spezialisiert, die Lippenbewegungen und Mimik in Videos an Sprachsynchronisationen anzupassen: Artikel über Synthesia
Methode, die ein Video und das dazugehörige Transkript benötigt. Das Transkript kann dann bearbeitet werden und das Video wird so verändert, dass die Lippenbewegungen den Worten aus dem editierten Transkript entsprechen. Das veränderte Audio muss allerdings separat aufgenommen oder erstellt werden: Paper und Video

Neue Methoden der Audiomanipulation

Text-to-Speech Modell „RealTalk“ des Unternehmens Dessa, das die Stimme des Comedians und Podcasters Joe Rogan imitiert
Implikationen dieses Modells und Begründung, warum Dessa das Modell nicht komplett veröffentlicht: Artikel des Unternehmens auf Medium
Das Programm „Lyrebird“ erstellt basierend auf Audioaufnahmen einer Person eine Kopie von deren Stimme. Das Programm kann die Fälschung der Stimme dann jeden vorgegebenen Satz sprechen lassen. Je mehr Audioaufnahmen zur Verfügung gestellt werden, desto echter klingt die Kopie der Stimme
NEU: Mit Lyrebird imitierte Stimme von einem Unternehmenschef ermöglichte Betrug per Telefonanruf und Diebstahl von 220.000 Euro: Artikel der SZ
MelNet: Modell, das mit Audiodaten von TED Talks und Hörbüchern antrainiert wurde und unter anderem die Stimmen bestimmter Sprecher imitieren kann: Beispiele
VoCo: Programm, mit dem bei einem Transkript neue Worte eingefügt werden können, deren Aussprache dann von VoCo synthetisiert wird, auch, wenn diese Worte vom Sprecher im vorliegenden Beispiel nicht gesprochen wurden. Die Aussprache selbst kann weiter editiert werden. Allerdings ist unklar, in welchem Entwicklungsstadium das Programm momentan ist und ob es veröffentlicht werden soll: Video

Neue Methoden der Bildmanipulation

NVIDIA: Photo Editing with GANs 1
NVIDIA: Photo Editing with GANs 2
NVIDIA: GANs, die aus Bildern bei Paint oder ähnlichen Programmen realistische Landschaftsbilder machen
Zufällige künstlich generierte Gesichter
Basiert auf diesem Paper
Seite, auf der man echte Gesichter von den oben erwähnten künstlich generierten unterscheiden soll

Anderes

Algorithmus, der die Handschrift einer Person anhand kommentierter Beispiele imitieren kann

Mögliche technische Gegenmaßnahmen

Tool, das charakteristische Gesichtsausdrücke und Kopfbewegungen bestimmter bekannter amerikanischer Politiker (Donald Trump, Hillary Clinton, Bernie Sanders, Barack Obama, Elizabeth Warren) analysiert, davon Profile erstellt und so eine bestimmte Art von Deep Fakes von diesen Personen erkennen kann: Artikel darüber; Cnet
Media Forensics (MediFor), ein DARPA-Projekt zur verbesserten automatischen Erkennung von manipuliertem Bild- und Videomaterial
Unterprojekt von MediFor
DARPA Projekt gegen DeepFakes: Artikel von Technology Review
FaceForensics: Datenset von 1004 manipulierten Videos mit insgesamt über 500.000 Frames
FaceForensics++: Projekt, das einen Datensatz von 1,5 Millionen manipulierten Bildern bekannter Deep Fake Ansätze, eine Evaluation aktueller Detektionsmöglichkeiten und eine eigene Methode zur Identifikation von Deep Fakes beinhaltet: Paper
ForensicTransfer: Modell, das nicht nur eine spezifische Art von manipulierten Bildern gut erkennt, sondern auch bei anderen Manipulationsvarianten eine bessere Übertragbarkeit aufweist, als viele andere Modelle: Paper
Shallow, Algorithmus, der Videos auf Echtheit überprüft und auf der Seite direkt für jedermann zu benutzen ist
Der dazugehörige Code
NEU: Methode, um von Photoshop bearbeitete Bilder zu erkennen

Mögliche juristische Gegenmaßnahmen

US-amerikanischer Gesetzesvorschlag zum Verbot von Deep Fakes
NEU: DEEPFAKES Accountability Act 2019, im US-amerikanischen Kongress eingebrachtes Gesetz

Erste Version: 18.06.2019
Ergänzt am: 28.06.2019

Kapitel