Digitales & Technologie

Statements

23. Februar 2024

KI-Fortschritte bei der Erstellung von Videos und Bildern

KI-Anwendungen zur Bild- und Videoerstellung werden immer besser
„Sora“ von OpenAI zeigt neueste Fortschritte, macht aber auch Missbrauchspotenzial klar
Forschende zu dem Stand der Technik, möglichem Einfluss auf Wahlen und Gegenmaßnahmen

Anlass

Die Entwicklung von KI-Programmen zum Erstellen und Bearbeiten von Bildern und Videos macht momentan enorme Fortschritte. Die Programme bieten in vielen Anwendungen Zeitersparnisse, bergen aber auch großes Missbrauchspotenzial. Ende vergangener Woche hat OpenAI mit „Sora“ seine neueste KI vorgestellt [I] [II], die aus Text-Prompts Videos erstellen kann. Zwar ist noch unklar, inwiefern die von OpenAI präsentierten Beispielvideos nur die handverlesenen, besten Ergebnisse darstellen. Trotzdem wird offensichtlich, dass diese Technik sich schnell weiterentwickelt und bereits jetzt beeindruckende Ergebnisse erzielen kann.

Bei „Sora“ ist noch nicht bekannt, wann und in welcher Form das Programm veröffentlicht werden soll. OpenAI möchte es erst ausgiebig testen, um möglichen Missbrauch zu erschweren [III]. Die Vergangenheit hat aber gezeigt, dass solche Sicherungen und Vorgaben in KI-Programmen wie ChatGPT trotzdem teilweise umgangen werden können. Darüber hinaus gibt es schon jetzt viele andere Programme, mit denen Bilder und Videos automatisch erstellt oder bearbeitet werden können. Gerade vor dem Hintergrund des bevorstehenden wichtigen Wahljahres und der Angst vor Beeinflussungen des Wahlkampfes durch Deepfakes hat die öffentliche Diskussion um die Fähigkeiten, die Limitationen und das Missbrauchspotenzial solcher Technologien weiter zugenommen.

Um diese wichtige Diskussion zu begleiten, hat das SMC Forschende aus den Bereichen KI, IT-Sicherheit und Desinformation zu zukünftigen Entwicklungen, dem Stand der Technik, Gegenmaßnahmen und dem Einfluss auf Wahlen und Meinungsbildung befragt.

mehr Infos ausklappen

Statements

Prof. Dr. Christian Hoffmann

Professor für Kommunikationsmanagement, Institut für Medien- und Kommunikationswissenschaft, Universität Leipzig, und Lehrbeauftragter für politische Kommunikation, Institut für Politikwissenschaft

Einfluss auf Wahlen und Meinungsbildung

„Es ist noch zu früh, Aussagen über mögliche Einflüsse auf das Wahlverhalten zu treffen. Bisher sind politische ‚Deepfakes‘ noch sehr selten, sie werden in der Regel im öffentlichen Diskurs schnell als solche offenbart. Das ist wichtig, weil die meisten Bürger ihre Informationen nach wie vor aus etablierten Medien beziehen.“

„Die experimentelle Forschung zeigt einerseits, dass Mediennutzer nicht sehr gut darin sind, Deepfakes zuverlässig als solche zu erkennen. Aber andererseits wirken vor allem solche Deepfakes überzeugend, die inhaltlich plausibel sind – wenn also beispielsweise Politikern Worte in den Mund gelegt werden, die diese realistischerweise tatsächlich hätten sagen können. Wenn Personen sehr unplausible oder überraschende Aussagen in den Mund gelegt werden, wird das Publikum schnell skeptisch. Daher wirken in Experimenten Deepfakes auf Teilnehmende eher verunsichernd als wirklich überzeugend.“

„Es scheint insgesamt bisher unwahrscheinlich, dass ein Deepfake einen Wähler wirklich zum Umdenken bewegen könnte. Wahrscheinlicher ist, dass ein Deepfake ‚akzeptiert‘ wird, weil es ein bestehendes Weltbild bestätigt – und somit eine bestehende Wahlabsicht unterstützt.“

Mögliche Gegenmaßnahmen

„Sinnvoll scheint, KI-generierte Inhalte als solche erkennbar zu machen, etwa durch einen Hinweis oder ein Label. Es ist jedoch unwahrscheinlich, dass gerade solche Akteure, die störend in eine Wahl eingreifen wollen, sich an solche Vorgaben halten würden.“

„Entscheidend ist daher, dass die große Mehrheit der Bürgerinnen und Bürger ihre Informationen aus serösen Quellen bezieht. Das ist heute der Fall. Der Journalismus sollte ernsthafte Versuche der Irreführung als solche offenbaren.“

„Ebenso wichtig ist jedoch, dass nicht unnötig Ängste geschürt werden. Wenn nun allzu große Angst vor manipulierten Inhalten entsteht, könnte das dazu führen, dass Wähler auch wahren Inhalten aus seriösen Quellen weniger trauen. Dann wäre der Schaden eines alarmistischen Diskurses größer als der Nutzen. Vor diesem Hintergrund wäre ich derzeit auch skeptisch gegenüber breit angelegten Aufklärungskampagnen. Die Wahrscheinlichkeit, dass ein Wähler über ein glaubwürdiges politisches Deepfake stolpert, ist so gering, dass eine solche Kampagne unnötig Verunsicherung auslösen könnte.“

„Es wäre problematisch, wenn digitale Plattformen nun KI-generierte Inhalte generell verbannen würden. Diese können ja auch völlig harmlos sein oder einem konstruktiven Zweck dienen. Problematisch sind eher spezifische Anwendungen dieser Technologie, die beispielsweise eine Irreführungsabsicht verfolgen. Digitale Plattformen müssten hier also sehr genau hinschauen, wie schon bisher bei ihren Maßnahmen gegen Desinformation.“

„Medienkompetenzschulungen sind immer begrüßenswert. Allerdings ist derzeit der Forschungsstand noch nicht sehr gesichert hinsichtlich der ‚richtigen‘ Schulungen. Es ist also noch nicht ganz klar, welche Empfehlungen man den Bürgern geben sollte, damit sie Deepfakes zuverlässig als solche erkennen. Viele neigen eher zu einer zu großen Skepsis und halten dann auch wahre Inhalte für falsch.“

Prof. Dr. Björn Ommer

Leiter der Computer Vision & Learning Group, Ludwig-Maximilians-Universität München (LMU)

Momentane Entwicklung

„KI-Modelle zum Generieren von Bildern haben in den letzten Jahren enorm an Leistungsfähigkeit zugelegt. Auch wenn die Systeme noch weit von der Perfektion entfernt sind, so werden sie doch auf breiter Front von KünstlerInnen, Medienschaffenden und Laien erfolgreich eingesetzt. Offene generative KI-Systeme wie Stable Diffusion sind zum Kern vieler weiterer Anwendungen geworden und bereits in viele Produkte integriert. Die Synthese von Videos ist ungleich schwieriger und anspruchsvoller in Bezug auf die nötigen Computerressourcen.“

Technische Stärken und Schwächen

„Die große Herausforderung war es über lange Zeit, gleichzeitig Diversität und Qualität bei der Bild- und Videogenerierung zu erreichen – also idealerweise alle möglichen Bilder generieren zu können und das mit hoher Detailliertheit, Auflösung und Korrektheit in den Details. Hier kam es in den letzten Jahren zu rapiden Verbesserungen. Vor etwa zehn Jahren kam es zu Durchbrüchen bei der Synthese von Gesichtern. Darauf folgte die Generierung über viele Klassen von Objekten hinweg und schließlich von beliebigen Szenen. Weiterhin wurden sukzessive Details wie eine inkorrekte Anzahl Finger bei der Generierung von Händen korrigiert.“

„Die Synthese von Videos war aufgrund des deutlich höheren Rechenaufwands zumeist auf kurze animierte Sequenzen beschränkt. Die große Herausforderung ist, zeitliche Kohärenz herzustellen. Sora hat hier einen signifikanten Schritt gemacht. Aber auch hier zeigen sich bei genauerem Hinschauen noch recht viele Fehler. Dies führt zu Beschränkungen der Länge, wenn passable Resultate erzielt werden sollen, da sich ansonsten Fehler ansammeln. Für viele (professionelle) Anwendungen ist es außerdem problematisch, dass die Ergebnisse noch nicht genügend der jeweiligen Benutzeranfrage entsprechen. Die Verbesserung der Videosynthese weist dementsprechend auch zukünftig eine Vielzahl herausfordernder offener Forschungsfragen auf.“

Automatische Markierung und Erkennung von KI-generierten Bildern und Videos

„Alleine schon wegen der breiten Nutzung und der weltweiten Entwicklung und Anwendung von generativer KI wird zukünftig ein großer Bedarf an KI-basierter Erkennung von KI-generierten Inhalten bestehen. Gleichzeitig muss die Erkennungstechnologie kontinuierlich weiterentwickelt werden, um nicht den Anschluss an den aktuellen Stand der KI-basierten Generierung zu verlieren.“

Dr. Sabrina Heike Kessler

Senior Research and Teaching Associate, Institut für Kommunikationswissenschaft und Medienforschung, Abteilung Wissenschaftskommunikation, Universität Zürich, Schweiz

Positive Auswirkungen

„KI in der Videoerstellung und -bearbeitung kann zukünftig beeinflussen, wie wir lernen und uns informieren. Sie ermöglicht es Menschen auch ohne umfangreiche Ressourcen oder Fachkenntnisse hochwertiges Videomaterial zu produzieren. Ein wesentlicher Vorteil dieser Entwicklung liegt in der Möglichkeit, komplexe politische oder wissenschaftliche Inhalte auf einfache und anschauliche Weise zu vermitteln. Dies birgt unter anderem das Potenzial, Bildung zu transformieren sowie politische und wissenschaftliche Diskurse zu bereichern. Es wird auch einfacher werden, denselben Videoinhalt für verschiedene Zielgruppen aufzuarbeiten und auch politikverdrossene oder wissenschaftsferne Zielgruppen zu erreichen. KI-Videogeneratoren können dabei unterstützen, neue Gesetze, politische Reformen oder wissenschaftliche Studien zu veranschaulichen und besser verständlich zu machen. Politische und wissenschaftliche Kommunikation kann effizienter, ansprechender und eindrucksvoller gemacht werden. Letztlich kann dies zu besser informierten Entscheidungen bei Wahlen beitragen und so die Demokratie stärken.“

„Doch der Schlüssel zum Erfolg liegt in einem verantwortungsbewussten und in Teilen (selbst)regulierten Umgang mit den Möglichkeiten der KI, um die Qualität und Transparenz der Kommunikation zu bewahren und das öffentliche Vertrauen zu sichern. Im Einsatz für strategische Kommunikation ist nicht nur ein praktisches Verständnis, sondern auch ein kritischer, transparenter und verantwortungsvoller Umgang mit der KI unerlässlich.“

Negative Auswirkungen

„KI-generierte Videos können Realität und Fiktion ununterscheidbar machen. So haben sie das Potenzial, Fehlinformationen zu verbreiten und damit die Meinungsbildung negativ zu beeinflussen. Die zunehmende Verbreitung gefälschter und irreführender Videos stellt eine ernsthafte Herausforderung dar, da sie es den Nutzer*innen erschwert, zwischen verlässlichen und unzuverlässigen Informationen zu unterscheiden. Die KI-Videogeneratoren werden höchstwahrscheinlich für politische Zwecke missbraucht werden, indem sie schneller und einfacher Deepfakes ermöglichen: täuschend echt erscheinende, aber künstlich erstellte Videos. Solche Deepfake-Videos können dazu genutzt werden, Wähler*innen zu täuschen und politische Gegner*innen ungünstig darzustellen. Auch wenn Richtlinien und Kontrollmaßnahmen existieren, lassen sich die eingebauten Sicherheitsmechanismen oft mit geschickt formulierten Anfragen (Prompts) umgehen.“

„Schon vor der Existenz von KI-Bild- und Videogeneratoren konnte man Fotos und Videos im Web und in den sozialen Medien nicht uneingeschränkt vertrauen und es war ratsam, kritisch zu sein. Natürlich sind gefälschte Videos im Internet nichts Neues mehr. Was neu sein wird, ist die schiere Menge an desinformierendem Videomaterial. Soziale Medien stehen bereits jetzt vor großen Herausforderungen im Kampf gegen Desinformationen. Die Flut an gefälschten Videos wird dieses Problem noch verschärfen. Ohne effektive Werkzeuge zur automatisierten Erkennung dieser Inhalte wird die Qualität der auf sozialen Plattformen geteilten Nachrichten weiter abnehmen, was die Informationslandschaft zusätzlich belastet.“

Einfluss auf Wahlen und Meinungsbildung

„Die gute Nachricht ist: Das einmalige Sehen eines fehlinformierenden Videos auf Social Media oder in Messengerdiensten hat nur in Ausnahmefällen überhaupt eine Wirkung auf die Meinungsbildung und Einstellungen von Nutzenden – insbesondere bei Themen, bei denen Menschen schon gefestigtes Vorwissen oder Voreinstellungen haben. Problematisch kann es werden, wenn Nutzer*innen wiederholt mit Falschinformationen konfrontiert werden, ohne dass diese korrigiert werden. Besonders in unsicheren Zeiten wie Krisen- oder Kriegszeiten und bei Personen, die ihre vorhandenen inkorrekten Ansichten bestätigt sehen möchten, können solche Informationen Einfluss haben. Auch Menschen ohne Vorwissen zu einem Thema und solche, die noch keine feste Meinung haben, sind etwas anfälliger für Fehlinformationen, vor allem wenn diese visuell überzeugend präsentiert werden. Glaubt man eine Fehlinformation dann einmal, ist es schwer, diese Meinung wieder zu ändern, selbst wenn die Falschinformation später korrigiert wird.“

Mögliche Gegenmaßnahmen

„Die KI-Unternehmen wie OpenAI arbeiten an Sicherheitsmaßnahmen, um Missbrauch ihrer Videotechnologie zu verhindern. Dazu gehören spezielle Kennzeichnungen in den Videos, Techniken, um künstlich erstellte Inhalte erkennen zu können, und zusätzliche Sicherheitsfeatures wie eingebaute Metadaten in kommenden Produkten. Trotz dieser Bemühungen ist es wahrscheinlich, dass diese Schutzmaßnahmen irgendwann umgangen werden. Viele Menschen, die diese Videos sehen – besonders diejenigen ohne spezifisches Wissen um KI – werden diese Sicherheitskennzeichen nicht bemerken und haben oft weder die Zeit, die Kenntnisse, noch die Motivation, die Echtheit von Videos im Alltag zu überprüfen. OpenAI entwickelt auch Werkzeuge, die es ermöglichen, Videos als von ihrer KI erstellt zu identifizieren. Das kann zwar Plattformen wie sozialen Netzwerken dabei helfen, solche Inhalte zu markieren. Dem gemeinen Nutzenden, der ein Video über WhatsApp, Telegram oder auf einer Webseite sieht, nutzt es jedoch kaum bei der Erkennung von künstlich erstellten Inhalten.“

„Im Prinzip halte ich dieselben Gegenmaßnahmen für sinnvoll, die in der Forschung zu Desinformation im Allgemeinen empfohlen werden [1]. Um Desinformation effektiv zu bekämpfen, müssen wir sowohl deren Verbreitung eindämmen als auch die Menschen dazu befähigen, Falschinformationen selbst zu erkennen. Mit dem Anstieg authentisch wirkender, KI-generierter Videos wird es immer schwieriger, echte von gefälschten Inhalten zu unterscheiden. Umso wichtiger ist die Bedeutung von individueller Informationskompetenz, gesellschaftlicher Aufklärung, vertrauenswürdigen Quellen, qualitativem Journalismus, der Arbeit von Fact-Checker*innen, aber auch der (Selbst-)Regulierung von Plattformen. Social-Media-Plattformen sollten aktiv die massenhafte Verbreitung von als desinformierend erkannten Inhalten erschweren und durch Warnhinweise das Bewusstsein der Nutzenden schärfen.“

„Ebenso ist es wichtig, die Nutzenden frühzeitig über die Risiken und Merkmale von Desinformation und Missbrauchsmöglichkeiten von KI zur Erstellung von Desinformation aufzuklären, um sie weniger anfällig zu machen. Dies beinhaltet das Fördern kritischen Denkens und der Fähigkeit zur selbstständigen Überprüfung von Informationen. Das Wichtigste: kritisch sein, sich vielfältig aus vertrauenswürdigen journalistischen Quellen informieren und folgende Fragen für sich klären: Wer verbreitet die Informationen und warum? Wie wird die Nachricht belegt? Wurde etwas manipuliert? Informationskompetenz muss individuell lebenslang ausgebildet und gefördert werden. Die Menschen sollten wissen, welche Quellen faktenbasierte Informationen liefern, was vertrauenswürdige Quellen ausmacht und wie sie diese finden können.“

„Natürlich können wir nicht jedes Video selbst prüfen. Es braucht zusätzlich unabhängige und gesichert finanzierte Journalist*innen und Fact-Checker*innen, die uns die Arbeit abnehmen oder zumindest erleichtern und weitverbreitete Videos aus Politik und Wissenschaft überprüfen. Qualitativer Journalismus und Fact-Checking sind allerdings aufwendig und das macht es teuer und gerade beispielsweise im Wissenschaftsjournalismus wird zunehmend gespart. Zudem braucht es dafür auch ein Vertrauen der Bevölkerung in diese Arbeit. (Politische) Desinformationskampagnen versuchen dieses Vertrauen aber oft zu destabilisieren.“

Prof. Dr. Andreas Jungherr

Inhaber des Lehrstuhls für Politikwissenschaft, insbesondere Digitale Transformation, Otto-Friedrich-Universität Bamberg

Einfluss auf Wahlen und Meinungsbildung

„KI-erstellte oder KI-bearbeitete Bilder funktionieren im Wahlkampf wie andere Bildfälschungen oder -bearbeitungen. Der Wahlkampf ist immer einer Zeit des extremen Wettbewerbs um Aufmerksamkeit. Um Einfluss zu entwickeln, müssen Bilder einen Moment oder eine Position symbolisch verdichtet abbilden. Gelingt dies und werden Bilder im richtigen Moment in den Umlauf gebracht, können sie von Medien, Diskurseliten oder Politikerinnen und Politikern aufgegriffen und weiterverbreitet werden. Der Einfluss von KI-generierten Bildern hängt also nicht primär von technischer Perfektion oder Fotorealismus ab, sondern von der Bereitschaft der Medien und politischer Akteure, entsprechende Bilder aufzugreifen, in ihre Narrativen zu integrieren und damit weiter zu verbreiten. Etwaige Probleme mit KI-generierter Desinformation in Wahlkämpfen stammen also weniger aus der Technik, als der Bereitschaft politischer Eliten, Falschinformationen zu verwenden und der Bereitschaft der Medien, Aufregerthemen prominent zu platzieren.“

Mögliche Gegenmaßnahmen

„Der Umgang mit KI-generierten Inhalten wird klar ein wichtiges Element in politischer Kommunikation und Berichterstattung. Hier müssen Politik und Journalismus Kompetenzen entwickeln. Ein möglicher Umgang mit KI-generierten Inhalten kann sein, dass Regierung, Parteien und Medienmarken ihr Bild- und Videomaterial mit eindeutigen digitalen Fingerabdrücken kennzeichnen. Damit würden entsprechende Akteure signalisieren, welche Inhalte verlässlich von ihnen stammen, sodass mögliche Fälschungen schneller für professionelle Beobachter und Kommentatoren identifizierbar sind.“

„Grundsätzlich sollten wir in der Gesellschaft breiter KI-Nutzungskompetenzen vermitteln. Hierbei sollte der Fokus allerdings auf der Ermächtigung durch KI-Nutzung liegen, anstelle der Vermittlung von Angst und Überforderung durch herbeifantasierte Phänomene auf Basis anekdotischer Evidenz oder mit bestenfalls marginaler Wirkung – wie Wahlbetrug durch KI-generierter Desinformation. Teil der gesellschaftlichen KI-Kompetenz ist eben auch, nicht jede Panik-Welle unkritisch mitzunehmen und anzufeuern.“

Prof. Dr. Edda Humprecht

Professorin für Digitalisierung und Öffentlichkeit, Institut für Kommunikationswissenschaft, Friedrich-Schiller-Universität Jena

Einfluss auf Wahlen und Meinungsbildung

„Die Entwicklung und Verbreitung von KI-Technologien zur Erstellung und Bearbeitung von Bildern und Videos hat das Potenzial, die Landschaft der öffentlichen Meinungsbildung und den Informationsfluss online signifikant zu verändern. Diese Technologien ermöglichen die Produktion hochrealistischer Inhalte, die kaum von authentischen zu unterscheiden sind, was die Gefahr von Desinformation und manipulierten Nachrichten erhöht. In einem Wahlkontext können solche manipulierten Inhalte genutzt werden, um die öffentliche Meinung zu beeinflussen, indem sie gezielt eingesetzt werden, um falsche Narrative zu verstärken oder politische Gegner in ein schlechtes Licht zu rücken. Der Stand der Forschung zeigt, dass es für Bürgerinnen und Bürger zunehmend herausfordernder wird, zwischen echten und künstlich erzeugten Inhalten zu unterscheiden, was die Notwendigkeit der Sensibilisierung und der Entwicklung technischer Lösungen zur Erkennung solcher Inhalte unterstreicht.“

Mögliche Gegenmaßnahmen

„Angesichts der Herausforderungen, die KI-generierte Inhalte darstellen, sind ganzheitliche Ansätze erforderlich, die über technische Lösungen hinausgehen. Nachrichtenkompetenz ist entscheidend. Bildungsinitiativen sollten darauf abzielen, das Bewusstsein für die Existenz und die Erkennungsmerkmale künstlich erzeugter Inhalte zu schärfen. Awareness-Kampagnen können eine wichtige Rolle spielen, indem sie die Öffentlichkeit über die Risiken und Kennzeichen von Desinformation aufklären. Ebenso wichtig ist es, dass Plattformbetreiber Verantwortung übernehmen und proaktive Maßnahmen einführen, um die Verbreitung manipulierter Inhalte zu bekämpfen. Dazu gehören die Implementierung strengerer Inhaltsüberprüfungsverfahren, die Kennzeichnung von KI-generierten Inhalten und die Förderung von Transparenz hinsichtlich der Herkunft und Authentizität von Informationen. Die Zusammenarbeit zwischen Regierungsbehörden, der Zivilgesellschaft und dem privaten Sektor ist entscheidend, um effektive Strategien zur Bekämpfung der negativen Auswirkungen von KI-generierten Inhalten auf die Demokratie zu entwickeln.“

Prof. Dr. Thorsten Holz

Tenured Faculty und Leiter der Forschungsgruppe zu Erkennungs- und Verteidigungsmechanismen, Helmholtz-Zentrum für Informationssicherheit (CISPA), Saarbrücken

Technische Erkennung von KI-generierten Bildern und Videos

„Die automatische Markierung und Erkennung von KI-generierten Bildern und Videos ist ein sich schnell entwickelndes Forschungsgebiet. Aktuelle Ansätze konzentrieren sich auf die Erkennung von Inkonsistenzen, die durch algorithmische Generierungsprozesse entstehen. Dazu gehören Auffälligkeiten im Frequenzspektrum des Bildes oder semantische Auffälligkeiten wie ungewöhnliche Pupillenreflexionen in Bildern, inkonsistente Blinkmuster der Augen in Videos, auffällige Hauttexturen oder fehlerhafte oder inkonsistente Hintergrunddetails. Darüber hinaus können Methoden aus der digitalen Forensik eingesetzt werden, um Metadaten und Artefakte zu analysieren, die auf eine KI-generierte Quelle hinweisen könnten – zum Beispiel die Untersuchung von Kompressionsartefakten und Bildrauschmustern, die bei Kameras durch das Rauschen des Bildsensors entstehen. Insbesondere bei Videos ist die Konsistenz zwischen Bild und Ton ein wichtiger Bestandteil der Erkennungsstrategien.“

„Da KI-generierte Inhalte immer komplexer werden, ist eine kontinuierliche Verbesserung der Erkennungsalgorithmen nötig. Dazu müssen robustere Methoden entwickelt werden, die auch subtile Anomalien erkennen können. Umgekehrt können solche Erkennungsmethoden aber leider auch eingesetzt werden, um KI-generierte Inhalte noch realistischer erscheinen zu lassen – ein klassisches Wettrüsten findet statt. Da technologische Lösungen allein möglicherweise nicht ausreichen, wird die Aufklärung der Öffentlichkeit über die Existenz und die Gefahren von KI-generierten Inhalten ein wichtiger Bestandteil der Strategie sein. Die Herausforderung wird darin bestehen, mit der sich ständig weiterentwickelnden Technologie Schritt zu halten und gleichzeitig ethische und rechtliche Erwägungen zu berücksichtigen.“

Fortschritte bild- und videogenerierender KI

„Bild- und videogenerierende KI hat in den vergangenen Jahren beeindruckende Fortschritte gemacht. Mit Generative Adversarial Networks (GANs) wurde einer der ersten Ansätze generativer KI im Jahr 2014 vorgestellt und zehn Jahre später können Modelle wie OpenAIs ‚Sora‘ bereits längere Videos erzeugen. Moderne Modelle sind in der Lage, sehr realistische Bilder von Objekten, Szenen und Gesichtern zu erzeugen oder den Stil eines Bildes auf ein anderes zu übertragen, wie etwa bei der Anwendung des Kunststils berühmter Maler auf Fotografien.“

Technische Schwächen

„Gegenwärtige Modelle haben jedoch noch Schwächen. So verstehen sie zum Beispiel oft nicht den physikalischen oder logischen Kontext von Objekten in einer Szene, was zu unrealistischen oder physikalisch unmöglichen Ergebnissen führen kann. Obwohl die generierten Medien oft überzeugend wirken, können bei näherer Betrachtung Unregelmäßigkeiten und Artefakte auftreten. Ein bekanntes Beispiel ist ein KI-generiertes Bild von Papst Franziskus in einer weißen Daunenjacke mit einem Kruzifix: Auf den ersten Blick wirkt das Bild echt, aber einige Details wie der Faltenwurf der Jacke, die Reflexionen der Brille oder das Fehlen eines Leberflecks zeigen, dass es sich um ein KI-generiertes Bild handelt.“

Zukünftige Entwicklung

„Fortschritte in der KI-Forschung werden zu noch realistischeren und hochauflösenderen Bildern und Videos führen. Insbesondere werden kohärente und realistische Videoszenen mit dynamischen und komplexen Interaktionen in wenigen Jahren möglich sein. In Zukunft werden generative KI-Modelle ein besseres Verständnis von Kontext und physikalischen Gesetzen haben, was zu plausibleren und physikalisch korrekten Ergebnissen führen wird. Solche KI-generierten Medien können dann von Menschen kaum noch von authentischen Bildern unterschieden werden. Angesichts möglicher Missbrauchsgefahren müssen Methoden zur Authentifizierung von Medieninhalten entwickelt werden, insbesondere auf der semantischen Ebene – ‚Würde der Papst eine solche Designer-Jacke tragen?‘“

Christoph Maerz

Teamleiter Sprachmodelle (Large Language Models), Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI), Kaiserslautern

Momentane Entwicklung

„Die jüngsten Fortschritte in der KI-gestützten Generierung von Bildern und Videos, exemplarisch durch Projekte wie Sora verdeutlicht, stellen signifikante technologische Durchbrüche dar. Diese Innovationen eröffnen durch die potenzielle Nutzung synthetischer Daten aus fortschrittlichen Grafikengines, wie der Unreal Engine, neue Horizonte. Sie bieten weitreichende Möglichkeiten für die Filmindustrie, den Bildungssektor und die Erstellung personalisierter Inhalte, bergen jedoch auch Risiken wie die vereinfachte Verbreitung von Desinformationen. Trotz der gegenwärtigen Regulierungsversuche durch Initiativen wie OpenAIs Alignment-Verfahren ist die Gefahr von Manipulation und Bias in Trainingsdaten nicht zu unterschätzen, was die Notwendigkeit einer kritischen Auseinandersetzung mit diesen Technologien unterstreicht.“

„Bild- und Videogenerierungs-KIs haben in den letzten Jahren beeindruckende Fortschritte gemacht, stehen aber immer noch vor einigen Herausforderungen.“

Technische Stärken

„Kreativität und Realismus: Aktuelle KI-Modelle sind in der Lage, sehr kreative und realistische Bilder zu generieren. Sie können komplexe Szenarien, Landschaften und Objekte mit beeindruckender Genauigkeit erstellen.“

„Verbesserung bei der Darstellung von Händen und Füßen: Frühere Modelle hatten oft Schwierigkeiten, Hände und Füße korrekt darzustellen, aber dies wurde in neueren Versionen deutlich verbessert.“

Technische Schwächen

„Prompting: Das Erstellen effektiver Prompts kann herausfordernd sein, und die KIs interpretieren diese nicht immer wie beabsichtigt. Das Verstehen und Umsetzen komplexer oder mehrdeutiger Prompts bleibt eine Herausforderung.“

„Darstellung von Text: KIs haben nach wie vor Schwierigkeiten, lesbaren und sinnvollen Text in Bildern zu generieren. Dies liegt an der komplexen Natur der Sprache und der Schwierigkeit, Kontext angemessen zu berücksichtigen.“

„Konsistenz und physikalische Genauigkeit: Programme wie Sora kämpfen mit der Konsistenz, besonders in Videos, wo beispielsweise der Zustand von Objekten über die Zeit inkonsistent bleiben kann (wie der nicht angebissene Keks im Beispiel). Auch die Darstellung physikalischer Phänomene (wie fließendes Wasser) kann ungenau sein.“

Zukünftige Entwicklung

„Es ist wahrscheinlich, dass die oben genannten Probleme, einschließlich der Konsistenz und physikalischen Genauigkeit, in den Fokus der Entwickler rücken. Fortschritte in der KI-Forschung und -Entwicklung könnten zu verbesserten Modellen führen, die feinere Details und physikalische Gesetze besser berücksichtigen.“

„Länge der Videos: Die Fähigkeit, längere Videos mit konsistenten Narrativen zu generieren, könnte ebenfalls verbessert werden. Dies würde die Erstellung von Inhalten wie kurzen Filmen oder sogar Spielfilmen durch KI ermöglichen. Die Entwicklung hin zur automatischen Erstellung ganzer Spielfilme durch KI ist denkbar, wenngleich dies eine komplexe Herausforderung darstellt, die nicht nur technische, sondern auch kreative und narrative Aspekte umfasst.“

„Die Kombination aus verbesserten Algorithmen, leistungsfähigerer Hardware und fortschrittlicheren Trainingsdatensätzen dürfte die Qualität und Fähigkeiten von Bild- und Videogenerierungs-KIs weiter vorantreiben.“

„Es ist wichtig, ethische Überlegungen und die potenziellen Auswirkungen auf kreative Berufe im Auge zu behalten, während diese Technologien weiterentwickelt werden.“

„Insgesamt stehen wir bei der Entwicklung von KI-generierten Bildern und Videos erst am Anfang eines spannenden Weges, der sowohl technologische als auch gesellschaftliche Veränderungen mit sich bringen wird.“

Technische Erkennung und Markierung von KI-generierten Bildern und Videos

„Die automatische Markierung und Erkennung von KI-generierten Bildern und Videos ist ein sich dynamisch entwickelndes Feld, das sowohl technische als auch rechtliche Herausforderungen mit sich bringt. OpenAI hat angekündigt, alle von Dall-E generierten Bilder und vermutlich auch Videos, die mit ihrer neuesten Technologie Sora erstellt wurden, mit Wasserzeichen zu versehen. Diese Wasserzeichen sind dazu gedacht, es einfacher zu machen, KI-generierte Inhalte von Inhalten, die durch Menschen erstellt wurden, zu unterscheiden.“

„Im Gegensatz dazu haben andere prominente Akteure wie Midjourney und Stable Diffusion bisher keine vergleichbaren, systematischen Wasserzeichenimplementierungen bekannt gegeben. Dies wirft Fragen hinsichtlich der Konsistenz und Verlässlichkeit der Markierung von KI-generierten Inhalten über verschiedene Plattformen und Technologien hinweg auf.“

„Die Erkennung von KI-generierten Bildern und Videos bleibt eine anspruchsvolle Aufgabe. Mit der fortschreitenden Verbesserung der KI-Technologien werden die generierten Inhalte immer realistischer und schwerer von echten zu unterscheiden. Langfristig könnte dies bedeuten, dass es zunehmend schwieriger wird, KI-generierte Inhalte zuverlässig zu erkennen, insbesondere wenn die Entwickler von generativen KI-Systemen keine eingebauten Markierungsmechanismen wie Wasserzeichen verwenden.“

„Der EU AI Act ist ein bedeutender Schritt in Richtung der rechtlichen Rahmensetzung für den Einsatz von KI, einschließlich der Anforderung, dass Texte, Bilder und Videos, die mit KI erstellt wurden, entsprechend gekennzeichnet werden müssen. Dieser rechtliche Rahmen zielt darauf ab, Transparenz und Verantwortlichkeit im Umgang mit KI-generierten Inhalten zu fördern und die Nutzer über die Herkunft der Inhalte zu informieren.“

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Christian Hoffmann

„Ein Interessenkonflikt liegt nicht vor.“

Prof. Dr. Björn Ommer

„Der Lehrstuhl Ommer erforscht und entwickelt generative KI (Stable Diffusion et cetera). Er war nicht an der Entwicklung von Sora beteiligt und kann sich hierzu unbefangen äußern.“

Dr. Sabrina Heike Kessler

„Ich habe keine Interessenkonflikte zu deklarieren.“

Prof. Dr. Andreas Jungherr

„Ich habe keine Interessenkonflikte.“

Prof. Dr. Edda Humprecht

„Ich bestätige hiermit, dass keine Interessenkonflikte bestehen.“

Prof. Dr. Thorsten Holz

„Es bestehen keine Interessenkonflikte.“

Alle anderen: Keine Angaben erhalten.

Quellen

Weiterführende Recherchequellen

Science Media Center (2023): Desinformation: Welche Rolle können Sprachmodelle und KI spielen? Science Response. Stand: 25.04.2023.

Literaturstellen, die von den Expert:innen zitiert wurden

[1] Kessler SH (2023): Vorsicht #Desinformation: Die Wirkung von desinformierenden Social Media-Posts auf die Meinungsbildung und Interventionen. Landesanstalt für Medien NRW.

Literaturstellen, die vom SMC zitiert wurden

[I] OpenAI (2024): Creating video from text. Blogeintrag.

[II] OpenAI (2024): Video generation models as world simulators. Technischer Report.

[III] OpenAI (2024): How to access Sora?

Prof. Dr. Christian Hoffmann

Mehr Informationen