Zum Hauptinhalt springen
18.02.2019

OpenAI: Durchbruch bei Natural Language Processing?

Anlass

Das Team von OpenAI hat auf seinem Blog [I] ein neues Modell namens GPT-2 veröffentlicht. Das ganze Paper finden Sie hier [II]. Dieses Modell kann laut Aussage des OpenAI Teams zusammenhängende Texte verfassen, Übersetzen, Fragen beantworten und schneidet bei Tests zum Leseverständnis signifikant besser als bisherige Modelle ab. Dabei wird das Modell nach dem Prinzip des nicht überwachten Lernens trainiert.

Neu ist dabei, dass sich dieses eine Modell auf ein so breites Spektrum von Aufgaben anwenden lässt. Im vergangenen Jahr hatten Forscher bereits zwei weitere „Sprachmodelle“ entwickelt, Google das System BERT [III], das Allen Institute for Artificial Intelligence das Sprachmodell ELMo [IV]. Laut eigener Aussage von OpenAI hat sich das Team vorerst entschlossen, nicht die komplette Version zu veröffentlichen, also das komplette Modell, Daten und Teile des Codes zurückzuhalten. Sie fürchten Missbrauch, wenn die Technologie in falsche Hände gerät, zum Beispiel um Fake News zu erzeugen.

 

Übersicht

  • Prof. Dr. Kristian Kersting, Leiter des Fachgebietes Maschinelles Lernen, Fachbereich Informatik und Centre for Cognitive Science, Technische Universität Darmstadt
  • Dr. Lena Frischlich, Kommunikations- und Medienpsychologin, Institut für Kommunikationswissenschaft, Westfälische Wilhelms-Universität Münster
  • Prof. Dr. Sebastian Rudolph, Professor für Computational Logic, Fakultät für Informatik, Technische Universität Dresden
  • Prof. Dr. Andreas Hotho, Leiter der Data Mining und Information Retrieval Group, Institut für Informatik, Julius-Maximilians-Universität Würzburg
  • Prof. Dr. Wolfram Burgard, Professor für Autonome Intelligente Systeme, Institut für Informatik, Albert-Ludwigs-Universität Freiburg, und Mitglied der FRIAS Forschungsgruppe Responsible AI
  • Prof. Dr. Silja Vöneky, Professorin für Völkerrecht und Rechtsethik, Institut für Öffentliches Recht, Albert-Ludwigs-Universität Freiburg, und Mitglied der FRIAS Forschungsgruppe Responsible AI
  • Dr. Philipp Kellmeyer, Neurowissenschaftler und Neurologe, Uniklinik Freiburg, und Mitglied der FRIAS Forschungsgruppe Responsible AI

Statements

Prof. Dr. Kristian Kersting

Leiter des Fachgebietes Maschinelles Lernen, Fachbereich Informatik und Centre for Cognitive Science, Technische Universität Darmstadt

„Das Model ist nicht wirklich so neu. Das Papier basiert im Wesentlichen auf OpenAIs Vorgängermodell, dem GPT Model. GPT wurde bereits vergangenes Jahr vorgestellt und dessen Programm-Code auch online verfügbar gemacht.“

„Die aktuellen Modifikationen in GPT-2 sind minimal und konzeptuell nicht wirklich relevant. Es handelt sich eher um typisches Engineering bei DeepLearning Netzwerken, bei denen Teile existierender Netzwerke mit vielen, kleinen Modifikationen umgebaut werden, die in der Literatur zu Deep Learning bekannt sind.“

„Das Interessante an dem aktuellen Papier sind die verwendeten Daten und die daraus erzielten Ergebnisse.“

„Allgemein wird oft berichtet, dass man einfach nur große Datenmengen für Deep Learning braucht. Genau das aber ist mathematisch bisher nicht bewiesen. Deshalb ist das Ergebnis der vorliegenden Studie interessant.“

„Die Resultate zeigen, dass statistische Sprachmodelle – Wahrscheinlichkeitsmodelle, die beschreiben, wie wahrscheinlich ein bestimmter Satz in einem Kontext ist – mit großen Datenmengen recht universell einsetzbar sind. Man trainiert sie ohne eine bestimmte Aufgabe im Kopf zu haben, also etwa bei Frage-Antwort Aufgaben, Übersetzungen und so weiter. Und kann sie dann ohne großen zusätzlichen Aufwand auf weitere sehr unterschiedliche Aufgaben anwenden.“

„Diese Einsicht lag in der Luft und es ist schön zu sehen, dass es anscheinend auch wirklich so ist.“

„Allerdings muss man die Ergebnisse auch noch etwas mit Vorsicht genießen. Die Ergebnisse sind nicht von unabhängigen Dritten reproduziert, geprüft und validiert worden. Das Modell schlägt zudem nicht in allen Aufgaben den Stand der Technik.“

„Statistische Sprachmodelle, wenn sie richtig sind, sind sehr mächtig. Das liegt in ihrer Natur. Sie bilden die statistischen Abhängigkeiten zwischen Wörtern und Wortphrasen ab. Trainiert man sie auf von Menschen geschriebenen Texten, können sie unsere Vorurteile reflektieren. Sie können aber vielleicht auch unsere Moral widerspiegeln.“

„Statistische Modelle sind mathematische Modelle und daher erst einmal neutral. Es kommt daher darauf an, wer und wie man sie einsetzt. Deshalb besteht natürlich auch die Gefahr, dass man sie zur Erzeugung von Fake News und Desinformation einsetzen kann. Mir erscheint das schwieriger zu sein. Zwar könnte man die Modelle auf bekannte Fake News adaptieren. Da wir aber noch keinen so großen Fake News Datensatz haben, wie den in der Publikation beschriebenen, wird das schwieriger sein.“

„Zudem müsste dieser Datensatz wahrscheinlich immer auf den aktuellen Stand gebracht werden, damit das System nicht veraltete Fakten übernimmt und sich so selbst entlarvt.“

„Allgemein ist Deep Learning noch viel zu daten-hungrig. Im Gegensatz zum Menschen braucht es einfach Millionen und Abermillionen von Beispielen, um lernen zu können. Der Mensch dagegen lernt anhand weniger Beispiele. Wir können denken und Schlussfolgerungen aus wenigen Beobachtungen ziehen. Wie das algorithmisch funktioniert, ist weiterhin das große Rätsel der Künstlichen Intelligenz und der Kognitionswissenschaften.“

„Der Wissenschaft würde sicherlich helfen, wenn das trainierte Modell und die dafür benutzten Daten wissenschaftsöffentlich wären. Allerdings kann ich Autoren gut verstehen. In dem sie das Modell und die Daten unter Verschluss halten, ist der Aufwand, die Ergebnisse zu produzieren, unlängst höher.“

„Allerdings ist die Katze nun aus dem Sack, denn ein GPT-2 ähnliches Modell kann man sicherlich auch selber finden. Staaten, Organisationen und Gruppierungen, die Bösartiges entwickeln wollen, können sich sicherlich auch die Daten beschaffen. Aber die Autoren haben nun zumindest eine Hürde eingebaut. Das finde ich gut. Zur wissenschaftlichen Validierung kann man sicherlich auf die Autoren zugehen.“

„Weil es sich bei GPT-2 um ein statistisches Modell handelt, kann es den Kontext beachten. Wie die Autoren zeigen, kann es zum Beispiel Lückentext ausfüllen und auch den Sprachstil eines Textes verändern. Das hat sehr spannende Anwendungen, allerdings leider nicht nur gute.“

„Die Gefahr, Maschinelles Lernen für Schlechtes einzusetzen, besteht wahrscheinlich immer. Wissenschaftliche Erkenntnisse ganz allgemein können immer für etwas Gutes und für etwas Schlechtes eingesetzt werden. Es ist Aufgabe der Forschungsgemeinschaft, der Politiker und der Gesellschaft dieses zu regulieren.“

„Ich denke, genau diese Diskussion anzustoßen, ist das Ziel der Autoren. Sie wollen eine wissenschaftliche Diskussion ihrer Ergebnisse. Sie wollen die Gatekeeper-Funktion der Forschungsgemeinschaft für Künstliche Intelligenz reaktiveren. Das finde ich gut.“

„Trotzdem bleibt ein Beigeschmack, da OpenAI keine öffentliche Institution ist. Vielleicht können wir die Ergebnisse der Studie zum Anlass nehmen, die öffentliche KI-Forschung noch mehr in ihrer Infrastruktur zu unterstützen? Erst dann können wir eine unabhängige Sicht auf KI maximieren.“

„Wir brauchen eine Regulierung. Die Diskussion um die Regulierung muss auch technologisch geführt werden. Momentan ist die Diskussion sehr aufgeheizt. Maschinen, die lernen, werden in der öffentlichen Diskussion direkt immer dem Menschen gleichgesetzt. Dabei sind wir in der KI Forschung noch nicht so weit. Deshalb muss die Diskussion um Regulation verstärkt einen technischen Verstand haben. Ich sehe hier die Universitäten – unter Einbezug der Kollegen in den großen KI Firmen - in der Verantwortung. Es gibt zum Beispiel Ethikkommissionen. Darin sind aber noch nicht viele KI-Forscher vertreten. Das muss sich aus meiner Sicht ändern.“

Dr. Lena Frischlich

Kommunikations- und Medienpsychologin, Institut für Kommunikationswissenschaft, Westfälische Wilhelms-Universität Münster

„Generell schafft es das Modell mit weniger spezifizierten Texten als bisherige Modelle, eine größere Anzahl an Aufgaben der Texterkennung und Produktion zu bearbeiten.Für Informatiker*innen ist das ein großer Gewinn: Modelle sehr gut in einer Aufgabe zu machen (Schachspielen) ist nicht annähernd so schwer, wie ihnen beizubringen mehrere, unterschiedliche Aufgaben (vereinfacht: Schach und Poker) zu bewältigen.“

„Das Modell schafft es (noch) nicht, Autor*innen zu ersetzen. Zwar entstehen zu Themen, die sehr häufig im Datenset vorkommen (bsp. Brexit, Miley Cyrus) etwa in der Hälfte der Zeit sinnvolle Texte [s. Blogbeitrag]. Das heißt aber auch: in der Hälfte der Zeit sind die Texte nicht sinnvoll (ein schöner Artikel dazu, was da passieren kann zeigt die Harry Potter KI [1].)“

„Auch bei der Zusammenfassung von Inhalten aus Nachrichtenbeiträgen schleichen sich noch Fehler ein – etwa werden den Autoren zufolge Hut und Mütze verwechselt (s. Artikel, Abs. 3.6).Insgesamt hängt die Richtigkeit („accuracy“) sehr von der Aufgabe ab: Während das Modell sehr gut in der „Kinderbuchaufgabe“ performt (also in über 90% der Fälle, das richtige Wort in einen Lückentext basierend auf einer Kinderbuchsammlung einsetzt) und sich dort auch der Benchmark Mensch annähert (siehe Artikel, Abs. 3.5), schafft es in der LAMBADA Aufgabe (die verlangt, dass nicht nur der letzte Satz sondern der breitere Kontext berücksichtigt wird), nur eine Genauigkeit von etwas über 60 Prozent (siehe Artikel, Abs. 3.3). Das ist beeindruckend, aber weit vom Alltag der Mensch-zu-Mensch Kommunikation entfernt.“

„Trotzdem kann ein solcher Fortschritt den Produktionsprozess (auch manipulativer) Inhalte vereinfachen: Ich muss vielleicht nicht mehr alles Schreiben sondern kann eher lektorieren (ähnlich wie Autokorrekt am Handy).“

„Zur Datenpublikationsstrategie: So wichtig Open Access für den (wissenschaftlichen und gesellschaftlichen) Fortschritt ist, es gibt ein Spannungsfeld zwischen dem Potential für Missbrauch und dem Wunsch der Daten und Methodentransparenz, auf das es keine einfache „Standard“-Antwort gibt. Das veröffentlichen einer „reduzierten“ Datenbasis könnte eine Option sein – allerdings wäre es für die Überprüfung der Replizierbarkeit der Befunde sicher notwendig die kompletten Daten auf Anfrage anderen Wissenschaftler*innen zur Verfügung zu stellen. Hier werden in Zukunft weitere Diskussionen und die Etablierung gemeinsamer Standards notwendig.“

„Wo man etwas für Propaganda und Manipulation benutzen kann, wird es auch irgendjemand tun (ich kenne Teletext Beispiele…). Mit jeder technischen Neuerung erweitert sich auch das Propaganda-Instrumentarium. Aber: Das korrekte Einsetzen einzelner Worte in verschiedenen Texten ist sehr beeindruckend, erzeugt aber noch keine Desinformationskampagne.Insgesamt: Quantensprünge sind aber schwer vorherzusagen und dafür scheint mir dir Fehlerquote doch noch recht hoch.“

„Ich möchte nicht in einer Welt leben, in der die Freiheit von Wissenschaft und Lehre nicht mehr gewährleistet ist – wir kennen genug historische Beispiele und aktuelle Entwicklungen in autoritären Staaten, die die Konsequenzen aufzeigen. Dennoch brauchen wir gemeinsame ethische Standards. Langfristig werden wahrscheinlich unabhängig finanzierte Speicherplätze für Wissenschaftler*Innen notwendig, wo Daten und Codes für Peer-Review Verfahren und Replikationen zugänglich gemacht werden, es aber unabhängig begutachtete Bewerbungsprozeduren gibt, die Missbrauch entgegentreten.“

Prof. Dr. Sebastian Rudolph

Professor für Computational Logic, Fakultät für Informatik, Technische Universität Dresden

„Aus meiner Sicht handelt es sich bei dem vorgestellten Modell um eine Kombination bekannter Verfahren. Bei Systemen wie diesem, die auf Methoden des maschinellen Lernens basieren, steigt die Qualität der Resultate mit der Menge der verarbeiteten Daten. Für das vorliegende Modell wurden 8 Millionen Web-Dokumente verarbeitet. Das scheint mir der Hauptgrund für die Leistungsfähigkeit des Modells zu sein; die Innovation ist hier also eher quantitativer Natur.“

„Anscheinend ist das Modell in der Lage, kurze Texte zu erzeugen, von denen eine gewisse Anzahl nicht nur sprachlich korrekt, sondern auch inhaltlich schlüssig ist - zumindest auf den ersten Blick. Es ist auch in der Lage, mit einer bestimmten Sicherheit Fragen zu einem gegebenen Text zu beantworten, sofern sich die Antworten direkt aus dem Text ergeben.“

„Aufgrund der verwendeten Methodologie gibt es jedoch zwei grundsätzliche Grenzen des Modells: einerseits der Umgang mit Texten, die inhaltlich oder strukturell stark von den im Vorfeld verarbeiteten Texten abweichen, andererseits die Beantwortung von Fragen, die ein echtes Textverständnis und komplexere Schlussfolgerungen unter Einbeziehung von Hintergrundwissen erfordern.“

„Das Zurückhalten der Vollversion ist aus wissenschaftlicher Sicht zu kritisieren. Sowohl die Methoden als auch die grundlegenden Daten sind bekannt und öffentlich zugänglich, die Hürde besteht also lediglich darin, das Lernverfahren zu implementieren, die Daten zu sammeln und das Modell zu erstellen. Das mag nicht unerhebliche Ressourcen erfordern, stellt aber kein grundsätzliches Hindernis dar, insbesondere nicht für die ‚üblichen Verdächtigen‘: politische Interessengruppen, kriminelle Organisationen oder Staaten.“

„Demgegenüber würde eine komplette Offenlegung des Modells einerseits ermöglichen, die tatsächliche Leistungsfähigkeit des Systems unparteiisch zu beurteilen (eigentlich eine Grundanforderung in der Wissenschaft), andererseits würde sie der wissenschaftlichen Gemeinschaft dabei helfen, an Gegenmaßnahmen zu arbeiten, etwa Methoden zur Erkennung von maschinell erzeugten Texten.“

Prof. Dr. Andreas Hotho

Leiter der Data Mining und Information Retrieval Group, Institut für Informatik, Julius-Maximilians-Universität Würzburg

„Neu sind die Verwendung großer Mengen an Daten mit einer entsprechenden Qualität (wobei man das nicht nachprüfen kann, ob das wirklich was ausmacht) und die Größe des Modells in Bezug auf die Anzahl der Parameter. Die schiere Masse an Daten führt dazu, dass das Modell in der Lage ist, größere Zusammenhänge zu erfassen und auch den Kontext richtig herzustellen. Das Modell selber ist nicht neu, nur leicht angepasst! Letzteres (also der Kontext) ist ja auch das Ziel von ELMO [2] und da geht die Forschung in diesem Bereich hin. Das Modell ist ein Fortschritt, weil es größere Zusammenhänge herstellen kann. Aber es hat auch noch klare Grenzen, da die Beispiele schon die sehr guten sind. Es erzeugt auch vieles, was einfach schlecht ist. Allerdings ist die Quote zwischen gut und schlecht schon auf einem Level, wo man das Modell für Dinge wie Fake News effektiv nutzen kann. Mit wenig Nacharbeit kann man hier schneller Dinge veröffentlichen.“

„Mit solchen Modellen bietet sich die Chance, Teilgebiete wie Summarization und Q&A qualitativ deutlich zu verbessern, zumal das Modell gar nicht für diese Aufgabe trainiert wurde. Für die anderen Modelle gibt es da Ansätze zu. Die Grenze ist klar, der Input, sprich die verwendeten Daten. Wenn es die Informationen nicht in ausreichender Form und Qualität erhält, dann kann es diese nicht erzeugen. Es könnte auch beliebigen Unsinn produzieren, wie der Chatbot von Microsoft getan hat. (Der Chatbot Tay sollte durch Dialog mit Nutzern u.a. auf Twitter lernen, wurde aber schnell wieder abgeschaltet, nachdem er sich, offenbar von rassistischen Kommentaren beeinflusst, auch selbst rassistisch äußerte; Anm. d. Red.)

„Natürlich kann man mit solchen Programmen Fake News erzeugen, vielleicht auch keine schlechten, aber sicherlich mit manueller Nachbearbeitung. Aber wer das in großem Stile machen will, der weiß jetzt, dass man so ein System im Grunde in wenigen Wochen nachbauen kann. Rechenpower kann man bei Google mieten, die Daten gibt es im Internet. Also ist alles da, man braucht nur das Geld. Es wird aber keine neue Qualität von Fake News geben. Aber mehr Fake News könnte man so in der Tat produzieren.“

Prof. Dr. Wolfram Burgard

Professor für Autonome Intelligente Systeme, Institut für Informatik, Albert-Ludwigs-Universität Freiburg, und Mitglied der FRIAS Forschungsgruppe Responsible AI

„Bei dem Modell handelt es sich um ein Modell zur Vorhersage von Texten. Solche Verfahren sind besonderes interessant für eine Vielzahl von Aufgaben, beispielsweise die Übersetzung oder auch Dialogsysteme. Das besondere an dem hier vorgestellten Ansatz ist, dass er eine enorme Anzahl von Parametern besitzt, um das interne Modell zu repräsentieren (1,5 Milliarden). Das, zusammen mit den extrem großen Textkorpora, aus denen gelernt werden kann, führt für die meisten der bekannten Testdatensätze zu einer beeindruckenden Leistung, die tatsächlich über den Stand der Technik hinausgeht. Das stellt nun nicht unbedingt einen qualitativen Durchbruch dar, allerdings werden wir in den kommenden Jahren eine weitere Verbesserung erleben, wie wir mit Geräten über Sprache interagieren können.“

„Die Möglichkeiten solcher Modelle sind offensichtlich, denn mit ihnen lassen sich eine Vielzahl von Aufgaben erledigen, beispielsweise bei der Vorhersage, also wie ein gegebenes Textstück weitergeht, was für Dialogsysteme relevant ist. Bei diesen Systemen will man den Text, der auf eine Anfrage als Abfrage kommen sollte, möglichst gut vorhersagen können. Darüber hinaus ist das auch für Übersetzung relevant. Auch dieses Problem lässt sich sehr gut als ein Frage-Antwort-Spiel kodieren. Dabei muss das System die Englische Version eines gegebenen Textstücks in Deutsch möglichst gut vorhersagen können. Aber auch ganz normale Frage-Antwort-Situtationen lassen sich mit den Ansätzen aus dem Aufsatz repräsentieren. Auch sind Verbesserungen bei der Sprachverarbeitung zu erwarten. Dabei sind die Ansätze nicht neu. Neu ist, dass es den Autoren gelungen ist, ein System mit so vielen Parametern so gut lernen lassen zu können.“

„Missbrauchsgefahren sind natürlich gegeben. Beispielsweise könnte das System dazu verwendet werden, automatisch Reviews für Produkte zu schreiben (entweder positive für die eigenen oder negative für die von Konkurrenten). Das würde bedeuten, dass das aktuelle System, welches auch auf dem Vertrauen beruht, dass die Gutachten authentisch sind, untergraben wird. Darüber hinaus könnte es auch dazu verwendet werden, massenhaft posts und Mitteilungen zu generieren und so zu suggerieren, dass bestimmte Meinungen mehrheitlich vertreten werden oder dass Nachrichten wahr sind, obwohl sie es nicht sind (Fake News). Solche Fake News gibt es schon jetzt, aber sie könnten mit dem Programm im großen Stil verwendet werden, um Menschen zu beeinflussen.“

Auf die Frage nach möglicher Regulierung solcher Forschung:
„Hier stehen sich zwei Werte gegenüber. Auf der einen Seite haben wir die Wissenschaft und den Erkenntnisgewinn, der natürlich allen zugänglich sein sollte und auch zur Verbesserung des Fortschritts möglichst öffentlich gemacht werden sollte. Beispielsweise könnten andere Wissenschaftlerinnen und Wissenschaftler auf diesem System aufbauen, um noch bessere Systeme zu schaffen. Ohne die Verbreitung der Erkenntnis, wird der Fortschritt nicht in vollem Umfang unterstützt. Dies kann dann von Nachteil sein, wenn man die positiven Anwendungen betrachtet, für die das System genutzt werden könnte.“

„Auf der anderen Seite stehen die negativen Aspekte durch die Anwendung unter anderem bei Fake News oder beispielsweise auch bei Bewertungen. Hier sollten wir als Gesellschaft regulatorische Maßnahmen ergreifen und solchen Missbrauch zu verhindern. OpenAI scheint wohl nicht der Ansicht zu sein, dass unsere Gesellschaft weit genug ist und hat daher vorgezogen, ihr Modell nicht in vollem Umfang zu publizieren. Für die Wissenschaft ist das nicht gut. Ob es für die Gesellschaft besser ist, wird die Zukunft zeigen. Es zeigt aber auch, dass wir dringend Maßnahmen und Normen benötigen, um Missbrauch einzudämmen ohne wissenschaftlichen Fortschritt und Erkenntnisgewinn unverhältnismäßig einzuschränken. Andernfalls besteht die Gefahr, dass andere Gesellschaften mit anderen Standards diese Techniken vorantreiben und wir möglichen negativen Einflüssen unvorbereitet ausgesetzt sein werden.“

Prof. Dr. Silja Vöneky

Professorin für Völkerrecht und Rechtsethik, Institut für Öffentliches Recht, Albert-Ludwigs-Universität Freiburg, und Mitglied der FRIAS Forschungsgruppe Responsible AI

Auf die Frage nach möglicher Regulierung solcher Forschung:
„Die Missbrauchsgefahren sind ernst zu nehmen, aber grundsätzlich sollten Publikationseinschränkungen, auch im Wege einer ‚Selbstzensur‘ nur der letzte Schritt sein, wenn die Gefahren einer Forschung oder Entwicklung die Vorteile überwiegen. Ein Problem ist aber, dass es noch keine internationalen Normen oder Kodizes gibt, die von allen Staaten oder Forschenden für die Einhegung von Missbrauchsgefahren im Bereich der künstlichen Intelligenz akzeptiert werden. Da die Forschung so schnell voranschreitet, sollten hier gerade alle besonders betroffenen Staaten und Forschenden auch international nun verstärkt zusammenarbeiten, um sinnvolle und verhältnismäßige Normen zu vereinbaren.“

„Diese Regeln sollten nicht nur als unverbindliche Kodizes von Unternehmen selbst oder einzelnen Gruppen erlassen werden. Sie müssen zudem die international verbindlichen Menschenrechte beachten, zu denen auch die Meinungsfreiheit und davon mitgeschützt die Forschungsfreiheit zählt. Auch diese Rechte dürfen aber für legitime Zwecke, beispielsweise um konkrete Missbrauchsgefahren abzuwehren, eingeschränkt werden, solange es erforderlich ist und angemessen. Hier muss es eine breite internationale Debatte geben, welche Risiken und Chancen gerade diese Art von KI-Systemen haben und auch darüber, wo die Risiken die Chancen überwiegen und welche Bereiche von Staaten reguliert werden sollten.“

Dr. Philipp Kellmeyer

Neurowissenschaftler und Neurologe, Uniklinik Freiburg, und Mitglied der FRIAS Forschungsgruppe Responsible AI

Auf die Frage nach möglichen Missbrauchsgefahren des Modells:
„Neben dem schädlichen Potenzial von Fake News und anderen automatisiert erzeugten Inhalten erzeugen der zunehmende Realismus und die Menschenähnlichkeit von sprachbasierten Systemen zur Mensch-KI Interaktion ebenfalls ethische und rechtliche Herausforderungen. Falls in Zukunft für Nutzer nicht mehr sicher unterscheidbar ist, ob das Gespräch mit einem Menschen oder einem KI-System geführt wird, sollte geklärt werden, ob Menschen das Recht haben sollten, informiert zu werden, wenn sie mit einem KI-System kommunizieren und ob sich daraus eine Kennzeichnungspflicht für sprachbasierte KI-Systeme ergibt.“

Auf die Frage nach möglicher Regulierung solcher Forschung:
„Im Rahmen der Regulierung könnten auch Zertifizierungsstellen für digitale Inhalte in Zukunft eine wichtige Rolle spielen. So könnten beispielsweise Nachrichten (oder andere Inhalte) von einer benannten Stelle geprüft und mit einer digitalen Signatur versehen werden und auf Seiten der Nutzer Internet-Browser so einstellbar sein, dass nur Inhalte mit entsprechender Zertifizierung angezeigt werden. Inwieweit ein solcher ‚Nachrichten-TÜV‘ einer Flut von ‚Deep Fakes‘ standhalten kann, wird dann abzuwarten sein.“

Angaben zu möglichen Interessenkonflikten

Dr. Lena Frischlich: „Interessenskonflikte liegen m.E. nicht vor (ich kenne die Autor*innen nicht und bin selber nicht im Bereich NLP Entwicklung tätig).“

Prof. Dr. Sebastian Rudolph: „Aus meiner Sicht bestehen keine Interessenskonflikte.“

Alle anderen: Keine angegeben. 

Literaturstellen, die von Experten zitiert wurden

[1] Wired (2017): Ein neues Harry-Potter-Kapitel: Traut ihr euch?

[2] Peters M et al (2018): Deep contextualized word representations. 

Literaturstellen, die vom SMC zitiert wurden

[I] OpenAI Blog (2019): Better Language Models and Their Implications.

[II] Radford A et al. (2019): Language Models are Unsupervised Multitask Learners. 

[III] Devlin J et al. (2018): BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.

[IV] Peters M et al. (2018): Deep contextualized word representations.