KI-Textgeneratoren: neue Entwicklungen und mögliche gesellschaftliche Folgen

21.02.2019

 Von Algorithmen verfasste Texte sind inzwischen oft nur noch schwer zu unterscheiden von solchen menschlicher Autoren. Verlage können diese Technik nutzen, um billiger Nachrichten, Berichte oder Artikel schreiben und veröffentlichen zu lassen. Aber auch Lügengeschichten lassen sich mit dieser Technik schnell verfassen, bisweilen sogar so geschickt, dass sie Stil und Wortwahl von unverdächtigen Autoren ähneln. So berichtete die US-amerikanische Non-Profit-Forschungsorganisation OpenAI über ihr neues KI-Sprachmodell namens GPT-2 es sei so gut, dass sie den vollständigen Code nicht veröffentlichen wollten: Die Gefahr des Missbrauchs sei zu groß. Mit dem Code könnten automatisch Fake News in hoher Qualität und Masse erzeugt werden.

Tatsächlich lassen sich bei den von GPT-2 generierten Texten (und hier ab Seite 14) in den meisten Fällen noch Ungereimtheiten entdecken. Ein automatisches Fluten öffentlicher Debatten mit Fake News droht also noch nicht. Allerdings stellt das Modell nur einen Schritt in einer weiterlaufenden Entwicklung dar und kann auch in seiner jetzigen Form automatisch erfundene Artikel generieren. Eventuelle Ungereimtheiten lassen sich mit kleinem Überarbeitungsaufwand beseitigen. Es zeichnet sich ab: Fortschritte im Bereich des Natural Language Processing (NLP) und des maschinellen Lernens können und werden schon sehr bald tiefe gesellschaftliche Implikationen haben.

Dieses Living Fact Sheet bietet eine kommentierte Liste von Links zu entscheidenden und wichtigen Facetten dieses Themas für eine vertiefende Recherche. Es erhebt keinen Anspruch auf Vollständigkeit.

Allgemeine Erklärungen von Natural Language Processing (NLP) und maschinellem Lernen

 Eine kurze Erklärung im Stil eines Lexikoneintrags

Ein längerer Artikel, der auch auf historische Hintergründe und Sprache an sich eingeht

Ein Video über aktuelle Entwicklungen im Bereich des Deep Learning, das auch neue Entwicklungen bei NLP behandelt (Timecode 01:57 - 13:57)

Das Fact Sheet des Science Media Center zu maschinellem Lernen

OpenAI und ihr Sprachmodell GPT-2

Der Blog Post von OpenAI, in dem am 14. Februar 2019 das neue Modell GPT-2 vorgestellt wurde

Das dazugehörige Paper

Der dazugehörige veröffentlichte Code

Ein Blog von OpenAI, in dem betont wird, KI-Forscher müssten mit Sozialwissenschaftlern kooperieren, um ethisch verantwortlich zu arbeiten und sicherzustellen, dass die Modelle auch mit echten Menschen funktionieren und nicht nur in Simulationen

 Das dazugehörige Paper

Diskussion und Weiterführendes zu OpenAI

Ein freier Scraper, mit dem man selbst den Datensatz nachbauen kann, den OpenAI zum Trainieren ihres Sprachmodells benutzt, aber nicht veröffentlicht hat

Ein zusammenfassender Artikel über das OpenAI Modell mit Bezug auf die Hauptfelder von NLP, dort weiterführende Links

Ein Artikel, der das OpenAI Modell thematisiert. Besonderer Fokus: die Fragen, warum das Modell nicht ganz veröffentlicht wurde und warum es so viel mediale Aufmerksamkeit erzeugte

Weitere Diskussionen über das Modell, die große mediale Resonanz und die Methode der Veröffentlichung finden Sie hier und hier

 Ein Artikel, der dafür plädiert, das Modell komplett zu veröffentlichen, da so wissenschaftlicher Fortschritt gefördert würde und eine Veröffentlichung zu gesellschaftlichem Wissen um die manipulativen Technologien und somit eine verminderte Wirkung dieser führen würde

  Ein Artikel der KI-Entwicklerin Animashree Anandkumar. Sie vertritt den Standpunkt, dass die Gefahren durch das Modell übertrieben dargestellt werden und die Veröffentlichungspolitik der Wissenschaft schadet

Eine Zusammenfassung mit Erklärung des aktuellen Standes der Technik in NLP und mit besonderem Bezug auf die Umstände und das Timing der Veröffentlichung durch OpenAI

Weiteres aus dem Bereich NLP

Ein Erklärartikel zum Stand von NLP in der New York Times vom November 2018

Entwicklungsschritte im Bereich NLP und anderer Sprachmodelle

BERT  

Das Paper zu BERT (Bidirectional Encoder Representations from Transformers), einem weiteren Sprachmodell vom 11. Oktober 2018, das als maßgeblich für den Durchbruch von Deep Learning für NLP angesehen wird

Die Präsentation zu BERT

Eine kurze Zusammenfassung und Einschätzung von BERT

MT-DDN

Das Paper zu Microsofts neuem NLP Programm namens “Multi-Task Deep Neural Network” (MT-DNN) vom 31. Januar 2019

Ein Artikel über MT-DNN, das in 9 von 11 klassischen NLP-Tests besser abschneidet als Googles BERT

Stand: 21.02.2019