Zum Hauptinhalt springen
07.06.2023

Modell soll KI-geschriebene Texte entlarven

     

  • Studie: Modell kann mit hoher Wahrscheinlichkeit erkennen, ob wissenschaftlicher Text von KI stammt
  •  

  • allerdings nur bei spezifischen Texten und wenn die KI-Texte mit der gleichen Eingabeaufforderung erstellt wurden
  •  

  • unabhängige Forschende betonen, dass der Ansatz kaum generalisierbar ist, Detektion von Autorenschaft bei Texten generell schwierig
  •  

Ein in einer Studie aus dem Fachjournal „Cell Reports Physical Science“ vorgestelltes Modell kann bei bestimmten wissenschaftlichen Texten mit einer Genauigkeit von über 90 Prozent voraussagen, ob der Text von einem Menschen oder einer KI verfasst wurde (siehe Primärquelle). In einigen Fällen erzielte das Modell bei der richtigen Zuteilung in KI- und menschengenerierte Texte eine Genauigkeit von 99,5 Prozent.

Die Autorinnen und Autoren haben zunächst Unterschiede in der Struktur von durch Menschen verfasste „Perspectives“ aus dem Fachjournal „Science“ und von ChatGPT verfassten Texten mit dem Thema dieser Perspectives ausgemacht. Perspectives sind kurze, von Forschenden verfasste Artikel, die einen Überblick über ein bestimmtes Forschungsthema oder -ergebnis geben und weiteren Kontext oder neue Perspektiven hinzufügen sollen [I]. Zu den Unterschieden zählte zum Beispiel die Länge von Sätzen, die Länge von Paragrafen und die Verwendung bestimmter Satzzeichen. Auf Basis dieser Unterschiede kann das Modell laut den Autorinnen und Autoren recht genau identifizieren, ob der Text von einem Menschen oder ChatGPT verfasst wurde.

Allerdings gibt es einige Limitationen, die die Aussagekraft der Studie einschränken. Der Trainingsdatensatz ist recht klein: 64 von Menschen verfasste und 128 von ChatGPT erstellte Perspectives. Außerdem wurde das Modell nur an Perspectives aus „Science“ trainiert und überprüft, weshalb eine gute Leistung bei der Detektion der Autorenschaft genau solcher Texte erst einmal nicht überraschend scheint. Zuletzt wurden die von ChatGPT verfassten Texte immer mit der gleichen Eingabeaufforderung (Prompt) erstellt: „Can you produce a 300 to 400 word summary on this topic: […]“. Auch das kann dazu führen, dass die ausgegebenen KI-generierten Texte eine untereinander ähnliche Struktur aufweisen, die dann gegebenenfalls auch leichter automatisiert zu erkennen ist.

Um den Stellenwert dieser Studie und die möglichen Einschränkungen einzuschätzen sowie den Stand der Forschung zur automatisierten Erkennung KI-generierter Texte darzulegen, haben wir Expertinnen und Experten um Statements gebeten.

Übersicht

     

  • Prof. Dr. Iryna Gurevych, Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt
    und Ji-Ung Lee, Doktorand, Technische Universität Darmstadt
  •  

  • Prof. Dr. Chris Biemann, Professor für Sprachtechnologie, Fachbereich Informatik, Universität Hamburg
  •  

  • Prof. Dr. Martin Steinebach, Abteilungsleiter Media Security und IT Forensics, Fraunhofer Institut für Sichere Informationstechnologie SIT|ATHENE, Darmstadt
    und Inna Vogel, Wissenschaftliche Mitarbeiterin in der Abteilung Media Security and IT Forensics, Fraunhofer Institut für Sichere Informationstechnologie SIT|ATHENE, Darmstadt
  •  

  • Prof. Dr. Korbinian Riedhammer, Professor für Informatik, Technische Hochschule Nürnberg Georg Simon Ohm
  •  

Statements

Prof. Dr. Iryna Gurevych

Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt

Ji-Ung Lee

Doktorand, Technische Universität Darmstadt

Auf die Frage nach der Methodik der Studie und ob die gezogenen Schlüsse gerechtfertigt sind:
„Die generelle Methodik ist nicht neu; bereits vor der großen Popularität von Deep Learning war es ein gängiger Ansatz, manuell Features für die Textklassifikation zu definieren. Ein wesentliches Problem der Studie ist die Wahl eines sehr schwachen Vergleichsmodells (GPT-2 Output Detector). Dieses hat kein fine-tuning auf wissenschaftliche Texte erfahren (‚untuned‘) und wurde zudem lediglich für die Erkennung von GPT-2-generierten Texten trainiert. Daher ist es nicht verwunderlich, dass das Vergleichsmodell schlechter als das stark spezialisierte Modell aus der Studie abschneidet.“

„Die Schlüsse, die die Autor:innen ziehen, lassen sich dementsprechend nur auf den studienspezifischen Datensatz treffen. Einige Schlüsse sind zudem nicht korrekt; beispielsweise heißt es, dass das Vergleichsmodell ‚inferior to the method […] for every assessment conducted‘ sei. Aus Figure 1 wird aber ersichtlich, dass das hier vorgestellte Modell größere Probleme hat, da es menschliche Texte oft fälschlicherweise als KI-generierte Texte klassifiziert.“

Auf die Frage, wie vielversprechend der in der Studie vorgestellte Ansatz ist und ob er auf andere Bereiche erweitert werden kann:
„Einer der zentralen Gründe, wieso featurebasierte Modelle in der aktuellen Forschung kaum eine Anwendung finden, ist die eingeschränkte Generalisierbarkeit der verwendeten Features. Bei einer Sichtung der hier verwendeten Features wird klar, dass einige sehr stark auf den wissenschaftlichen Bereich zugeschnitten sind – zum Beispiel die Verwendung von Semikolons. Gleichzeitig deutet die Verwendung von expliziten Satzlängen – zum Beispiel ‚über 34 Wörter‘ – darauf hin, dass ein starkes ‚Overfitting‘ des Modells auf den spezifischen Datensatz stattgefunden haben könnte. Um dies genauer zu untersuchen, sind Ablationsstudien eine gängige Praxis. Hierfür trainiert man systematisch weitere Modelle mit variierenden Featurekombinationen und untersucht deren Einfluss auf die Performanz. Eine solche Ablationsstudie, sowie Experimente, die Hinweise auf eine domänenübergreifende Übertragbarkeit geben könnten – zum Beispiel mit nicht-wissenschaftlichen Texten –, fehlen leider in dieser Studie. Entsprechend ist nicht klar, wie gut das Modell auf Texten anderer wissenschaftlicher Domänen generalisiert, ganz zu schweigen von Texten außerhalb des wissenschaftlichen Kontexts. Zudem ist die manuelle Sichtung von Tausenden von Texten zur Erstellung von Features einfach nicht gut skalierbar.“

Auf die Frage, wie zuverlässig solche Ansätze sein können, wenn die KI-Generierung der Texte angepasst wird, beispielsweise durch veränderte Prompts:
„Während featurebasierte Ansätze den Vorteil haben, dass diese einfacher zu interpretieren sind, ist ein wesentliches Problem, dass man dadurch die Prompts mit wenig Aufwand anpassen kann. Beispielsweise könnte man das Modell einfach dazu anweisen, längere Sätze zu generieren. Um dieses Problem zu umgehen, diskutieren die Autor:innen die Möglichkeit, den Zugang zu solchen Detektoren einzuschränken, was allerdings dazu führen könnte, dass nur Institutionen und Firmen mit ausreichend Ressourcen sich diesen leisten können. Speziell in dieser Studie sind allerdings die zur Textgenerierung verwendeten Prompts ein großes Problem. Diese sind sehr einfach gehalten: ‚Can you produce a 300- to 400-word summary on this topic: […]‘.Da dem Modell (ChatGPT) in keiner Weise mitgeteilt wird, dass der generierte Text einen wissenschaftlichen Kontext haben soll, kann man auch nicht erwarten, dass es einen wissenschaftlichen Text generiert. Es ist gut denkbar, dass bereits eine minimale Anpassung (beispielsweise ‚Can you produce a […] scientific abstract […]‘) dazu führt, dass die generierten Texte von den hier verwendeten Features nicht mehr gut klassifiziert werden.“

Auf die Frage, wie weit die Forschung bei der automatisierten Erkennung von KI-generierten Texten ist:
„Die automatisierte Erkennung von KI-generierten Texten ist ein sehr aktives Forschungsfeld, welches mit ChatGPT zunehmend an Aufmerksamkeit gewonnen hat. Im Wesentlichen kann man den in dieser Studie vorgestellten Ansatz sowie auch Modelle wie Detect-GPT-2 unter Black-Box-Detektoren kategorisieren. Hier ist die Annahme, dass man nur den Zugang zum generierten Text hat. Man trainiert entsprechende Klassifikatoren, deren Performanz allerdings stark von den Trainingsdaten abhängig ist. Eine weitere Kategorie sind sogenannte White-Box-Detektoren, die zum generierten Text zusätzlich die Perplexität betrachten. Perplexität ist eine Metrik, die abschätzt, wie gut ein Modell die Trainingsdaten für die Generierung gelernt hat (je niedriger, desto besser). Da Sprachmodelle darauf trainiert werden, die Perplexität zu minimieren, ist diese in generierten Texten oftmals niedriger und unterliegt geringeren Schwankungen als in von Menschen verfassten Texten. Sind Modelle nicht offen verfügbar (zum Beispiel GPT-4), kann man ein ähnliches Modell (zum Beispiel GPT-2) zur Bestimmung der Perplexität heranziehen. Eine letzte Methode sind Wasserzeichen, die von dem Generatormodell eingebaut werden sollen. Während dies bei Bildern ein bewährtes Verfahren ist, ist es für Sprache nicht so einfach, da diese einen diskreten Ergebnisraum hat. Letztlich kann die Entwicklung von Detektoren immer nur reaktiv und nicht proaktiv sein, da nicht abzuschätzen ist, welche neuen Modelle in Zukunft entwickelt werden. Hierfür wäre eine breite Entwicklung unter Berücksichtigung verschiedener Domänen, Sprachen und Generatoren notwendig. Einen ersten Schritt hierfür unternimmt ein kürzlich erschienenes Preprint [1].“

„Da solche automatischen Detektoren nie perfekt sein werden, ist ein weiterer wichtiger Aspekt die Unterscheidung zwischen False-Positives (menschliche Texte werden fälschlicherweise als KI-generiert erkannt) und False-Negatives (KI-generierte Texte werden nicht als solche erkannt). Abhängig vom jeweiligen Anwendungsszenario kann ein fälschlich als KI-generiert markierter Text deutlich mehr Schaden anrichten als ein KI-generierter Text, der nicht als solcher erkannt wird. Es gibt beispielsweise Hinweise darauf, dass einige Detektoren dazu neigen, englische Texte von Nicht-Muttersprachlern häufiger fälschlich als KI-generiert zu klassifizieren, was diese im wissenschaftlichen Prozess wesentlich benachteiligen könnte [2]. Dies beobachtet man auch im hier vorgestellten Ansatz, der in diesem Punkt eine schlechtere Performanz hat als das Vergleichsmodell. Gleichzeitig kann im Bereich der Fake-News-Erkennung ein Fehler fatale Konsequenzen haben, wenn ein KI-generierter Text mit Falschaussagen nicht als solcher erkannt wird.“

„KI-basierte Textgeneratoren und deren Texte werden wohl fortan ein fester Bestandteil im gesellschaftlichen Miteinander bleiben. Letztlich können sie auch in diversen Berufsfeldern die Arbeit deutlich vereinfachen, beispielsweise indem sie Ärzt:innen das Verfassen von Patient:innenberichten erleichtern. Gleichzeitig wird es mit zunehmender Mensch-Maschine-Kollaboration – also hybrider Textproduktion – schwieriger werden, eine Grenze zwischen KI-generierten und menschlichen Texten zu ziehen. Bei Plagiaten im universitären Kontext war dies jedoch schon lange vor KI-basierter Textgenerierung der Fall. Vermutlich wird sich die Forschung in Zukunft auch mehr auf die Überprüfung der Fakten fokussieren müssen; denn falsche Fakten können unabhängig davon, ob der Text KI-generiert ist oder nicht, einen erheblichen Schaden anrichten. So kam es beispielsweise kürzlich dazu, dass Zitate aus von ChatGPT frei erfundenen Rechtsfällen als Teil der Anklageschrift vor Gericht landeten und erst durch den Richter entlarvt wurden [3]. Gerade bei KI-Modellen wie ChatGPT, die dafür bekannt sind, Fakten zu ‚halluzinieren‘, ist es umso wichtiger, eine Möglichkeit zur Überprüfung zu haben.“

Prof. Dr. Chris Biemann

Professor für Sprachtechnologie, Fachbereich Informatik, Universität Hamburg

„Die Studie ist methodisch ok, hat jedoch einen methodischen Fehler: Um zu vermeiden, dass das manuelle Erstellen der Features vom Testset beeinflusst wird, arbeitet man normalerweise auf einem Development Set und einem Testset. Und man schreibt die Genauigkeit auf dem Trainingsset nicht in den Artikel, denn hier 100 Prozent zu erreichen, ist trivial. Dieser Fehler ist nicht besonders schwerwiegend, da die Autor:innen ja noch ein zweites Testset nutzen, aber diese perfekte Klassifikation auf Doc-Ebene ist schon verdächtig. Sowas führt oftmals zu Overfitting, das heißt, es funktioniert sehr gut, aber eben nur auf diesem einen Datensatz. Es ist zu vermuten, dass der OpenAI-Detektor auf (fast) allen anderen Datensätzen dieser Art besser funktionieren würde.“

„Die Schlüsse aus der Studie sind viel zu weitreichend. Dass die Sprache in wissenschaftlichen Abstracts sich von der Sprache, die ChatGPT generiert, unterscheidet, ist nicht besonders überraschend. Die Prompts lieferten ChatGPT auch keine Hinweise, dass es besonders wissenschaftlich schreiben soll; dies wird in der Studie durchaus auch erwähnt. Viel interessanter wäre, hier noch Prompt Engineering zu betreiben, oder Feintuning von GPT auf den Zieltexten.“

„Der Ansatz ist sehr rudimentär, er steht ungefähr auf der Entwicklungsstufe von Autor:innenerkennung von vor 20 Jahren und ist extrem leicht zu täuschen. Aus Sicht der Sprachtechnologie ist er veraltet: Keine:r der Autor:innen hat einen entsprechenden technischen Hintergrund und das Papier erscheint ja auch in einem für Sprachtechnologie obskuren Journal. Der Datensatz ist sehr klein und aus Klassifikationssicht sehr einfach. Der Ansatz an sich kann zwar im Prinzip auf alle Arten von Erkennung ausgeweitet werden, allerdings sind Gegenmaßnahmen der Täuschenden nicht mitgedacht und beschränken sich auf einfache Hinweise an ChatGPT. Ein methodisch interessanter Ansatz würde adversarial learning nutzen, um den Klassifikator besonders gut zu machen und gleichzeitig GPT die Chance zu geben, den Klassifikator möglichst gut auszutricksen.“

„Die Erkennung KI-generierter Texte ist ein aktives Forschungsfeld. Mir sind keine Ansätze bekannt, die zuverlässig funktionieren würden, wenn eben nicht nur irgendwelcher Output von großen Sprachmodellen beurteilt wird, sondern die diesen Text anfordernden Menschen sich um dessen inhaltliche und stilistische Plausibilität kümmern. Während das unveränderte Verwenden KI-generierter Texte durch Dinge wie digitale Wasserzeichen überprüft werden kann, gilt dies nicht für mit geringem Aufwand nachbearbeitete Texte. Und hier stellt sich die Frage: Wo ist die Grenze des Erlaubten?“

Prof. Dr. Martin Steinebach

Abteilungsleiter Media Security und IT Forensics, Fraunhofer Institut für Sichere Informationstechnologie SIT|ATHENE, Darmstadt

Inna Vogel

Wissenschaftliche Mitarbeiterin in der Abteilung Media Security and IT Forensics, Fraunhofer Institut für Sichere Informationstechnologie SIT|ATHENE, Darmstadt

„Das Paper beschreibt einen gut nachvollziehbaren und methodisch sauberen Ansatz, von Menschen und von ChatGPT erstellte Texte zu unterscheiden. Problematisch ist hierbei, dass durch die Überschrift und die aktuelle öffentliche Diskussion schnell eine falsche Erwartung erzeugt werden kann: Die Öffentlichkeit wird hier eine generelle Erkennbarkeit vermuten, wodurch synthetisch erstellte Schulaufsätze, Spam-Nachrichten und Desinformationen mit hoher Zuverlässigkeit identifiziert werden können. Tatsächlich liegt aber ein sehr spezifischer, kleiner Ausschnitt aus der Menge aller vorstellbarer Texte der Untersuchung zugrunde. Die Aussage der Arbeit ist also eher, dass für einen wohldefinierten Fall, bei dem ein homogener Schreibstil mit formalen Anforderungen sowie ein sich ähnelndes Profil der Autoren erwartet werden kann, eine zuverlässige Unterscheidung möglich ist.“

„Ähnliche Phänomene kennt die Wissenschaft schon lange. So gibt es Experimente, die beispielsweise eine sehr hohe Erkennbarkeit von Desinformation, Hate Speech oder Cybergrooming belegen, welche in der Praxis nicht zu erwarten ist. Das liegt an einer abgeschlossenen, im Vergleich zur Praxis viel überschaubareren Datengrundlage. Richtet sich Desinformation in der Datensammlung beispielsweise nur gegen eine bestimmte Organisation und eine von ihr ausgehende Handlung, lässt sich die Argumentation viel einfacher erkennen und erlernen, als wenn ganz allgemein Desinformation zu jedem beliebigen Thema erkannt werden soll. In eigenen Experimenten konnten wir beispielsweise auch sehr zuverlässig Satire und Desinformation unterscheiden, was allerdings tatsächlich eher eine Unterscheidung einer Website mit satirischen Inhalten und einer anderen mit Desinformationen darstellte. Wird hier jeweils ein eigener prägnanter Stil gepflegt, kann dieser zur Erkennung führen, völlig unabhängig von einer tatsächlichen Trennung von Satire und Desinformation.“

Auf die Frage nach der Methodik der Studie und ob die gezogenen Schlüsse gerechtfertigt sind:
„Methodisch ist die Studie gut durchgeführt und entspricht der gängigen Praxis im Forschungsbericht des maschinellen Lernens und Information Retrieval. Es wurde ein Datensatz mit zwei Klassen erstellt und eine quantitative Analyse durchgeführt (indem Merkmale, die sogenannten ‚handcrafted features‘, statistisch erkannt wurden), die als Grundlage für den maschinellen Lernalgorithmus (XGBoost) eingesetzt wurden. Auch die gewählte Evaluierungsmethode entspricht der gängigen Praxis.“

„Die Schlüsse, die die Autoren ziehen (über 99 Prozent Genauigkeit) sind für den Ansatz gerechtfertigt, ob diese auf andere Datensätze übertragen werden können, ist fraglich. So sind die stärksten beiden diskriminierenden Merkmale die Satzlänge und die Anzahl der Wörter pro Paragraf. Das lässt schlussfolgern, dass Menschen eher dazu tendieren, längere und komplexere Paragrafen zu schreiben als die KI. In den Texten zum selben Thema lässt sich erkennen, dass ChatGPT dazu tendiert, kürzere und kompaktere Paragrafen zu schreiben als ein Mensch.“

„Die Autoren schreiben, dass sie für das Training 64 Artikel aus dem Magazin ‚Science‘ verwendet haben, aber doppelt so viele (128) ChatGPT-Artikel. Oft ist es so, dass man eher versucht, die Klassenverteilung ungefähr gleich zu halten (balanced dataset), um auch bei der Evaluierung sicher zu gehen, dass der Klassifikator von beiden Klassen gut gelernt hat und die Ergebnisse nicht verzerrt sind. Auch für den Testdatensatz wurden doppelt so viele ChatGPT-Artikel verwendet.“

„Zudem zeigen die Autoren auch, dass die Genauigkeit des Ansatzes abnimmt (von 100 Prozent auf 92 Prozent), wenn nur die Paragrafen statt ganzer Textdokumente klassifiziert werden. Der Ansatz ist also nur auf ganze Dokumente anwendbar. Fraglich ist auch, ob in wissenschaftlichen Arbeiten (zum Beispiel Paper) der Gesamttext der KI für die Arbeiten übernommen wird (auch in der exakt ausgegebenen Paragrafen-Struktur) und nicht doch angepasst und verändert wird. Dass längere Texte – also ganze Abschnitte – als eigene wissenschaftliche Leistung ausgegeben werden, ist vermutlich eher unwahrscheinlich, einzelne Paragrafen aus ChatGPT übernehmen ist da eher denkbar. Dass ganze ChatGPT-Ausgaben übernommen werden, ist zum Beispiel eher in schulischen Aufsätzen oder journalistischen Artikeln denkbar.“

Auf die Frage, wie vielversprechend der in der Studie vorgestellte Ansatz ist und ob er auf andere Bereiche erweitert werden kann:
„Die Autoren schreiben selbst, dass der Ansatz für einen speziellen Fall des ‚academic writing‘ entwickelt und getestet wurde, und dass weitere Forschungen notwendig sind, um die Übertragbarkeit auf andere Domänen zu erforschen und zu testen.“

„Es ist anzunehmen, dass der vorgeschlagene Ansatz nur unter den gegebenen Bedingungen zu gewünschten Ergebnissen führt. Es ist davon auszugehen, dass akademische Arbeiten ein höheres Sprachniveau aufweisen, nicht nur von der Komplexität der Sätze, sondern auch vom wissenschaftlichen Vokabular. ChatGPT auf der anderen Seite schreibt in einer Art, die von den meisten Menschen verstanden und nachvollzogen werden kann. Interessant wäre in diesem Zusammenhang zu sehen, wie die Klassifizierung von den akademischen Texten auf der einen und zum Beispiel journalistischen Texten oder schulischen Aufsätzen (sprich Texte, die nicht durch ChatGPT verfasst wurden) auf der anderen Seite aussehen würde. Denn beispielsweise werden journalistische Texte so verfasst, dass sie von der Allgemeinheit verstanden werden können (sprich weniger komplex als Fachjournals). Auch wird in akademischen Arbeiten mehr zitiert, was ChatGPT, zumindest die Version GPT-3.5, sehr schlecht, bis gar nicht kann. Das haben die Autoren auch als ein Merkmal für das Training übernommen, nämlich mit dem Feature ‚et‘ (wie in et al.). Die Eigenart von ChatGPT haben die Autoren ebenfalls als Feature für das Training des Modells verwendet, denn ChatGPT verwendet des Öfteren die Formulierungen ‚others‘ oder ‚researcher‘ statt die genauen Quellen und Autoren zu zitieren (wie das in wissenschaftlichen Arbeiten üblich ist). Außerdem gibt es bereits mit GPT-4 eine verbesserte Version. Ob diese ‚akademischer‘ schreiben kann, müsste in weiteren Arbeiten geprüft werden.“

Auf die Frage, wie zuverlässig solche Ansätze sein können, wenn die KI-Generierung der Texte angepasst wird, beispielsweise durch veränderte Prompts:
„Zu ‚creative prompt engineering‘ haben wir ein kleines Experiment durchgeführt. Da die ‚Science‘-Artikel nicht open-access sind, konnten wir nur die Abstracts zur Klassifizierung (von KI oder Mensch geschrieben) mittels ‚GPT-2 Output Detector Demo [4]‘ verwenden, den Ansatz haben die Autoren als Baseline für ihre Arbeit verwendet. Zunächst haben wir das Originalabstract genommen und das als KI oder Mensch klassifizieren lassen. Als Nächstes haben wir dem Prompt die Anweisung gegeben, wie in der Studie einen ähnlichen Abstract zu schreiben ‚Can you produce a 100 to 150 word abstract on this topic: Überschrift des jeweiligen Titels‘. Als letzten Schritt haben wir die Anweisung gegeben, den Abstract wissenschaftlicher zu verfassen mit ‚Can you write a 100 to 150 word abstract on this topic in a scientific style: Überschrift des jeweiligen Titels‘.“

„In diesem Beispiel (was selbst leicht reproduziert werden kann) ist ersichtlich, was die Schwierigkeit bei der Erkennung von KI-generierten Texten ist – nämlich ‚prompt engineering‘. Wird der Prompt wie im Paper gebeten, einen ähnlichen Artikel zu schreiben, wird das zumindest im vorherigen Beispiel als eindeutig Fake erkannt. Wird allerdings der Prompt etwas angepasst, nämlich wissenschaftlicher zu schreiben, wird dieser KI-generierte Text als fast 100 Prozent als vom Menschen geschrieben erkannt. Das ist selbstverständlich nur ein Beispiel, aber auch bei weiteren Versuchen ging die Erkennung als KI-geschrieben nach dem Prompt Engineering deutlich nach unten, wie in diesem Beispiel:“

Die Bilder zu den von Prof. Dr. Martin Steinebach und Inna Vogel durchgeführten Experimenten finden Sie hier: Experiment 1, Experiment 2.

„Der Prompt könnte auch beispielsweise wie folgt angepasst werden: ‚write in a tone not typical for AI‘ oder ‚write like the scientist XY‘. ChatGPT ist auch lernfähig und kann den eigenen Schreibstil erlernen. Im akademischen Bereich können als weiterer Schritt nach ChatGPT auch Paraphrasierungstools eingesetzt werden, die den Text nochmal deutlich umformulieren. Ob dann noch Features wie die Wörter ‚however‘, ‚but‘, oder ‚this‘ zur Klassifizierung funktionieren, ist eher unwahrscheinlich. Die Quintessenz ist, dass Prompt Engineering ein wichtiger Faktor bei der Analyse sein sollte. Aber die Autoren schreiben ja auch selbst: ‚We note, though, that our approach was designed to be applicable to a narrower scope of writing, and the extent to which the model is broadly translatable is yet to be determined‘.“

Auf die Frage, wie weit die Forschung bei der automatisierten Erkennung von KI-generierten Texten ist:
„ChatGPT ist momentan ein ‚hot topic‘ nicht nur in der Wissenschaft. Verfahren zur Erkennung von KI-generierten Texten gibt es momentan einige, weitere werden sicherlich folgen. Generell lässt sich sagen, je kürzer der Text, desto schwieriger ist die KI-Autorschaft feststellbar.“

„Ein Vorschlag der Forscher der Universität Maryland ist das ‚Watermarking‘-Verfahren [5]. Sie zeigen, wie sich digitale Wasserzeichen (durch Einfügen bestimmter Wörter, für den Menschen nicht bemerkbar) in maschinell generierte Texte einflechten lassen, sodass direkt angezeigt werden kann, dass es sich hier um einen KI-Text handelt, der ohne menschliche Hilfe entstanden ist. Dieser Ansatz hat eine Genauigkeit von 99,6 Prozent bei Nachrichtentexten erreicht. Bei diesem Ansatz kann ein Text erkannt werden, der von einem beliebigen Modell erzeugt wurde, welches das Wasserzeichen-verfahren implementiert. Angreifer können es aber umgehen, indem sie den generierten Text beispielsweise paraphrasieren oder die Wörter, die heimlich eingefügt werden, kennen.“

„Ein im Januar dieses Jahres vorgestelltes Verfahren [6] wurde ähnlich wie die aktuelle Studie durchgeführt. Die Autoren haben ein vortrainiertes DistilBERT-Modell ‚fine-getuned‘, um Restaurant-Reviews zu klassifizieren, ob diese vom Menschen oder ChatGPT verfasst wurden. Eine Genauigkeit von 98 Prozent wurde erreicht. Aber auch bei diesem Ansatz müssten verschiedene Textsorten und Prompteingaben sowie Textgeneratoren (es gibt ja nicht nur ChatGPT) vom Modell getestet werden, welche die Klassifikation beeinflussen können.“

„Weitere bekannte Verfahren sind DetectGPT [7] oder GPTZero [8].“

„Zusammenfassung: Die Studie wurde nach den gängigen wissenschaftlichen Maßstäben durchgeführt. Allerdings sind die Ergebnisse nur für die ausgewählte Textsorte und -länge (nämlich das gesamte Dokument, nicht einzelne Paragrafen) und Prompteingabe gültig und lassen sich nicht generisch übertragen. Auch andere veröffentlichte Verfahren haben ihre Schwachstellen und lassen sich nicht generalisieren beziehungsweise sind angreifbar. Je kürzer der Text, desto schwieriger ist die Feststellung der Urheberschaft. Im Moment müssen wir uns damit abfinden, dass wir nicht zuverlässig zwischen menschlichem und maschinell erstelltem Text unterscheiden können. Die Erkennungstools können vielleicht eine Hilfestellung geben bei Verdacht, sodass jemand nicht fälschlicherweise des Plagiats beschuldigt wird [9].“

Prof. Dr. Korbinian Riedhammer

Professor für Informatik, Technische Hochschule Nürnberg Georg Simon Ohm

„Ein Nachweis des Einsatzes eines KI-Systems ist quasi unmöglich, sofern das große Sprachmodell (Large Language Model, LLM) ‚gut genug‘ ist. Insofern ist der aktuelle Artikel eher Effekthascherei und mit Blick auf die Leistungsfähigkeit aktueller (öffentlich zugänglicher) LLMs sogar kontraproduktiv. Ein Preprint befasst sich auch mit genau dieser Frage [10].“

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Chris Biemann: „Ich habe keinerlei Interessenkonflikte.“

Alle anderen: Keine Angaben erhalten.

Primärquellen

Desaire H et al. (2023): Distinguishing academic science writing fromhumans or ChatGPT with over 99% accuracyusing off-the-shelf machine learning tools. Cell Reports Physical Science. DOI: 10.1016/j.xcrp.2023.101426.

Literaturstellen, die von den Experten zitiert wurden

[1] Wang Y et al. (2023): M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection. Arxiv.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.

[2] Liang W et al. (2023): GPT detectors are biased against non-native English writers. Arxiv.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.

[3] Armstrong K (27.05.2023): ChatGPT: US lawyer admits using AI for case research. BBC.

[4] OpenAI: GPT-2 Output Detector Demo.

[5] Kirchenbauer J et al. (2023): A Watermark for Large Language Models. DeepAI.

[6] Mitrović S et al. (2023): ChatGPT or Human? Detect and Explain. Explaining Decisions of Machine Learning Model for Detecting Short ChatGPT-generated Text. Arxiv.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.

[7] Mitchell E (2023): DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. Arxiv.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.

[8] GPTZero. KI-Detektor.

[9] Fowler GA (03.04.2023): We tested a new ChatGPT-detector for teachers. It flagged an innocent student. The Washington Post.

[10] Sadasivan VS et al. (2023): Can AI-Generated Text be Reliably Detected? Arxiv.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.