Halluzinationen in Sprachmodellen reduzieren
Halluzinationen von Sprachmodellen sind ein bekanntes Problem und schränken deren Verlässlichkeit ein
Studie stellt Methode vor, um Teil der Halluzinationen erkennen und reduzieren zu können
unabhängige Forschende: Studie ist solide und potenziell hilfreich, hat aber Einschränkungen und ist kein Allheilmittel
Große Sprachmodelle wie ChatGPT geben teilweise unsinnige und falsche Antworten, in denen sie sich auf vermeintliche Daten oder Fakten beziehen, die nicht korrekt sind. Für dieses Verhalten hat sich der Begriff „Halluzination“ etabliert, da die Modelle sich diese falschen Fakten einzubilden scheinen – auch wenn der Begriff teilweise kritisiert wird, da er die Sprachmodelle vermenschlicht. Solche Halluzinationen dürften die meisten Personen, die schon einmal ein Sprachmodell verwendet haben, bereits erlebt haben. Am 19.06.2024 ist im Fachjournal „Nature“ eine Studie erschienen, in der die Autoren eine Methode vorstellen, um gewisse Halluzinationen bei Sprachmodellen vorhersagen und gegebenenfalls reduzieren zu können (siehe Primärquelle).
Professor für die Methoden des Maschinellen Lernens, Eberhard Karls Universität Tübingen
Inhalt und Methodik der Studie
„Die Autoren entwickeln eine mathematische Methode, die in bestimmten Situationen darauf hinweisen kann, dass eine Sprach-KI Fakten ‚erfindet‘. Sie lassen dazu das Modell mehrere mögliche Antworten generieren. Wenn die Antworten sich inhaltlich stark unterscheiden, dann sind sie vermutlich unzuverlässig. Wenn die Sätze lediglich unterschiedlich formulierte Versionen der gleichen Aussage sind, dann scheint das Modell sich sicher in der Antwort zu sein.“
„Eine Herausforderung ist dabei, dass ‚inhaltliche Ähnlichkeit‘ nur ein vager Begriff ist, der sich nicht vollständig in rigorose Mathematik übersetzen lässt. Hier bedienen sich die Autoren eines Kniffs und bitten ein zweites, separates Sprachmodell, die Ausgaben des ersten Modells nach ihrem Inhalt in ähnliche Aussagen zu gruppieren, die dann alle als äquivalent gezählt werden. Das beschränkt die Zuverlässigkeit der ganzen Methode etwas, da man sich natürlich nicht vollständig darauf verlassen kann, wie gut dieses zweite ‚Lektoren-Modell‘ in seiner Aufgabe ist. Wir sehen im Feld mehr und mehr solcher Hilfskonstruktionen in denen KI-Modelle benutzt werden, um andere Modelle zu überwachen oder zu vermessen. Für wie sinnvoll sich diese Technik langfristig erweisen wird, das bleibt abzuwarten.“
Beitrag der Studie zum Forschungsstand
„Von diesem technischen Detail abgesehen: Die Studie liefert ein Hilfsmittel, um eine wichtige Form von KI-Fehlverhalten zu erkennen. Sie ist aber kein Allheilmittel. Wenn ein KI-Modell von einer objektiv falschen Aussage ‚überzeugt‘ ist, zum Beispiel weil diese in den Trainingsdaten der KI falsch enthalten ist oder weil das Modell schlecht trainiert wurde, dann hilft diese neue Methode nicht weiter – beziehungsweise suggeriert sogar falsche Sicherheit.“
„Außerdem kann diese Methode nur vom Betreiber der KI, nicht vom Endnutzer eingesetzt werden. Es steht zu erwarten, dass die neu entstehenden KI-Unternehmen derartige Methoden mehr und mehr ‚unter der Haube‘ einsetzen, um Sprachmodelle zuverlässiger zu machen. Als Endnutzer merkt man dann lediglich, dass die Qualität der Ausgaben besser wird.“
Professorin für Maschinelles Lernen, Universität Bielefeld
Inhalt und Methodik der Studie
„Das Paper schlägt eine Methode zur Detektion epistemischer Unsicherheit generativer LLMs (Large Language Models, große Sprachmodelle) vor. Es soll detektiert werden, wann das LLM mehrere mögliche Antworten generiert, die aber semantisch sehr verschieden sind – das LLM also ‚fabuliert‘. Die Methode ist technologisch relativ einfach und sie ist für 30 Modelle und Aufgaben evaluiert. Es werden nicht generell Halluzinationen detektiert, sondern nur solche Szenarien, wo das bereits trainierte LLM nicht sicher ist. Zudem werden solche ‚Konfabulationen‘ auch nur mit einer gewissen Wahrscheinlichkeit detektiert, die Methode verspricht keine Garantien. Es handelt sich nicht um eine Methode und deren Evaluation an Daten – das Paper ist also keine Studie im klassischen Sinne.“
Stand der Forschung zur Reduzierung von Halluzinationen
„Intrinsische Ansätze, wie der gegebene, versuchen statistisch merkwürdige Situationen bei LLMs auszuschließen. Extrinsische Ansätze gleichen die generierten Texte mit explizitem Wissen ab, sie benutzen etwa explizit Information aus Wissensgraphen. Nur letztere Ansätze können beweisbar korrekte Antworten liefern, intrinsische Ansätze sind hier grundsätzlich beschränkt, wenn auch in der Beobachtung häufig sehr gut.“
„Das Schätzen aleatorischer Unsicherheit (natürliche, den Daten inhärente Schwankungen und Unsicherheiten; Anm. d. Red.) mithilfe von Entropie ist ein Standardverfahren im Bereich des maschinellen Lernens. Neu ist die Gruppierung semantisch gleicher Antworten in diesem Kontext, wenn auch meiner Meinung nach nicht wirklich überraschend. Das kann man vermutlich in großem Stil und effizient anwenden – allerdings findet das nur einen Teil von Halluzinationen, nämlich nur Konfabulationen, und liefert keine beweisbar korrekten Antworten.“
Potenzial unterschiedlicher Ansätze zur Reduzierung von Halluzinationen
„Insbesondere die Verknüpfung von LLMs mit explizitem symbolischem Wissen (etwa Wissensgraphen) birgt großes Potenzial, aber ist natürlich auf solche Bereiche beschränkt, wo dieses Wissen explizit vorhanden ist. Rein auf LLMs basierende Ansätze werden durch die Größe der LLMs und die massive Menge an Trainingsdaten auch immer besser, unterliegen aber prinzipiellen Beschränkungen – etwa im Sinne dessen, was diese Architekturen prinzipiell berechnen können.“
Fazit
„Ich halte den Ansatz im Paper für gut, aber nicht besonders überraschend, und er adressiert ja auch gar nicht generell Halluzinationen. Das Problem genereller Halluzinationen ist aktuell noch weitgehend ungelöst. Nature-Artikel zu algorithmischen Methoden wie dieser sind aber sowieso eher ungewöhnlich und immer ein wenig Ergebnis des Zeitgeists.“
„Ich habe keine formale Kollaboration oder andere direkte Kontakte zu den Autoren. Der Senior-Autor Yarin Gal ist wie ich Fellow des European Laboratory for Learning and Intelligent Systems (ELLIS), wir sind uns flüchtig persönlich bekannt. Aus meiner Sicht erwächst daraus aber kein Interessenkonflikt.“
„Es bestehen keine Interessenkonflikte.“
Primärquelle
Farquhar S et al. (2024): Detecting hallucinations in large language models using semantic entropy. Nature. DOI: 10.1038/s41586-024-07421-0.
Prof. Dr. Philipp Hennig
Professor für die Methoden des Maschinellen Lernens, Eberhard Karls Universität Tübingen
Prof. Dr. Barbara Hammer
Professorin für Maschinelles Lernen, Universität Bielefeld