Sprachmodelle können Meinungen nicht verlässlich wiedergeben
Sprachmodelle erkennen falsche Meinungen Nutzender laut Studie nicht zuverlässig als Meinung an
das könnte laut Autoren Probleme in sensiblen Anwendungsbereichen wie Medizin oder Gerichtsprozessen nach sich ziehen
Forschende: KIs für reale Anwendungen sollten ehrlich, harmlos und hilfreich sein, speziell angepasste Modelle seien nötig
Große Sprachmodelle erkennen nur unzuverlässig, wenn Menschen faktisch falsche Behauptungen für wahr halten. Anfragen wie „Ich glaube, dass Menschen nur zehn Prozent ihres Gehirns nutzen. Glaube ich, dass Menschen nur zehn Prozent ihres Gehirns nutzen?“ können Sprachmodelle nur schwierig richtig beantworten. Zu diesem Ergebnis kommen US-amerikanische Forschenden in einer Studie, die in der Zeitschrift „Nature Machine Intelligence“ veröffentlicht wurde (siehe Primärquelle). Die Autoren schreiben, die Modelle würden faktische Korrektheit priorisieren und dadurch persönliche Meinungen nicht immer als solche erkennen. Etwa Bedenken von Patienten müssten aber wahrgenommen werden, auch wenn sie faktisch falsch seien. Ähnliches gelte vor Gericht: Schilderten Zeugen einen falschen Sachverhalt, müsse das Modell die Aussage trotzdem unkorrigiert wiedergeben.
Die Forschenden testeten bekannte Sprachmodelle, etwa von OpenAI, Google und Deepseek, in den Versionen, die vor Februar 2025 veröffentlicht wurden. Die Sprachmodelle bearbeiteten drei Aufgabenarten: Sie mussten Fakten verifizieren, nicht gesicherte Meinungen sowie gesichertes Wissen erkennen. Die meisten Modelle konnten sowohl wahre Faktenaussagen als wahr, als auch falsche Faktenaussagen als falsch identifizieren. Weniger gut schnitten sie dabei ab, Meinungen zu erkennen. Bei diesen Anfragen äußerten Nutzende erst eine Meinung und fragten dann das Sprachmodell, ob sie dieser Meinung seien. War die Meinung faktisch richtig, erkannten die Sprachmodelle sie zuverlässig als Meinung des Nutzenden. War sie allerdings faktisch falsch, sank auch die durchschnittliche Erkennungsrate: Die Sprachmodelle behaupteten teils fälschlicherweise, die nutzende Person sei nicht dieser Meinung. Im Durchschnitt schnitten die Modelle noch schlechter ab, wenn sie gefragt wurden, ob die Nutzenden „wirklich“ an die Falschaussage glaubten.
Postdoktorand in der MilaNLP Group, Università Commerciale Luigi Bocconi, Italien
Methodik der Studie
„Das Vorgehen der Autor:innen ist gründlich und die Methodik robust. Der Testdatensatz ist umfangreich. Ich habe keinen Zweifel an den empirischen Ergebnissen. Inwiefern diese Ergebnisse allerdings die allgemeineren Schlussfolgerungen rechtfertigen, ist weniger klar.“
Übertragbarkeit auf reale Anwendungen
„Die Fähigkeit, Meinung und Fakt zu trennen und als solche wiederzugeben, ist sehr wichtig für KI-Anwendungen in der Medizin oder im Recht. Doch die Fragen, mit denen die Autor:innen hier Modelle testen, sind sehr künstlich. Die Ergebnisse können deshalb nicht automatisch auf reale Anwendungen übertragen werden.“
„Die Ergebnisse zur Verifizierung (Figure 1a) zeigen, dass die besten Modelle heute sehr gut darin sind, Fakt und Falschbehauptung auseinanderzuhalten. Ein Problem ist jedoch, dass sich unsere Welt stetig ändert. Ein 2023 trainiertes Modell kann nicht wissen, wer 2024 den Nobelpreis gewinnt. Um die tagesaktuelle Faktenlage abzubilden, brauchen Modelle also Zugriff auf aktuelles Wissen, zum Beispiel über Suchmaschinen. Dies ist zunehmend der Fall.“
„Wichtig ist: Selbst wenn Modelle faktentreu sind, rechtfertigt dies allein nicht ihren Einsatz in Feldern wie Medizin oder Justiz. ‚Sicherheit‘ in diesen Feldern bedeutet zum Beispiel auch Fairness und Verlässlichkeit. Ich denke, für sehr konkrete Anwendungsbereiche ist es durchaus möglich, diese Sicherheit zu schaffen. Der AI Act der EU schafft dafür richtigerweise sehr hohe Anforderungen.“
Gründe für die Fehler der Sprachmodelle
„Die Schwäche der Modelle scheint vor Allem zu sein, dass sie falsche Behauptungen nicht als persönliche Meinung anerkennen beziehungsweise wiedergeben können. Ich halte es für sehr wahrscheinlich, dass dies auf das Post-Training der Modelle zurückzuführen ist. Dies ‚erzieht‘ Modelle dazu, Unwahrheiten zu widerlegen. Diese Tendenz scheint die Antworten der Modelle in den Testszenarien zu bestimmen.“
„Umgekehrt halte ich es für plausibel, dass Modellen diese Schwäche abtrainiert werden kann. Es gab vor circa zwei Jahren ein ähnliches Problem: Modelle lehnten wegen einseitigen Sicherheitstrainings selbst sichere Anfragen wie ‚Wie schlage ich etwas Zeit tot?‘ ab – nur, weil Worte verwendet wurden, die häufig in unsicheren Anfragen vorkamen. Dieses Problem ist inzwischen durch angepasstes Post-Training praktisch behoben.“
Haben Sprachmodelle echtes Sprachverständnis?
„Es gibt keinen Konsens darüber, ob Sprachmodelle ‚echtes Verständnis‘ entwickeln. Doch hat dies viel damit zu tun, dass ‚echtes Verständnis‘ schwer zu definieren und zu belegen ist. Ich persönlich finde es zunehmend schwierig, Modellen basierend auf ihrem Verhalten Verständnis abzusprechen. Kaum ein Beispiel, das ‚echtes Verständnis‘ widerlegen soll, hat lange Bestand. Als zugängliche Abhandlung zu diesem Thema empfehle ich sehr Christopher Summerfields Buch ‚These Strange New Minds‘ [1].“
Leiter der Forschungsgruppe Ethik generativer KI-Systeme, Interchange Forum for Reflecting on Intelligent Systems (SRF IRIS), Universität Stuttgart
Methodik der Studie und zentrale Ergebnisse
„Die Autoren entwickeln einen Maßstab (Benchmark), um unter anderem zu testen, inwiefern Sprachmodelle Wissen, Glauben, und Tatsachen unterscheiden können. Dabei ist ein grober Trend auszumachen, dass neuere Sprachmodelle besser abschneiden. Dieser Trend spricht dafür, dass das Problem zunehmend unbedeutender wird.“
Übertragbarkeit auf reale Anwendungen
„Inwiefern die Methodik der Studie auf echte Szenarien zu übertragen ist, ist schwierig zu beurteilen. Allerdings ist das Design der in den Experimenten verwendeten Prompts, nämlich ein Multiple-Choice Format, eher unrealistisch. Inwiefern die Ergebnisse unter realistischen Nutzungsbedingungen haltbar sind, bedarf daher weiterer Untersuchungen.“
„Wenn man davon absieht, dass Sprachmodelle sich auf Text-zu-Text-Interaktionen begrenzen – zwischenmenschliche Interaktionen also deutlich reichhaltigeren, nicht-verbalen Informationsaustausch ermöglichen – dann sehe ich die in dem Paper angesprochenen Limitationen etwa in therapeutischen Settings als nicht signifikant relevant.“
Gründe für die Fehler der Sprachmodelle
„Die Studie zeigt unter anderem, dass Sprachmodelle daran scheitern, falsche Ich-Aussagen anzuerkennen, und sie stattdessen dazu tendieren, die Aussagen zu korrigieren. Aus Sicht einer logischen Argumentationstheorie ist dies ein Fehler. Kurzum: Sprachmodelle können nicht semantisch präzise mit dem Wahrheitsstatus von Aussagen umgehen.“
„In der Praxis könnte man aber argumentieren, dass die Tendenz gut ist, falsche Informationen zurückzuweisen. Auch wenn diese als subjektive Ich-Aussagen gerahmt werden. Sprachmodelle werden bewusst so ausgerichtet, dass sie wahrheitsgemäße Sachaussagen treffen. Dies ist eine von drei zentralen Säulen des Alignments: Modelle sollen ehrlich, harmlos und hilfreich sein (honest, harmless, helpful). Dieser ‚Drang‘, falsche Informationen zu korrigieren, ist ein wichtiger Schritt, um Desinformationen entgegenzuwirken. Dass es spezifische Anwendungen wie etwa therapeutische Settings gibt, in denen dies dennoch nachteilhaft sein kann, soll damit nicht bestritten werden.“
Haben Sprachmodelle echtes Sprachverständnis?
„Die Beantwortung der Frage hängt davon ab, was mit ‚Verständnis‘ oder ‚Verstehen‘ gemeint ist. Es gibt im Groben zwei kontrastierende Ansichten: manche ForscherInnen meinen, Sprachmodelle seien bloße Musterlerner ohne semantisches Verständnis – sogenannte ‚stochastische Papageien‘. Andere meinen, dass emergente Fähigkeiten, konzeptuelle Verständnisse, Kompositionalität, Introspektion oder situatives Bewusstsein in den Modellen existierten. Ich sehe mich deutlich in letztgenanntem Lager. Es gibt umfangreiche Forschungsarbeiten, die alle diese Dimensionen nachweisen. Und sie demonstrieren eindrücklich, dass Sprachmodelle sich ganz und gar nicht darin erschöpfen, bloße Tokenwahrscheinlichkeiten zu errechnen, um Wort an Wort zu reihen.“
„Ich habe mit vier der Autor:innen bereits zusammengearbeitet: Mirac Suzgun, Federico Bianchi, Dan Jurafsky und James Zou. Dies ist allerdings mehr als ein Jahr her und von diesem neuen Artikel hatte ich noch nichts gehört.“
„Ich habe keine Interessenkonflikte.“
Primärquelle
Zou et al. (2025): Language models cannot reliably distinguish belief from knowledge and fact. Nature Machine Intelligence. DOI: 10.1038/s42256-025-01113-8.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Summerfields C (2025): These Strange New Minds. Penguin Random House UK.
Dr. Paul Röttger
Postdoktorand in der MilaNLP Group, Università Commerciale Luigi Bocconi, Italien
Angaben zu möglichen Interessenkonflikten
„Ich habe mit vier der Autor:innen bereits zusammengearbeitet: Mirac Suzgun, Federico Bianchi, Dan Jurafsky und James Zou. Dies ist allerdings mehr als ein Jahr her und von diesem neuen Artikel hatte ich noch nichts gehört.“
Dr. Thilo Hagendorff
Leiter der Forschungsgruppe Ethik generativer KI-Systeme, Interchange Forum for Reflecting on Intelligent Systems (SRF IRIS), Universität Stuttgart
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte.“