Chatbots: fehlerhafte Kommunikation bei Gesundheitsfragen
laut Studie liefern Sprachmodelle bei der Suche nach Gesundheitsinformationen keinen Mehrwert: Grund scheint am ehesten das Nutzungsverhalten zu sein
Sprachmodelle dienen vielen Menschen als erste Anlaufstelle bei medizinischen Fragen – ihre Antworten können Entscheidungsgrundlage für weiteres Vorgehen sein
Forschende: methodisch solide Studie, die ein relevantes Problem aufzeigt und Erklärungsansätze liefert, aber nicht zwangsläufig auf die Realität übertragbar ist
Bei medizinischen Fragen scheint die Kommunikation zwischen Sprachmodellen und Nutzenden fehleranfällig zu sein. Das legen die Ergebnisse einer Studie nahe, die in der Fachzeitschrift „Nature Medicine“ erschienen ist (siehe Primärquelle): In den Anfragen an die Chatbots würden wichtige Informationen weggelassen. Außerdem seien deren Antworten unvollständig oder würden von den Nutzenden missverstanden.
Für viele Menschen sind Sprachmodelle eine niedrigschwellige Anlaufstelle bei Gesundheitsfragen. Die Antworten der Chatbots können die Grundlage für weitere Schritte sein – zum Beispiel einen Arzt oder eine Ärztin aufzusuchen. Sprachmodelle erzielen zwar in medizinischen Benchmarks gute Ergebnisse, diese können allerdings nicht unbedingt auf reale Anfragen übertragen werden. Aus diesem Grund untersuchte das Forschungsteam in der aktuellen Studie, inwiefern konventionelle Sprachmodelle im Gespräch mit Nutzenden erfolgreich medizinische Verdachtsdiagnosen stellen und weitere Handlungsschritte empfehlen können. Zunächst entwarf ein Ärzteteam zehn fiktive, medizinische Fallbeispiele mit detaillierten Angaben zu Symptomen, allgemeinen Lebensumständen und Krankengeschichte (für Details siehe Supplementary Information „Full scenario texts“). Ein weiteres Ärzteteam erstellte eine Liste mit mehreren Verdachtsdiagnosen für jeden Fall.
Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt
Überraschende Ergebnisse der Studie
„Es ist nicht überraschend, dass große Sprachmodelle (LLMs) in realen Nutzenden-Interaktionen schlechter abschneiden als in Benchmarks. Benchmarks sind oft vereinfacht, stark strukturiert und häufig öffentlich zugänglich. Das erhöht die Wahrscheinlichkeit, dass Modelle sie auswendig lernen, anstatt Generalisierungsfähigkeiten zu entwickeln.“
„Überraschender ist, dass LLMs mit simulierten Nutzenden deutlich besser abschneiden als mit echten Menschen. Dies zeigt, dass Simulationen die Mehrdeutigkeiten, das Auslassen von Informationen und das Entscheidungsverhalten tatsächlicher Nutzender nicht erfassen können. Diese Diskrepanz deutet darauf hin, dass Benchmark-Ergebnisse und simulierte Bewertungen die Leistung in der realen Welt systematisch überschätzen. Sie gibt Forschenden, die KI-basierte Patientensimulationen einsetzen, Anlass zur Vorsicht. Denn diese stellen nicht zwangsläufig realistische Stellvertreter für echte Patientinnen und Patienten dar, die mit medizinischen Chatbots interagieren. Im Vergleich zu traditionellen Suchmethoden zur Unterstützung von Menschen zeigen LLMs noch keinen klaren Vorteil, da Fehler in der Interaktion zwischen Mensch und LLM nach wie vor ein limitierender Faktor sind.“
Bewertung der Methodik
„Die Methodik der Autorinnen und Autoren ist weitgehend geeignet, ihre Aussagen zu stützen. Das randomisierte, vorregistrierte Design mit realen Teilnehmenden und von Expertinnen und Experten definierten Referenzlösungen ist direkt auf die Interaktion zwischen Mensch und LLM ausgerichtet – und nicht isoliert auf die Modellfähigkeiten.“
„Die medizinischen Szenarien sind realistisch für die textbasierte Online-Suche nach Gesundheitsinformationen. Allerdings schränkt die ausschließliche Einbeziehung von Teilnehmenden aus Großbritannien die kulturelle, sprachliche und gesundheitssystemische Vielfalt ein. Die Autoren analysieren zwar einen Teil der Interaktionen zwischen Mensch und LLM sorgfältig und führen eine Nachbefragung zu Erfahrungen und Vertrauen durch. Doch es wäre auch wertvoll gewesen, die Absichten der Teilnehmenden in bestimmten Fällen genauer zu untersuchen: Zum Beispiel, warum sie Informationen zurückhielten oder letztendlich korrekte LLM-Empfehlungen ablehnten. Solche qualitativen Erkenntnisse könnten zur Klärung beitragen, ob die beobachteten Fehler auf das Interaktionsdesign, die Grenzen des Modells oder die grundsätzliche Ablehnung der medizinischen Beratung durch einen ‚Roboter‘ zurückzuführen sind.“
Mögliche Erklärungsansätze für fehlerhafte Kommunikation
„Die Ergebnisse lassen sich größtenteils durch Interaktionsfehler und nicht durch menschliche Inkompetenz erklären: Die Nutzenden haben Schwierigkeiten mit der Auswahl der anzugebenden Informationen, der Formulierung von Suchanfragen und der Bewertung und Umsetzung der LLM-Ergebnisse.“
„Dies könnte teilweise auf die Beteiligung aus der Allgemeinbevölkerung zurückzuführen sein. Allerdings weisen die Autorinnen und Autoren auch darauf hin, dass ähnliche Muster bereits in früheren Arbeiten beobachtet wurden, in denen die Nutzenden medizinische Expertinnen und Experten waren. Dies deutet darauf hin, dass das Problem über die Expertise der Nutzenden hinausgeht. Wie bei der traditionellen internetbasierten Gesundheitssuche sind effektive Abfragen und Interpretationen eher erlernte als intuitive Fähigkeiten. Um dieses Problem anzugehen, müssen daher sowohl die Kompetenz der Nutzenden durch Schulungen verbessert als auch die LLM-Interaktionen neugestaltet werden, um Nutzende aller Kompetenzstufen besser zu unterstützen.“
Chatbots als medizinischer Erstkontakt
„Ein medizinischer Chatbot müsste mehr können als nur Fragen beantworten, wenn er als erste Kontaktstelle nützlich sein soll. Er sollte die Nutzenden dazu anleiten, vollständige Informationen anzugeben und gegebenenfalls Folgefragen stellen, wenn etwas fehlt. Außerdem sollte er keine definitiven Antworten geben, wenn die beschriebene Situation unklar ist. In der Praxis könnte er insbesondere für risikoarme Ratschläge verwendet werden. Vorausgesetzt, sein Einsatzbereich ist klar begrenzt, er wurde von Expertinnen und Experten getestet und wird als Hilfsmittel und nicht als Ersatz für Ärztinnen und Ärzte angeboten.“
„Es gibt dabei mehrere große Herausforderungen: Als erstes, das Vertrauen der Nutzenden zu gewinnen. Insbesondere derjenigen, die sich aus Prinzip und nicht aufgrund schlechter Erfahrungen gegen die Nutzung entscheiden. Außerdem müssen gesetzliche Anforderungen erfüllt, die Chatbots in Gesundheitssysteme eingebunden und die Sicherheit für Menschen mit unterschiedlichen Hintergründen gewährleistet werden. Wenn man diese Herausforderungen angeht, könnten Chatbots die in dieser Studie festgestellten Interaktionsprobleme überwinden und sicherer und effektiver arbeiten.“
Wissenschaftliche Mitarbeiterin am Lehrstuhl für Gesundheitskommunikation, Institut für Kommunikationswissenschaft und Medienforschung, Ludwig-Maximilians-Universität München (LMU)
Überraschende Ergebnisse der Studie
„Die Studie hat einen innovativen Twist: Bisherige Arbeiten haben vor allem geprüft, wie gut künstliche Intelligenz (KI) auf standardisierte medizinische Fallvignetten reagiert oder in Prüfungsformaten abschneidet – dort wirken die Ergebnisse oft sehr positiv. Diese Benchmarks blenden aber einen entscheidenden Teil des Alltags aus: die Interaktion mit Laien, die Symptome beschreiben, nachfragen, Antworten einordnen und daraus konkrete Entscheidungen ableiten müssen.“
„Genau das testet die Studie und zeigt: Die Modelle lösen die Fallbeispiele für sich genommen sehr gut. Aber sobald Nutzer:innen selbst Fragen auf Basis derselben Fälle stellen, bricht die Leistung deutlich ein. Im Vergleich zu etablierten Suchwegen wie etwa Suchmaschinen bringt die Chatbot-Unterstützung hier keinen klaren Vorteil. Bei der richtigen Verdachtsdiagnose schneiden die Testgruppen mit den Sprachmodellen sogar schlechter ab als Suchmaschinen-Nutzer:innen. Mögliche Gründe sind, dass viele Menschen Suchmaschinen seit Jahren routiniert nutzen. Sie haben aber noch wenig Erfahrung damit, eine KI gezielt zu steuern, sinnvolle Rückfragen zu stellen und die Antworten kritisch zu prüfen.“
Bewertung der Methodik
„Die Studie ist methodisch sauber und liefert eine wichtige erste Annäherung daran, wie gut generative KI in Dialogsituationen bei medizinischen Fragen funktioniert. Eine Einschränkung ist, dass die Situation nicht vollständig ‚real‘ ist: Die Teilnehmenden hatten kein eigenes aktuelles Gesundheitsproblem, sondern sollten sich anhand vorgegebener Fallbeispiele in Symptome hineinversetzen. Dadurch sind Betroffenheit und Dringlichkeit vermutlich geringer als im Alltag.“
„Trotzdem sind die Szenarien realitätsnah genug, um die zentrale Botschaft zu zeigen: Gute Modellleistung allein reicht nicht, wenn die Interaktion zwischen Mensch und System nicht funktioniert. Dass neuere Modelle automatisch deutlich besser abschneiden, ist deshalb nicht garantiert: Sie können zwar inhaltlich kompetenter werden, aber wenn Nutzer:innen Symptome unvollständig schildern, falsche Schlussfolgerungen ziehen oder Antworten falsch interpretieren, bleibt das Risiko bestehen. Also: Ohne adäquate Nutzer:innen-Kompetenz bleibt auch ein hochfunktionales KI-Modell im Gesundheitskontext fehlerbehaftet.“
Mögliche Erklärungsansätze für fehlerhafte Kommunikation
„Die Ergebnisse lassen sich gut damit erklären, dass die Nutzung von KI schneller ‚Mainstream‘ wird als die Kompetenzen, die man dafür eigentlich bräuchte – gerade im Gesundheitskontext. Zwei Fähigkeiten sind hier zentral: Erstens die digitale Gesundheitskompetenz – also gesundheitsbezogene Infos online zu finden, zu verstehen und zu bewerten. Zweitens die KI-Kompetenz – also zu wissen, wie generative KI grob funktioniert, welche Grenzen sie hat, und wie man sie gezielt nutzt.“
„Genau hier entsteht eine Schere: Viele Menschen vertrauen KI-Antworten auf Gesundheitsfragen schnell, weil sie leicht zugänglich sind. Sie klingen auch sprachlich sehr überzeugend – selbst dann, wenn der Inhalt eigentlich medizinisch absolut falsch ist. Das Vertrauen in KI wird also oft stärker von der wahrgenommenen Nützlichkeit (‚das hilft mir schnell‘) getrieben als von der tatsächlicher KI- oder Gesundheitskompetenz [1].“
Chatbots als medizinischer Erstkontakt
„Lösen lassen sich die Probleme aus meiner Sicht nur kombiniert: Man muss zum einen Kompetenzen stärken. Zum Beispiel könnte es einfache Leitfragen oder Checklisten geben, wie man KI im Gesundheitskontext sinnvoll befragt und wann man Symptome ärztlich abklären sollte. Zum anderen muss man die Systeme so gestalten, dass sie Nutzer:innen besser unterstützen. Solche Systeme könnten beispielsweise aktiv fehlende Informationen abfragen, klar sagen, wie sicher eine Einschätzung ist, Warnzeichen hervorheben und nächste Schritte verständlich formulieren. So reduziert man das Risiko, dass überzeugende Sprache mit verlässlicher medizinischer Beratung verwechselt wird.“
Inhaberin des Lehrstuhls für Kognitive Systeme sowie geschäftsführende Direktorin des Bamberger Zentrums für Künstliche Intelligenz (BaCAI), Otto-Friedrich-Universität Bamberg, und Direktorin am Bayerischen Forschungsinstitut für Digitiale Transformation (bidt), München
Einordnung in den Forschungskontext und Erklärungsansätze
„Die Ergebnisse der Studie stehen in Einklang mit einer Meta-Analyse aus 2024 [2]. Dort zeigte sich, dass Teams aus Menschen und künstlicher Intelligenz (KI) überwiegend schlechtere Performanz zeigten als die besten Menschen oder das beste KI-System allein. Zudem schnitten Mensch-KI-Teams gegenüber Menschen oder KI allein dann besser ab, wenn der Mensch allein besser war als das KI-System allein. Umgekehrt war die Team-Performanz schlechter, wenn die KI allein besser war als die Menschen allein.“
„Das heißt: Menschliche Expertise ist entscheidend, wenn es um gezielte Suche und vor allem die kritische Bewertung von Information geht. Das gilt für Sprachmodelle genauso wie für die Nutzung von Suchmaschinen. Im medizinischen Bereich werden aber auch spezielle Informationsquellen genutzt, beispielsweise Datenbanken für Arzneimittel und Fachliteratur. In allen Fällen bedarf es an Bedienwissen sowie Fachwissen, um gezielt Anfragen stellen zu können. Im Gegensatz zur Nutzung von Sprachmodellen müssen bei der Nutzung von Datenbanken die Inhalte selbst nach Relevanz beurteilt und selektiert werden. Denn bei Sprachmodellen werden Informationen aggregiert und in Form natürlicher Sprache präsentiert. Bei den Datenbanken geht damit vermutlich eine tiefere kognitive Verarbeitung einher.“
Vorerfahrung der Teilnehmenden
„Die empirische Studie wurde mit einer Stichprobe der allgemeinen Bevölkerung durchgeführt. Etwa 25 Prozent hatte noch nie ein Sprachmodell genutzt, über 50 Prozent hatten noch nie ein Sprachmodell für den Bereich Gesundheit genutzt. Etwa 60 Prozent hatten einen akademischen Abschluss wie Bachelor oder Master.“
„Um effizient mit Sprachmodellen zu arbeiten, ist Erfahrung mit der Formulierung von Anfragen (Prompts) notwendig. Je spezieller der Gegenstandsbereich ist, desto mehr hat auch fachliche Expertise einen Einfluss. Gerade im Bereich Gesundheit kann es durchaus Sinn ergeben, dass medizinische Laien sich zunächst selbst informieren, um Notaufnahmen und Arztpraxen zu entlasten. Allerdings zeigt sich ja auch schon bei der Nutzung von Suchmaschinen, dass Selbstdiagnosen zu risikoreichen Selbstbehandlungen und zu gefährlichen Überreaktionen führen können [3].“
Bedeutung der Anfragenformulierung
„Etwas irreführend finde ich die Aussage, dass die Performanz der Sprachmodelle (LLMs) ‚alleine‘ deutlich höher ist als bei den Nutzenden. In diesem Fall wurden die Anfragen (Prompts) vermutlich von fachlich und mit LLMs erfahrenen Personen formuliert. Das heißt, hier wurde ebenfalls eine Anfrage an das LLM gestellt, aber eben eine Anfrage, die geeignet ist, dass eine qualitativ hochwertige Antwort generiert wird.“
„Im Kontext der Generierung von Programmcode zeigt eine empirische Studie vergleichbare Ergebnisse: Unerfahrene Nutzende waren kaum in der Lage, Beispiele zu geben, die genau die Information enthielten, die das KI-System benötigt, um ein gewünschtes Computerprogramm zu erstellen. Währenddessen konnte mit passend gewählten Beispielen 100 Prozent Performanz erzielt werden [4].“
Mögliche Lösungsansätze
„KI-Systeme können Menschen bei komplexen Entscheidungs- und Problemlöseprozessen unterstützen. Egal, ob es generative oder diskriminative Systeme sind. Damit dies gelingt, ist fachliche Expertise sowie Bedienexpertise notwendig. Bedienexpertise sollte aber auf einem Grundverständnis der Funktionsweise von KI-Methoden basieren. Nur so können falsche Erwartungen sowie Über- oder Untervertrauen in die Ausgaben von KI-Systemen vermieden werden [5].“
„Neben dem Aufbau von Expertise im Umgang mit KI-Systemen kann auch die Gestaltung von Mensch-KI-Schnittstellen gezielt verbessert werden. Eine Möglichkeit ist hier eine weitere Automatisierung, etwa durch agentische Ansätze oder durch ‚promptless interaction‘. Hierbei interagieren Nutzende etwa über grafische Bedienelemente mit dem KI-System. Eine andere, aus meiner Sicht lohnende Möglichkeit ist es, Schnittstellen so zu gestalten, dass Nutzende angeregt werden, Ausgaben des KI-Systems zu hinterfragen und, wenn notwendig, zu korrigieren. Dies kann durch Methoden des erklärenden und interaktiven maschinellen Lernens realisiert werden [5] [6].“
Chatbots als medizinischer Erstkontakt
„Auf medizinische Fragen spezialisierte Chatbots können durchaus sinnvoll sein, damit Menschen besser einschätzen können, ob der Besuch einer Praxis oder Notaufnahme ratsam ist. Allerdings müssen solche Angebote eine hohe Qualität der Antworten gewährleisten und sinnvoll soziotechnisch eingebettet sein. Qualitätsgeprüfte Chatbots könnten beispielsweise über die gesetzlichen Krankenkassen angeboten und von Hausarztpraxen als Erstzugang empfohlen werden. Allerdings sollten Menschen nicht gezwungen werden, diese Angebote zu nutzen. Für Menschen, die Chatbots nicht nutzen wollen oder können, muss die Möglichkeit zum direkten Kontakt weiter bestehen.“
Co-Leiterin des Instituts für Patient-centered Digital Health, Berner Fachhochschule (BFH), Schweiz
Wichtigste Erkenntnisse der Studie
„Die Forschung unterstreicht die Notwendigkeit, Sprachmodelle weiterzuentwickeln, damit sie mit der Komplexität und Sensibilität gesundheitsbezogener Empfehlungen umgehen können. Sie zeigt einmal mehr, dass die Qualität der Ergebnisse einer Interaktion mit einem Sprachmodell von der Benutzereingabe (Prompt) abhängig ist.“
„Die Nutzung von Sprachmodellen lässt sich schlecht mit anderen Suchmethoden vergleichen. Ein wesentlicher Unterschied liegt in ihren Ergebnissen: Sprachmodelle geben aktiv maßgeschneiderte Empfehlungen auf der Grundlage von Benutzereingaben. Sie suggerieren durch die Interaktion auch ‚Menschlichkeit‘. Suchmaschinen dagegen präsentieren eine Liste von Internetlinks, die Benutzer:innen selbstständig erkunden können.“
Übertragbarkeit auf Realität
„Selbst wenn die medizinischen Szenarien sorgfältig ausgearbeitet sind, können sie nur einen begrenzten Ausschnitt des breiten Spektrums an Gesundheitssituationen abbilden. In der Praxis würden zwangsläufig komplexere Wechselwirkungen und unvorhergesehene Faktoren eine Rolle spielen. Man ist stärker betroffen, wenn man die Symptome selbst verspürt und vielleicht sogar die Angst hat, es könnte etwas Schlimmes sein. Ich denke nicht, das aktuelle Modelle wesentlich besser abschneiden würden.“
Mögliche Erklärungs- und Lösungsansätze
„Eine Erklärung wäre, dass die Nutzenden nicht im zielführenden Prompten und in der Auswahl der Informationen geschult sind, die sie mit dem Sprachmodell teilen. Eine andere Erklärung könnte sein, dass die Gesundheitskompetenz nicht ausreicht, um die wichtigen Informationen mitzuteilen oder aufzugreifen und zu verstehen.“
„Mit einer Anweisung, die dem Sprachmodell kontinuierlich mitgegeben wird – sogenannte Systemprompts – könnte das Verhalten des Sprachmodells gesteuert werden, um eine strukturierte Anamnese durchzuführen. Damit könnte es angeleitet werden, ein Anamnesegespräch zielführend zu gestalten.“
Chatbots als medizinischer Erstkontakt
„Ein medizinisch spezialisierter Chatbot müsste evidenzbasierte, aktuelle Informationen bieten. Außerdem müsste er Notfallsituationen zuverlässig erkennen, individuelle Risikofaktoren berücksichtigen und transparent seine Grenzen kommunizieren. Er sollte eine strukturierte Anamnese erheben, um zuverlässig triagieren zu können. Und er sollte sich nicht dazu hinreißen lassen, eine Diagnose zu stellen.“
„Große Hürden sind zum einen die Regulierung – je nach Funktion als Medizinprodukt oder Hochrisiko-KI. Zum anderen sind es die Haftung, der Datenschutz sowie die technische Integration in Versorgungsprozesse. Zusätzlich braucht es eine robuste Qualitätssicherung gegen Halluzinationen und Bias. Außerdem braucht es klinische Validierung und ein laufendes Monitoring von Risiken und ‚unerwünschten Nebenwirkungen‘ im Betrieb.“
„Bei mir liegen keine Interessenkonflikte vor.“
„Es gibt keine Interessenkonflikte.“
„Keine Interessenkonflikte.“
„Ich habe keine Konflikte in Bezug auf die Autoren.“
Primary source
Mahdi A et al. (2026): Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine. DOI: 10.1038/s41591-025-04074-y.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Reinhardt A et al. (2025): Who Trusts AI for Health Information? A Cross-National Survey on Trust Determinants in Four European Countries. Health Communication. DOI: 10.1080/10410236.2025.2601265.
[2] Vaccaro M et al. (2024): When combinations of humans and AI are useful: A systematic review and meta-analysis. Nature Human Behaviour. DOI: 10.1038/s41562-024-02024-1.
[3] White RW et al. (2009): Experiences with Web Search on Medical Concerns and Self Diagnosis. AMIA Annual Symposium Proceedings.
[4] Hocquette C et al. (2024): Can Humans Teach Machines to Code? Arxiv. DOI: 10.48550/arXiv.2404.19397.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.
[5] Schmid U (2025): Vertrauenswürdige Künstliche Intelligenz. Buchkapitel in Künstliche Intelligenz und Wir – Stand, Nutzung und Herausforderungen der KI. Springer Nature. DOI: 10.1007/978-3-662-71567-3_10.
[6] Bruckert S et al. (2020): The Next Generation of Medical Decision Support: A Roadmap Toward Transparent Expert Companions. Frontiers in Artificial Intelligence. DOI: 10.3389/frai.2020.507973.
Prof. Dr. Iryna Gurevych
Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt
Information on possible conflicts of interest
„Bei mir liegen keine Interessenkonflikte vor.“
Dr. Anne Reinhardt
Wissenschaftliche Mitarbeiterin am Lehrstuhl für Gesundheitskommunikation, Institut für Kommunikationswissenschaft und Medienforschung, Ludwig-Maximilians-Universität München (LMU)
Information on possible conflicts of interest
„Es gibt keine Interessenkonflikte.“
Prof. Dr. Ute Schmid
Inhaberin des Lehrstuhls für Kognitive Systeme sowie geschäftsführende Direktorin des Bamberger Zentrums für Künstliche Intelligenz (BaCAI), Otto-Friedrich-Universität Bamberg, und Direktorin am Bayerischen Forschungsinstitut für Digitiale Transformation (bidt), München
Information on possible conflicts of interest
„Keine Interessenkonflikte.“
Prof. Dr. Kerstin Denecke
Co-Leiterin des Instituts für Patient-centered Digital Health, Berner Fachhochschule (BFH), Schweiz
Information on possible conflicts of interest
„Ich habe keine Konflikte in Bezug auf die Autoren.“