Digitales und Technologie

Statements

30. April 2026

Sprachmodelle könnten bei medizinischen Diagnosen helfen

laut Studie könnten Sprachmodelle ärztliches Fachpersonal bei Diagnosen sowie Entscheidungen zum weiteren medizinischen Vorgehen unterstützen
größtes Potenzial zeigte sich beim Erstkontakt in der Notaufnahme; Erkenntnisse könnten helfen, Personal zu entlasten und schnell passende Behandlung zu finden
Forschende: methodisch saubere Studie, die gerade KI-Potenzial in zeitkritischen Entscheidungssituationen aufzeige, deren praktische Relevanz aber eingeschränkt sei

Anlass

Große Sprachmodelle sollen Ärztinnen und Ärzten beim Stellen von Diagnosen mindestens ebenbürtig sein. Das legen die Ergebnisse einer Studie nahe, die in der Fachzeitschrift „Science“ erschienen ist (siehe Primärquelle). Der Unterschied zwischen der künstlichen Intelligenz (KI) und dem Fachpersonal sei in zeitkritischen Situationen am größten, in denen wenig Informationen über die Patientinnen und Patienten vorlägen. Außerdem handle es sich bei der Studie um einen der größten Leistungsvergleiche dieser Art, schreibt das US-amerikanische Forschungsteam.

Das Team untersuchte die Fähigkeiten der Sprachmodelle OpenAI o1, OpenAI o1-preview und GPT-4o. Teile der Studie stützen sich auf Vorarbeiten, die die Leistung des Modells GPT-4 und medizinischen Fachpersonals getestet hatten [I] [II]. Für den ersten Teil der aktuellen Studie nutzte das Team Fallkataloge und Datensätze, die unter anderem für die Aus- und Weiterbildung von medizinischem Personal gedacht sind: darunter Diagnoseberichte des New England Journal of Medicine (NEJM) [III] sowie Fallbeispiele, die aus einem Podcast des American College of Physicians abgeleitet wurden [IV]. Außerdem bezogen die Forschenden Fallvignetten einer „Landmark“ Studie zur Bewertung computergestützter Diagnosesysteme aus dem Jahr 1994 [V] sowie einer Untersuchung aus dem Jahr 2021 mit ein [VI].

Je nach Fall sollte das Sprachmodell Krankheitsfälle beschreiben, Differenzialdiagnosen stellen und priorisieren, weitere diagnostische Tests vorschlagen und deren Ergebnisse bewerten sowie die Entscheidungen begründen.

Die Antworten des Sprachmodells wurden unter anderem mit den ursprünglichen Behandlungsschemata verglichen und von zwei Ärzten bewertet. Bei Uneinigkeit diskutierten die Ärzte ihre Einschätzungen oder eine dritte Person ordnete die Antwort final ein.

Im zweiten Teil der Studie gingen die Forschenden einen Schritt weiter:
Sie konfrontierten die Sprachmodelle sowie zwei Ärzte mit realen, unstrukturierten Daten aus einer US-Notfallambulanz. Je nach Fall standen Informationen zu Symptomen, Vitalwerten oder der Krankheitsgeschichte zur Verfügung. Einige Fälle kamen neu in die Notaufnahme, andere waren bereits Patientinnen oder Patienten. Die Ärzte und das Modell entschieden für verschiedene Kontaktpunkte (vom Erstkontakt in der Notaufnahme bis zur Einlieferung auf die Intensivstation), wie in der jeweiligen Situation zu verfahren sei. Die Antworten wurden verblindet von zwei Internisten bewertet, die gleichzeitig Co-Autoren der Studie waren.

Die getesteten Sprachmodelle lieferten zwar nicht immer vollständig korrekte Diagnosen, ihre Ausgaben wurden aber in den meisten Fällen als mindestens hilfreich eingestuft. Auch die meisten vorgeschlagenen Tests wurden als sinnvoll bewertet. In der aktuellen Studie schnitten die getesteten Modelle außerdem in der Diagnoseleistung und den Entscheidungen an den verschiedenen Kontaktpunkten der Notfallambulanz besser ab als Fachpersonal oder ältere Versionen von anderen Sprachmodellen bei vergangenen Analysen. Besonders ausgeprägt war der Vorteil der KI am ersten Kontaktpunkt, also der Einlieferung in die Notaufnahme.

Die Autorinnen und Autoren argumentieren, dass die Integration von Sprachmodellen im klinischen Alltag diverse Vorteile bringen könnte. Das sei vor allem dann der Fall, wenn Sprachmodelle die Diagnose- und Managemententscheidungen des Fachpersonals ergänzen würden.

Dennoch listet das Team einige Limitationen: Die getesteten Sprachmodelle seien nicht die aktuellsten. Zudem hätte das Team nur textbasierte Anfragen gestellt, während im realen klinischen Alltag auch visuelle und auditive Eindrücke wichtig seien. Trotz dahingehender Tests könne außerdem nicht ausgeschlossen werden, dass Fallvignetten in den Trainingsdaten der Modelle vorkamen.

Das Science Media Center Germany hat Expertinnen und Experten aus der Gesundheitsversorgungsforschung gefragt, wie sie die Methodik und die Ergebnisse der Studie einschätzen, bei welchen Entscheidungen das Sprachmodell die Fachpersonen am besten unterstützen kann und wie eine sinnvolle Integration aussehen könnte.

Statements

Prof. Dr. Felix Nensa

Forschungsgruppenleiter am Institut für künstliche Intelligenz in der Medizin und leitender Oberarzt am Institut für Diagnostische und Interventionelle Radiologie und Neuroradiologie, Universitätsklinikum Essen

Methodik der Studie

„Die Studie ist methodisch sauber gemacht. Sie nutzt mit Bond und R-IDEA validierte Bewertungssysteme, zwei verblindete Bewerter sowie TRIPOD-LLM-konforme Dokumentation. Außerdem wurden im Notaufnahme-Experiment tatsächlich echte, unstrukturierte elektronische Gesundheitsdaten (EHR-Daten) genutzt. Das geht über das übliche Vignettendesign hinaus.“

Übertragung auf die Praxis

„Die praktische Aussagekraft ist dennoch gering. Die getesteten Modelle OpenAI o1-preview und OpenAI o1 sind schon Anfang 2025 durch o3 abgelöst worden. Mittlerweile sind viele weitere Generationen dazugekommen. Schon bei Publikation waren sie nicht mehr State of the Art.“

„Für klinische Aufgaben werden zudem zunehmend agentische Systeme verwendet. Diese können über Tools auf spezialisierte Wissensdatenbanken zugreifen und sind reinen Sprachmodellen in der Regel deutlich überlegen. Auch die Beschränkung auf textbasierte Anfragen greift zu kurz. Denn moderne Modelle arbeiten multimodal. Insbesondere Bilder und Videos können sie verarbeiten. Das macht bei medizinischen Fragestellungen einen erheblichen Unterschied.“

„Bemerkenswert ist außerdem, dass die Studie zwar einen Vergleichsarm ‚Mensch und GPT-4‘ enthält, aber keinen Arm ‚Mensch und o1‘. Damit beantwortet sie genau die wissenschaftlich entscheidende Frage nach dem optimalen kombinierten System Mensch-Maschine nicht.“

Möglichkeit, dass Szenarien aus dem Modell-Training bekannt waren

„Zum ‚Auswendiglernen‘: Der einzige Test bestand im Vergleich der Leistung vor und nach dem Trainingsende im Oktober 2023. Mit nur 34 Fällen nach dem Ende ist diese Sensitivitätsanalyse strukturell unterdimensioniert. Etablierte Methoden wie Membership Inference Attacks, Paraphrase Robustness oder Closed- und Open-Book-Vergleiche (Möglichkeiten, um herauszufinden, ob bestimmte Daten im Training eines KI-Modells vorhanden waren; Anm. d. Red.) hätten vermutlich deutlich belastbarere Aussagen erlaubt.“

Einordnung in den Forschungskontext

„Die Ergebnisse sind nicht überraschend und reihen sich in eine Linie früherer Arbeiten ein. Diese finden für textbasierte Vignetten regelmäßig eine Überlegenheit moderner Sprachmodelle gegenüber Ärzt:innen. Währenddessen legen andere Studien nahe, dass Ärzt:innen mit GPT-4 oft kaum besser abschneiden als ohne [II]. Das deutet eher auf ein Workflow- und Vertrauensproblem hin als auf ein Modellproblem.“

„Der praktische Nutzen solcher Benchmarks bleibt daher begrenzt. Wesentlich wichtiger wären prospektive Studien am kalibrierten Gesamtsystem Mensch-Maschine mit aktueller Technologie. Oder noch besser: kontinuierliche Studien mit adaptiver Rekalibrierung und weiteren Endpunkten: Mitarbeiter- und Patientenzufriedenheit sowie Wirtschaftlichkeit und Ergebnisbewertung.“

Mögliche Gründe für das gute Abschneiden der KI bei der Erstentscheidung in der Notaufnahme

„Eine plausible Erklärung ist, dass der Vorteil gerade dort am größten ist, wo wenig Information vorliegt und gleichzeitig schnell entschieden werden muss. Das trifft genau auf die Triage-Situation zu. Dort sind menschliche Entscheidungen unter Zeitdruck und Datenmangel besonders fehleranfällig. Sprachmodelle sind bestimmten situativen Einflüssen, die menschliche Entscheidungen prägen können, nicht in gleicher Weise ausgesetzt. Diese Einflüsse können etwa emotionale Interaktion mit Patient:innen, Unterschiede in Symptomdarstellung und Persönlichkeit, eine überfüllte Notaufnahme oder Ermüdung nach einer langen Schicht sein. Dadurch können Sprachmodelle Muster, Prävalenzen, ‚Satisfaction of Search‘ und ‚cannot miss‘-Diagnosen potenziell konsistenter berücksichtigen.“

Sinnvoller Einsatz von Sprachmodellen

„Den größten Mehrwert sehe ich derzeit darin, dass Sprachmodelle durch eine ganz andere Arbeitsweise in bestimmten Bereichen komplementär zu menschlichen Stärken und Schwächen sind. Außerdem können sie 24 Stunden am Tag, sieben Tage die Woche mit konstanter Qualität arbeiten, wenn sie korrekt eingesetzt werden. Dadurch können sie helfen, menschliche Fehler zu reduzieren.“

„Wichtig ist dabei immer die Betrachtung und sorgfältige Kalibrierung des Gesamtsystems Mensch-Maschine sowie die kontinuierliche Qualitätskontrolle. Für die kann man sich technisch viel aus der Labormedizin abschauen: interne und externe Qualitätskontrollen, Ringversuche (Experimente werden unter verschiedenen Umständen durchgeführt und die Ergebnisse verglichen; Anm. d. Red.) sowie Drift-Monitoring (bei KI: Überwachung des schrittweisen Leistungsverlustes über die Zeit; Anm. d. Red.).“

„Zur Vermeidung eines Automation Bias (Beeinflussung der menschlichen Entscheidung durch die Antwort der Maschine; Anm. d. Red.) gehört, dass Ärzt:innen ihre eigene Differenzialdiagnose begründen, bevor sie die KI-Ausgabe sehen. Außerdem müssen Konfidenzintervalle ausgewiesen und Entscheidungsänderungen systematisch erfasst und ausgewertet werden.“

Wie gelingt die Evaluierung von KI-Systemen?

„Wir müssen weg von realitätsfernen Einzelsystem-Experimenten und hin zu Studien an Systemen, die tief in die klinischen Abläufe integriert sind. Sie sollten Ende-zu-Ende im praktischen Einsatz überprüft werden. Konkret heißt das: ‚Silent Testing‘ beziehungsweise ‚Shadow Deployment‘. Dabei liefe das Modell mit, würde aber nicht ins Geschehen eingreifen. Sinnvoll könnten auch prospektive Stepped-Wedge-Cluster-RCTs (Art der randomisierten kontrollierten Studie, bei der die Teilnehmenden die Intervention in verschiedenen Wellen bekommen; Anm. d. Red.) und kontinuierliche Leistungsüberwachung mit Drift-Detection (bei KI: Überwachung des schrittweisen Leistungsverlustes über die Zeit; Anm. d. Red.) sein. Eine weitere Option wäre ein Post-Market-Surveillance-Modell analog zur Medical Device Regulation (MDR) oder der In Vitro Diagnostic Regulation (IVDR) (Überwachung eines Systems würde auch nach Markteinführung fortgesetzt; Anm. d. Red.).“

„Als Endpunkte gehören neben Diagnosegenauigkeit insbesondere die Zeit, bis eine Diagnose gestellt wurde, dazu. Außerdem sollten Verweildauer, 30-Tage-Mortalität, Wiedereinlieferung, Kosten sowie Patienten- und Mitarbeiterzufriedenheit berücksichtigt werden. Das ist zugegeben viel mehr Aufwand. Aber den betreiben wir ja auch in anderen Bereichen, in denen es um viel geht – zum Beispiel in der Luftfahrt.“

Prof. Dr. Thomas Neumuth

Stellvertretender Direktor des Innovation Center Computer Assisted Surgery (ICCAS), Universität Leipzig

Methodik der Studie

„Die Studie ist sorgfältiger angelegt als die meisten bisherigen Vergleiche zwischen künstlicher Intelligenz (KI) und Ärzt:innen: Sie prüft die KI in sechs verschiedenen Aufgaben und vergleicht sie mit hunderten Mediziner:innen. Außerdem bewerten zwei unabhängige Fachärzt:innen die Antworten, ohne zu wissen, ob sie von einem Menschen oder von der KI stammen.“

„Schwächen gibt es trotzdem: Manche Teilexperimente nutzen nur fünf oder sechs Fälle und die Bewertung ‚richtig oder falsch‘ hängt am ärztlichen Urteil. Zudem wurde nur Text getestet, nicht das, was im Klinikalltag wirklich passiert. Den Verdacht, dass die KI alte Fälle des New England Journal of Medicine (NEJM) aus dem Training kennt, haben die Autor:innen ernst genommen: Sie verglichen Fälle vor und nach dem Trainingsstichtag und fanden keinen Unterschied. Und sie nutzten zusätzlich Fälle, die nie veröffentlicht worden waren. Der überzeugendste Teil sind deshalb die 76 echten Notaufnahme-Fälle aus dem Krankenhaus. Die kann die KI unmöglich vorher gesehen haben.“

Einordnung in den Forschungskontext

„Wirklich neu sind die Ergebnisse nicht. Sie bestätigen einen Befund, der seit etwa zwei Jahren in mehreren Studien immer wieder auftaucht: Die KI alleine schneidet oft besser ab als Ärzt:innen. Und überraschenderweise schneidet sie auch besser als Ärzt:innen ab, die die KI als Hilfsmittel nutzen dürfen. Das ist eigentlich kontraintuitiv. Man würde erwarten, dass ‚Mensch plus Maschine‘ das beste Team ist. In der Praxis nehmen Ärzt:innen die KI-Vorschläge aber oft nur halbherzig an, ignorieren sie oder vertrauen ihnen zu wenig.“

„Neu an dieser Studie ist vor allem die Größe des Vergleichs und der Schritt aus der Lehrbuchwelt heraus: Sie testet die KI nicht nur an aufgeräumten Übungsfällen, sondern an echten, unsortierten Patientendaten aus einer Notaufnahme.“

Mögliche Gründe für das gute Abschneiden der KI bei der Erstentscheidung in der Notaufnahme

„Dass die KI ausgerechnet bei der ersten Einschätzung in der Notaufnahme glänzt, hat einen einfachen Grund: Genau dort liegen kaum Informationen vor und die Zeit ist knapp. Menschen neigen dann dazu, sich vorschnell auf eine Verdachtsdiagnose festzulegen. Die KI kann dagegen viele mögliche Erklärungen gleichzeitig im Kopf behalten, ohne müde zu werden.“

Sinnvoller Einsatz von Sprachmodellen

„Den größten Nutzen wird das Sprachmodell nicht beim Stellen der endgültigen Diagnose haben, sondern als eine Art Sicherheitsnetz im Hintergrund: Es kann seltene oder leicht übersehene Krankheiten in Erinnerung rufen und prüfen, ob alle wichtigen Untersuchungen angefordert wurden. So kann es klassische Fehlerquellen abfedern.“

„Sinnvoll integriert wäre die KI als verpflichtende Zweitmeinung: Die Ärztin entscheidet zuerst selbst, danach zeigt das System seinen Vorschlag, sodass der Mensch die Verantwortung behält. Damit niemand der KI blind vertraut, braucht es klare Regeln, Schulungen und eine laufende Kontrolle der Empfehlungen.“

Übertragung auf die Praxis

„Die Ergebnisse sind nur bedingt übertragbar. Im Klinikalltag passiert viel mehr, als Text zu lesen: Ärzt:innen sehen, ob ein Patient unruhig wirkt, hören auf seinen Atem, schauen Röntgenbilder an und stellen Rückfragen. All das fehlt in der Studie komplett, weil das Modell nur fertig aufgeschriebene Fälle bekommt. Auch die Aufgabe, eine Zweitmeinung an drei festen Punkten zu geben, bildet keine echte Notaufnahme ab. Denn in der geht es vor allem um schnelle Triage (Verfahren zur Priorisierung von Notfällen; Anm. d. Red.) und sofortiges Handeln.“

„Ob ein KI-System wirklich hilft, lässt sich deshalb nicht durch immer neue Schreibtisch-Tests klären, sondern nur durch echte klinische Studien. Diese sollten messen, was zählt: weniger Fehldiagnosen, kürzere Wartezeiten sowie bessere Patientenergebnisse. Und es braucht eine dauerhafte Überwachung im Einsatz, ähnlich wie bei neu zugelassenen Medikamenten.“

Gesetzlicher Rahmen für die Verwendung von Sprachmodellen bei der Diagnose

„Rechtlich gesehen darf eine allgemeine LLM-gestützte Sprach-KI in Europa und den USA bisher nicht regulär für Diagnosen eingesetzt werden: Sobald sie zur Diagnose oder Therapieempfehlung dient, gilt sie als Medizinprodukt und muss zugelassen werden. Und genau das ist bislang für kein generatives Sprachmodell der Fall.“

„Das Problem ist grundsätzlich: Die heutigen Zulassungsverfahren sind für Software gedacht, die immer dieselbe Antwort gibt. Sprachmodelle aber antworten jedes Mal etwas anders und werden ständig aktualisiert. Außerdem sind sie für tausende Krankheitsbilder einsetzbar. Für so etwas gibt es schlicht noch keinen passenden Zulassungsweg. Wer das Modell heute am Patienten einsetzt, bewegt sich also entweder in einer klar abgegrenzten Forschungssituation oder in einer Grauzone. In dieser Grauzone ist unklar, wer haftet, wenn etwas schiefgeht – Ärztin, Klinik oder Hersteller.“

„Bevor solche Systeme in den Regelbetrieb gehen können, braucht es echte klinische Studien mit messbarem Patientennutzen. Außerdem sind eine eindeutige Festlegung, wofür das Modell genau zugelassen ist, sowie eine laufende Sicherheitsüberwachung wie bei Medikamenten wichtig. Haftungs- und Datenschutzregeln müssen geklärt und eine Lösung dafür gefunden werden, wie sensible Patientendaten überhaupt an solche Systeme weitergegeben werden dürfen.“

Prof. Dr. Gitta Kutyniok

Inhaberin des Lehrstuhls für mathematische Grundlagen der künstlichen Intelligenz, Ludwig-Maximilians-Universität München (LMU)

Aussagekraft der Studie

„Die Studie ist insgesamt methodisch stärker als viele frühere Benchmark-Arbeiten für künstliche Intelligenz (KI). Sie kombiniert unterschiedliche klinische Aufgaben mit einer menschlichen Ausgangsbasis und teils verblindeten Bewertungen sowie realen Notaufnahmefällen. Das erhöht die Aussagekraft deutlich. Sie zeigt überzeugend, dass moderne Sprachmodelle bei textbasierten medizinischen Diagnoseaufgaben inzwischen ein sehr hohes Niveau erreichen können.“

„Aus wissenschaftlicher Sicht ist aber zentral, dass die Aussagekraft immer von den gewählten Metriken abhängt. Ein Modell kann bei vielen ‚Standard‘-Diagnosen hervorragend abschneiden und trotzdem bei kritischen Erstentscheidungen schwächer sein. Wichtige zusätzliche Kriterien für weitere Studien wären daher Unsicherheitserkennung, Robustheit, Vermeidung gefährlicher Fehlentscheidungen und reale Patientenergebnisse.“

Möglichkeit, dass Szenarien aus dem Modell-Training bekannt waren

„Zudem ist es in der Tat ein Problem, dass den KI-Modellen mit hoher Wahrscheinlichkeit jahrzehntealte Standardfälle aus den Trainingsdaten bekannt sind. Deshalb sind die realen Notaufnahmefälle der aussagekräftigste Teil der Studie.“

Einordnung in den Forschungskontext

„Es überrascht mich weniger, dass ein modernes Sprachmodell sehr stark abschneidet. Aufgrund von früheren Studien entsprechender medizinischer Systeme wie AMIE war dies bereits absehbar. Neu ist bei dieser Studie eher, wie breit getestet wurde und dass auch reale Notaufnahmefälle mit einbezogen wurden.“

„Der bisherige Forschungsstand zeigt Folgendes. Erstens: KI allein ist bei standardisierten Diagnosefällen sehr stark, teils stärker als einzelne Ärzt:innen. Zweitens: Ärzt:innen allein sind unter bestimmten Bedingungen weiterhin überlegen. Nämlich, wenn umfangreiches Kontextwissen, nonverbale Informationen, Verantwortungsbewusstsein und Wissen über die aktuelle, oft hochgradig komplexe Situation entscheidend sind.“

Zusammenarbeit von Mensch und KI

„Drittens: Ärzt:innen mit KI gelten derzeit als der vielversprechendste Ansatz. Das gilt allerdings nur dann, wenn die Zusammenarbeit gut gestaltet ist. Denn eine Kooperation führt nicht automatisch zu besseren Ergebnissen. Wenn Ärzt:innen KI-Vorschläge blind übernehmen, entsteht ein sogenannter Automation Bias. Nur wenn sie die KI als strukturierte Zweitmeinung nutzen, kann die Qualität letztendlich steigen.“

„Somit passt die aktuelle Studie sehr gut zu diesem Bild. Sie zeigt, dass die KI-Komponente inzwischen sehr leistungsfähig geworden ist. Gleichzeitig beweist sie aber noch nicht, dass KI allein im Klinikalltag die beste Lösung wäre. Der wahrscheinlich beste Ansatz bleibt derzeit ein gut gestaltetes Mensch-KI-Team.“

Mögliche Gründe für das gute Abschneiden der KI bei der Erstentscheidung in der Notaufnahme

„Aus meiner Sicht ist die Tatsache sehr plausibel, dass der größte Vorteil einer Anwendung von KI in frühen Notaufnahme-Entscheidungen beobachtet wurde. Denn genau dort finden wir die Situation vor, dass Zeitdruck herrscht und unvollständige Informationen vorliegen. Außerdem sind viele parallele Entscheidungen zu treffen und die Ärzt:innen leiden allgemein unter einer kognitiven Überlastung – gerade bei langen Schichten. Ein Sprachmodell kann hingegen in Sekunden große Mengen an Symptomen, Vorerkrankungen und Mustern abgleichen und eine umfangreiche Diagnose liefern.“

„Es ist bewiesen, dass Menschen gerade in solchen Stresssituationen naturgemäß anfälliger dafür sind, Aspekte zu übersehen, oder auch für den sogenannten Tunnelblick. Ich sehe somit den größten, realistischen Mehrwert nicht bei autonomen Aufnahmeentscheidungen. Sondern er liegt wohl bei Ersteinschätzungen, Vorschlägen für Diagnosen oder auch Hinweisen auf mögliche gefährliche Krankheitsbilder.“

Sinnvoller Einsatz von Sprachmodellen

„Somit wäre meiner Meinung nach eine sinnvolle Integration, dass das KI-Modell als ‚Second-Opinion-System‘ im Hintergrund arbeitet. Dort liefert es sowohl Vorschläge und Alternativen als auch Unsicherheiten. Die finale Entscheidung sollte derzeit aber weiterhin vom medizinischen Personal getroffen werden. In der Tat ist ein Automation Bias eine echte Gefahr. Diese kann aber etwa durch eine verpflichtende menschliche Erstbewertung vor der KI-Entscheidung verhindert werden. Oder auch durch eine Anzeige von Unsicherheit statt lediglich klarer Antworten.“

Übertragung auf die Praxis

„Ich sehe die Übertragbarkeit der in der Studie durchgeführten Experimente auf den Klinikalltag als begrenzt an. Die Diagnostik ist hochkomplex und schließt diverse körperliche Untersuchungen und Laborergebnisse sowie nonverbale Signale der Patientin beziehungsweise des Patienten mit ein. Zudem gibt es im Klinikalltag weitere Aspekte wie Haftungsfragen oder organisatorische Einschränkungen. Somit kann ein KI-Modell auf schriftlich sauber formulierten Fällen exzellent, im ‚chaotischen‘ Klinikalltag aber deutlich schwächer sein.“

Wie gelingt die Evaluierung von KI-Systemen?

„Hinzu kommt ein weiterer wichtiger wissenschaftlicher Aspekt: Eine hohe Trefferquote reicht nicht aus, denn ein medizinisches KI-System muss auch erkennen können, wann es etwas nicht weiß. Studien zeigen, dass dies für KI-Systeme grundsätzlich schwierig ist [1]. Ein Modell kann also sehr oft richtig liegen und gleichzeitig gefährlich selbstsicher falsche Aussagen treffen. Deshalb sind Textbenchmarks ein sinnvoller erster Schritt, aber eben keine ausreichende Qualitätskontrolle. Entscheidend sind reale klinische Studien unter Alltagsbedingungen mit sorgfältig aufgesetzten Qualitätsmetriken. Diese sollten auch ‚Sicherheitsmetriken‘ wie ‚Erkennt das System Unsicherheit?‘ miteinschließen.“

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Felix Nensa

„Ich sehe keinen Interessenkonflikt.“

Prof. Dr. Thomas Neumuth

„Ich habe keine Interessenkonflikte.“

Prof. Dr. Gitta Kutyniok

„Hiermit bestätige ich, dass ich keinen Interessenkonflikt bezüglich dieser Studie habe.“

Quellen

Primärquelle

Brodeur PG et al. (2026): Performance of a large language model on the reasoning tasks of a physician. Science: DOI: 10.1126/science.adz4433.

Weiterführende Recherchequellen

Science Media Center (2026): Chatbots als Erstkontakt bei medizinischen Fragen. Press Briefing. Stand: 13.04.2026.

Science Media Center (2026): Rechtswissenschaftliche Einordnung: Chatbots als Erstkontakt bei medizinischen Fragen. Statements. Stand: 13.04.2026.

Science Media Center (2026): Chatbots: fehlerhafte Kommunikation bei Gesundheitsfragen. Statements. Stand: 09.02.2026.

Science Media Center (2025): Künstliche Intelligenz sagt Erkrankungsrisiken vorher. Statements. Stand: 17.09.2025

Science Media Center (2025): Künstliche Intelligenz in der Medizin: Qualität, Implementierung und Vertrauen. Statements. Stand: 22.07.2025.

Literaturstellen, die von den Expert:innen zitiert wurden

[1] Boche H et al. (2025): Computability of Classification and Deep Learning: From Theoretical Limits to Practical Feasibility Through Quantization. Journal of Fourier Analysis and Applications. DOI: 10.1007/s00041-025-10163-w.

Literaturstellen, die vom SMC zitiert wurden

[I] Goh E et al. (2025): GPT-4 assistance for improvement of physician performance on patient care tasks: a randomized controlled trial. Nature Medicine. DOI: 10.1038/s41591-024-03456-y.

[II] Goh E et al. (2024): Large Language Model Influence on Diagnostic Reasoning. JAMA Network Open. DOI: 10.1001/jamanetworkopen.2024.40969.

[III] The New England Journal of Medicine (2026): Case Challenges. Sammlung medizinischer Fallberichte. Stand: 29.04.2026.

[IV] American College of Physicians (2025): Core IM. Podcast Episoden.

[V] Berner ES et al. (1994): Performance of Four Computer-Based Diagnostic Systems. The New England Journal of Medicine. DOI: 10.1056/NEJM199406233302506.

[VI] Morgen DJ et al. (2021): Accuracy of Practitioner Estimates of Probability of Diagnosis Before and After Testing. JAMA Internal Medicine. DOI: 10.1001/jamainternmed.2021.0269.

Prof. Dr. Felix Nensa

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Ich sehe keinen Interessenkonflikt.“

Prof. Dr. Thomas Neumuth

Stellvertretender Direktor des Innovation Center Computer Assisted Surgery (ICCAS), Universität Leipzig

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Ich habe keine Interessenkonflikte.“

Prof. Dr. Gitta Kutyniok

Inhaberin des Lehrstuhls für mathematische Grundlagen der künstlichen Intelligenz, Ludwig-Maximilians-Universität München (LMU)

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Hiermit bestätige ich, dass ich keinen Interessenkonflikt bezüglich dieser Studie habe.“

Expert:innen

Literatur