Heidelberger KI-Agent für Patientenversorgung
deutsche Forschende entwickeln KI-Agent, der nicht nur Diagnosen stellen, sondern auch selbst medizinische Tests und Therapien einleiten kann
Gesundheitssystem gilt als überlastet, welche Rolle Automatisierung durch KI einnehmen könnte, ist ungeklärt
Expertin und Experten: vorgestellte KI erziele unter Laborbedingungen gute Ergebnisse, der Klinikalltag biete aber weitere Hürden; teilautomatisierte Prozesse entlasteten Personal, Umsetzung und Verantwortungsfragen müssten aber präzise geklärt werden
Ein Team um Forschende des Universitätsklinikums Heidelberg hat eine künstliche Intelligenz (KI) entwickelt, die Krankenhauspersonal entlasten soll. Ihr KI-Agent MIRA (Medical Intelligence for Reasoning and Action) ist für die Patientenaufnahme konzipiert: Im Gespräch mit Patientinnen und Patienten soll er zunächst deren Krankenhistorie herausfinden. Auf dieser Basis ordnet er medizinische Tests an, wertet die Ergebnisse aus, stellt eine Diagnose und leitet weitere Schritte wie Medikation oder Operationen ein. Das Forschungsteam hat MIRA bisher nur in einem virtuellen Experiment evaluiert, nicht im Klinikalltag. Die Ergebnisse hat das Fachjournal „Nature“ veröffentlicht (siehe Primärquelle).
KI wird bereits vielseitig in Krankenhäusern eingesetzt [I]. Weit verbreitet sind etwa Systeme, die radiologische Bilder oder Gewebeproben analysieren. In der Chirurgie gibt es außerdem erste Roboter-Assistenzsysteme und in der Krebsbehandlung den Ansatz, personalisierte Therapien mittels KI zu erstellen. Allerdings handelt es sich bei den verwendeten Systemen in vielen Fällen weder um Sprachmodelle noch um KI-Agenten. Im Gegensatz zu einfachen Sprachmodellen können KI-Agenten autonom mit anderen Programmen interagieren und dadurch etwa Emails versenden. Aktuell wird diskutiert, ob Sprachmodelle in Form von Chatbots ebenso in der Gesundheitsversorgung helfen könnten – zum Beispiel, indem sie Laien medizinische Fragen beantworten oder in der Notaufnahme erste Diagnosen stellen [II] [III].
Co-Leiterin des Instituts für Patient-centered Digital Health, Berner Fachhochschule (BFH), Schweiz
Bewertung der Methodik
„Der MIMIC-IV-Datensatz ist in der medizinischen Forschung weitverbreitet. Seine Repräsentativität ist jedoch eingeschränkt. Denn die Daten stammen aus einem einzelnen akademischen Krankenhaus und umfassen überwiegend stationär behandelte Patient:innen. Ein erheblicher Teil der Daten stammt von kritisch erkrankten Patient:innen auf Intensivstationen. Daher ist der Datensatz nicht repräsentativ für die Allgemeinbevölkerung. Die Übertragbarkeit von Forschungsergebnissen auf andere Populationen sollte sorgfältig geprüft werden.“
„Der Patientensimulator hat ganz klare Anweisungen, wie er zu kommunizieren hat. Das hat mit Realität wenig zu tun.“
KI als Ersatz für medizinisches Personal
„Die Performanz der künstlichen Intelligenz (KI) MIRA ist erfreulich. Dennoch ist es unrealistisch zu erwarten, dass solche KI-Assistenten Ärztinnen und Ärzte in absehbarer Zukunft vollständig ersetzen. Für klinische Entscheidungen braucht es mehr als Folgsamkeit gegenüber Guidelines. Es braucht ein Verständnis für die individuelle Situation von Patient:innen.“
„KI kann das medizinische Personal sicher in der Datenanalyse unterstützen. Hürden sind aktuell die Datenrealität im Gesundheitswesen, Zulassungsverfahren, unklare Verantwortlichkeiten und auch repräsentative Studien, die Risiken solcher Systeme untersuchen.“
KI-Assistenten in der Praxis
„In der Radiologie wird KI sowie Maschinelles Lernen bereits seit Jahren zur Unterstützung der Befundung genutzt. Chatbots für die Patiententriage oder zur Informationsbereitstellung sind zielführend und sparen Zeit. Sogenannte Ambient Scribes, die Arzt-Patientengespräche transkribieren und relevante Daten für die elektronische Patientenakte aufbereiten, sind sehr im Kommen.“
„Aber schlussendlich braucht es immer noch eine Überprüfung durch einen Menschen. Wieviel Effizienz und Zeitersparnis dabei entsteht und ob es wirklich Patient:innen nutzt, muss sich erst noch zeigen.“
KI und die elektronische Patientenakte
„MIMIC-IV besteht zum größten Teil aus strukturierten Daten. Außerdem wurden die Daten bereinigt, harmonisiert und anonymisiert. Die Realität bei elektronischen Patientenakten wie der ePA ist, dass viele Informationen weiterhin als PDF abgelegt werden und damit weder standardisiert noch strukturiert sind. Mit einer zunehmenden Einführung von HL7-FHIR-basierten Datenmodellen (HL7-FHIR ist ein technischer Standard zum digitalen Austausch von Gesundheitsdaten; Anm. d. Red.) und standardisierten Terminologien könnte sich die ePA künftig zu einer wichtigen Quelle strukturierter Versorgungsdaten entwickeln.“
Professor für Medizinische Ethik mit Schwerpunkt auf Digitalisierung, Fakultät für Gesundheitswissenschaften, Universität Potsdam, und wissenschaftlicher Mitarbeiter am Digital Health Cluster, Hasso-Plattner-Institut (HPI), Potsdam
Unterschiedliche Potenziale von Sprachmodellen und KI-Agenten
„In den vergangenen Jahren hat sich trotz bestehender Limitationen die Leistungsfähigkeit von Sprachmodellen (LLMs) in der Medizin angedeutet. Diese Modelle sind stark darin, Texte zu verfassen, Fragen zu beantworten, Informationen zusammenzufassen oder Befunde zu erklären. Gleichzeitig bleiben sie im Kern reaktiv. Sie antworten auf Eingaben, verfolgen aber keine eigenen Handlungsabläufe.“
„Genau hier kommen KI-Agenten ins Spiel. Seit etwa einem Jahr sind sie im Trend und werden zuweilen als neues Paradigma der KI-Entwicklung präsentiert. In der Versorgungspraxis ist davon bislang allerdings noch nichts angekommen. Die Studie stellt hierzu einen spannenden und methodisch klug gemachten Beitrag dar. Sie untersucht sozusagen unter Laborbedingungen die Leistungsfähigkeit von KI-Agenten.“
„Im Unterschied zu klassischen Chatbots können KI-Agenten Aufgaben über mehrere Schritte hinweg planen und ausführen. Sie nutzen externe Werkzeuge, fragen Datenbanken ab oder arbeiten mit anderen spezialisierten KI-Agenten zusammen. Im Alltag können solche Systeme den günstigsten Flug suchen, ein Hotel buchen und anschließend noch ein Taxi organisieren. In der Medizin könnten sie künftig Patientendaten auswerten, Befunde und Leitlinien zusammenführen, diagnostische oder therapeutische Optionen vorbereiten und klinische Abläufe koordinieren.“
„In gewisser Weise ‚handeln‘ diese Agenten zielgerichtet. Wobei wir hier mit der Sprache aufpassen müssen. Derartige Modelle sind freilich nicht in einem substanziellen Sinne autonom. Aber sie können zunehmend komplexe und mehrstufige Aufgaben automatisieren. Das macht sie gerade für das Gesundheitswesen interessant.“
Limitationen der Studie und Übertragbarkeit der Ergebnisse in die Klinik
„Wie bei fast allen KI-Studien stellt sich auch hier die Kardinalfrage: Funktioniert das nur im Labor oder auch im echten Klinikalltag? Genau daran scheitern bislang viele vielversprechende KI-Systeme. Im Test sehen sie hervorragend aus. Sie stoßen aber schnell an Grenzen, sobald reale Patienten und Behandler, unvollständige Daten, unterschiedliche IT-Systeme oder organisatorische Hürden ins Spiel kommen. Viele leistungsfähige Modelle scheitern letztlich an der Realität des Gesundheitssystems, wenn es chaotisch wird.“
„Die Autoren sprechen derartige Limitationen erfreulich offen an. Außerdem weisen sie auf weitere kritische Punkte hin: So kann es sein, dass die Fälle aus der verwendeten Datenbank MIMIC-IV bereits in den Trainingsdaten des Modells enthalten waren. Das halte ich durchaus für plausibel. Dann hätte das System weniger gezeigt, dass es tatsächlich die richtigen Schlüsse zieht, sondern dass es sich vielmehr an die richtigen Antworten ‚erinnert‘. Das schmälert die Bedeutung der Studie nicht grundsätzlich, macht aber deutlich, wie schwierig die Evaluation moderner KI-Systeme ist.“
Schnelle Entwicklung neuer KI-Systeme
„Hinzu kommt ein weiteres Problem: Die KI entwickelt sich mittlerweile schneller, als die wissenschaftlichen Prüfsysteme arbeiten. Die betrachtete Studie wurde vor über einem Jahr eingereicht. Das zugrunde liegende Modell GPT-4o erschien vor rund zwei Jahren. In der aktuellen KI-Welt sind das beinahe Lichtjahre. Einerseits sehen wir hier also die beachtliche Leistung eines Systems, das inzwischen als veraltet gelten kann. Andererseits erlaubt die Studie damit einen Blick darauf, was mit den neuesten Modellen künftig möglich sein könnte.“
Wer ist zukünftig für medizinische Entscheidungen verantwortlich?
„Die Studie ist nicht nur als Grundlagenforschung interessant. Sie zeigt auch, wohin die Entwicklung in der Medizin gehen könnte. Aus ethischer Sicht ist es wünschenswert, leistungsfähige und effiziente KI-Systeme einzusetzen. Gleichzeitig werfen gerade autonome KI-Agenten neue und weitreichende Fragen auf.“
„Ihr Zweck besteht darin, Prozesse zu automatisieren. Zugleich gilt bislang ein ärztlicher Vorbehalt: Bestimmte medizinische Entscheidungen dürfen weder an Nicht-Ärzte noch an Computersysteme delegiert werden. Deshalb betonen die Autoren zu Recht, dass solche Systeme gegenwärtig weder Fachpersonal ersetzen können noch dürfen. Sie sollten ausschließlich unterstützend eingesetzt werden und unter ärztlicher Aufsicht stehen.“
„Genau hier zeichnet sich aber ein Konflikt ab, der das Gesundheitswesen im KI-Zeitalter prägen dürfte. Wenn eine KI tatsächlich auf Expertenniveau arbeitet, warum sollen dann ausgerechnet Experten noch alles kontrollieren? Und welche Rolle können Ärzte sinnvollerweise einnehmen, wenn die automatisierten Prozesse zunehmend komplexer werden? Diese Frage wird mit steigender Leistungsfähigkeit der KI-Systeme immer schwieriger zu beantworten sein.“
Probleme bei unterschiedlichen Befunden von Mensch und KI
„Hinzu kommt der sogenannte Automation Bias. Menschen neigen dazu, Maschinen zu vertrauen – insbesondere, wenn diese als besonders kompetent wahrgenommen werden. Das gilt umso mehr für komplexe KI-Agenten. Diese sind ja gerade deshalb angedacht, weil sie mehr Prozesse und Aufgaben übernehmen können als ein einzelner Mensch.“
„Für mich entsteht manchmal der Eindruck, dass Ärzte vor allem deshalb als Aufsichtspersonen vorgesehen werden, weil wir lieber Menschen als Maschinen verantwortlich machen möchten. Ob ein Arzt die Vielzahl der Entscheidungen und Handlungsschritte eines hochkomplexen KI-Agenten tatsächlich noch wirksam kontrollieren kann, ist eine andere Frage.“
„Auch das Verhältnis zwischen Arzt und Patient könnte sich durch KI-Agenten verändern. Was passiert, wenn die KI zu einer anderen Einschätzung kommt als der behandelnde Arzt? Wem soll der Patient vertrauen? Wer übernimmt die Verantwortung? Und was, wenn künftig mehrere KI-Agenten gleichzeitig beteiligt sind? Die Autoren diskutieren beispielsweise die Möglichkeit eines zusätzlichen Agenten, der den Ressourceneinsatz überwacht. Wer sollte am Ende den Vorrang haben, wenn der Agent für die Behandlung und der Agent für die Kostenkontrolle zu unterschiedlichen Empfehlungen gelangen? Die Zukunft einer KI-gestützten Medizin kann zahlreiche Vorzüge bringen. Sie könnte aber die Parameter der uns vertrauten Behandlungsbeziehung radikal verändern.“
Bedeutung der Datenbasis für die Qualität der KI-Befunde
„Positiv hervorzuheben ist, dass sich die Studie ausdrücklich mit möglichen Verzerrungen in den Daten beschäftigt. Die verwendete Datenbank stammt aus den USA. Dabei erscheint mir weniger entscheidend, ob sich die Ergebnisse unmittelbar auf Deutschland übertragen lassen. Wichtiger ist die grundsätzliche Frage, wie wir KI-Systeme entwickeln, die möglichst vielen Menschen zugutekommen.“
„Werden solche Systeme auf Grundlage elektronischer Patientenakten trainiert, fehlen zwangsläufig bestimmte Gruppen. Das betrifft etwa die, die seltener Zugang zum Gesundheitssystem haben. KI-Systeme werden nie vollständig frei von Verzerrungen sein. Entscheidend ist deshalb, sich dieser blinden Flecken bewusst zu sein und sie aktiv zu adressieren.“
Leiter des Fachgebiets Management im Gesundheitswesen, Technische Universität Berlin
Reinhard Busse und Benedikt Langenberger haben sich gemeinsam geäußert, aber zu unterschiedlichen Fragen.
Bewertung der Ergebnisse
„Die Ergebnisse sind beeindruckend, sollten aber vorsichtig interpretiert werden: MIRA zeigt, dass ein KI-Agent klinische Abläufe sowie Diagnose- und Therapieentscheidungen strukturiert abbilden kann. Das heißt aber noch nicht, dass dadurch im Alltag bessere Versorgung entsteht oder Kosten reduziert werden können.“
„Dass KI-Agenten künftig ähnliche Aufgaben übernehmen, halten wir grundsätzlich für realistisch. Dies wird zunächst vermutlich im Sinne eines Copiloten geschehen. Sinnvoll wäre ein Einsatz dort, wo Vorschläge vorbereitet und ärztlich freigegeben werden können – etwa bei weiterführender Diagnostik, Vorschlägen für Laboranforderungen- und Medikation oder Therapieentscheidungen. Dies wurde auch von dem System in der Studie aufgezeigt.“
„Die starke Interoperabilität des Systems ist beeindruckend und von echtem Mehrwert. Bezüglich der Performance gab es Heterogenität über die verschiedenen einbezogenen Diagnosen. Auch die berichtete Leitlinienadhärenz sollte vorsichtig interpretiert werden. Denn sie bildete vor allem medikationsbezogene Aspekte ab und wurde überwiegend durch einen LLM-basierten Evaluator bewertet.“
KI-Assistenten in der Praxis
„Die zentrale Frage ist, wie Ärzt:innen und Pflegepersonal mit KI-Vorschlägen im Arbeitsalltag interagieren und ob dabei wirklich unter realen Bedingungen spürbare Verbesserungen für Patient:innen entstehen. Daran müssen wir es messen. Zentrale Hürden sind zudem die Integration in Krankenhaus-IT, Haftungs- und Zulassungsfragen als Medizinprodukt sowie bei sektorenübergreifenden Anwendungen potenziell die Integration in die elektronische Patientenakte.“
KI und die elektronische Patientenakte
„Wichtig ist, dass die Patienteninformationen, die im Datenbanksystem MIMIC-IV enthalten sind, aus den institutionellen ‚electronic health records‘ entnommen sind. Das heißt, sie stammen aus den im Krankenhaus vorhandenen elektronischen Krankenakten. Damit ist die Datentiefe nicht mit der deutschen ePA vergleichbar, selbst nach ihrer kompletten Einführung.“
„MIMIC-IV ist ein kuratierter Forschungsdatensatz aus einem US-Krankenhaus, nämlich dem Beth Israel Deaconess Medical Center in Boston. Er spiegelt die Versorgung dort hinsichtlich der real durchgeführten diagnostischen Tests wider. Währenddessen ist die deutsche ePA vor allem eine sektorenübergreifende Versorgungsakte im Aufbau.“
„Für ein System wie MIRA braucht man nicht nur Dokumente wie Entlassungsbriefe, sondern aktuelle, möglichst vollständige Daten in Echtzeit aus dem Krankenhaus: Labor, Radiologie, Medikation und Anordnungssysteme. Viele ePA-Inhalte liegen dagegen noch dokumentenbasiert oder abhängig von Befüllung, Widerspruch und Praxisintegration mit starker Zeitverzögerung vor.“
„Die ePA kann langfristig in verschiedenen Kontexten eine Rolle spielen, weil sie Informationen aus verschiedenen Sektoren bündeln und damit eine bessere Grundlage für KI-gestützte Entscheidungsunterstützung schaffen könnte. Dafür müssten Daten aber standardisiert, aktuell, interoperabel und verlässlich in klinische Workflows eingebunden sein. Kurz gesagt: Die ePA ist perspektivisch wichtig, aber in ihrer heutigen Form noch keine Datengrundlage, auf der man ein MIRA-ähnliches System sektorenübergreifend einfach in Deutschland reproduzieren könnte. Realistischer ist zunächst ein Vergleich mit Krankenhaus-Informationssystemen.“
Wissenschaftlicher Mitarbeiter im Bereich Digitale Gesundheit, Wirtschaft und Politik, Hasso-Plattner-Institut (HPI), Potsdam
Reinhard Busse und Benedikt Langenberger haben sich gemeinsam geäußert, aber zu unterschiedlichen Fragen.
Bewertung der Methodik
„Mit Blick auf die Methodik ist die Studie ein interessanter und gut gemachter Machbarkeitshinweis. Aber sie ist aufgrund verschiedener Einschränkungen bislang nur begrenzt auf reale Notaufnahmesituationen übertragbar, insbesondere außerhalb der USA. So waren etwa die Patient:innen nicht real, sondern wurden durch eine Patient:innen simulierende künstliche Intelligenz (KI) künstlich nachgestellt. Die Antworten wurden aus bis zum gegenwärtigen Zeitpunkt dokumentierten Krankheitsinformationen und Entlassungsbriefinformationen abgeleitet. Insbesondere letzterer Punkt ist potenziell kritisch, auch wenn Informationslecks geprüft und explizit nicht gefunden wurden. In der Studie steht nicht, ob die Ärztinnen und Ärzte in Deutschland tätig sind. Den teilnehmenden Ärzten und Ärztinnen standen dieselben Informationen zur Verfügung wie MIRA, was zumindest dem MIRA-System keinen Informationsvorteil gab.“
„MIMIC-IV ist ein retrospektiver US-Krankenhausdatensatz aus einem einzelnen Krankenhaus, dem Beth Israel Deaconess Medical Center in Boston. Wenn ein medizinischer Test dort nicht durchgeführt wurde, kann die Simulation natürlich kein echtes neues Testergebnis erzeugen und darauf basierend neue Entscheidungen treffen. Das ist eine klare Einschränkung der Sandbox. Hinzu kommt, dass nur acht Zielerkrankungen untersucht wurden.“
Bedeutung der Ergebnisse für die Personalentlastung
„Die gezeigten Fähigkeiten sind sehr relevant. Denn MIRA unterstützt nicht nur eine einzelne Entscheidung, sondern verbindet mehrere Schritte eines klinischen Workflows interoperabel: Anamnese, Diagnostik, Medikationsplanung und Therapieentscheidung im Klinikalltag. Gerade hier liegt das Entlastungspotenzial: Ein agentisches System sammelt und strukturiert Informationen, fundiert und bereitet zuverlässig diverse nächste Schritte vor oder setzt diese in einem gewissen Rahmen sogar selbstständig um. Dabei liefert es echte Entlastung.“
„Kurzfristig am plausibelsten sind insbesondere Copilot-Funktionen unter ärztlicher Freigabe, wie auch in der Studie hervorgehoben. Bisweilen lag der Fokus vor allem auf enger umrissenen KI-Anwendungen, etwa in Radiologie, Kardiologie, Bildanalyse und Triage-Unterstützung. Ein umfassender Agent wie MIRA wäre eine echte Innovation und würde unter Umständen viele Schritte vereinfachen. Jedoch benötigen wir, wie bereits angemerkt, erst Evidenz aus der Real-Praxis mit einer zeitgleichen Kontrollgruppe ohne KI-Einsatz, um sicher sagen zu können, welcher finanzielle und Outcome-bezogene Vorteil durch agentische Systeme entstehen könnte. Durch den dramatischen Fortschritt bei der Entwicklung von agentischen KI-Systemen kann sich die Datenlage zudem schnell ändern.“
„Ich habe keine Interessenkonflikte.“
„Keine.“
„Es liegen keine Interessenkonflikte vor.“
„Es liegen keine Interessenkonflikte vor.“
Primärquelle
Kather JN et al. (2026): Towards Autonomous Medical Artificial Intelligence Agents. Nature. DOI: 10.1038/s41586-026-10675-5.
Literaturstellen, die vom SMC zitiert wurden
[I] Science Media Center (2025): Künstliche Intelligenz in der Medizin: Qualität, Implementierung und Vertrauen. Statements. Stand: 22.07.2025.
[II] Science Media Center (2026): Chatbots als Erstkontakt bei medizinischen Fragen. Press Briefing. Stand: 13.04.2026.
[III] Science Media Center (2026): Sprachmodelle könnten bei medizinischen Diagnosen helfen. Statements. Stand: 30.04.2026.
[IV] Schaekermann M et al. (2026): Towards Conversational AI for Disease Management. Nature. DOI: 10.1038/s41586-026-10764-5.
Prof. Dr. Kerstin Denecke
Co-Leiterin des Instituts für Patient-centered Digital Health, Berner Fachhochschule (BFH), Schweiz
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte.“
Prof. Dr. Robert Ranisch
Professor für Medizinische Ethik mit Schwerpunkt auf Digitalisierung, Fakultät für Gesundheitswissenschaften, Universität Potsdam, und wissenschaftlicher Mitarbeiter am Digital Health Cluster, Hasso-Plattner-Institut (HPI), Potsdam
Angaben zu möglichen Interessenkonflikten
„Keine.“
Prof. Dr. Reinhard Busse
Leiter des Fachgebiets Management im Gesundheitswesen, Technische Universität Berlin
Angaben zu möglichen Interessenkonflikten
„Es liegen keine Interessenkonflikte vor.“
Dr. Benedikt Langenberger
Wissenschaftlicher Mitarbeiter im Bereich Digitale Gesundheit, Wirtschaft und Politik, Hasso-Plattner-Institut (HPI), Potsdam
Angaben zu möglichen Interessenkonflikten
„Es liegen keine Interessenkonflikte vor.“