Sprachmodell für medizinische Fragen

12.07.2023

DeepMind-Sprachmodell für medizinische Fragen und Benchmark zur Beurteilung solcher Ansätze

noch Limitationen, schnitt aber ähnlich gut ab wie Klinikerinnen und Kliniker

laut unabhängigen Experten können Sprachmodelle zum Beispiel bei Diagnosen helfen und medizinisches Wissen leichter verfügbar machen, Fachpersonal bleibt aber unersetzlich

Ein Sprachmodell für medizinische Fragen gibt Antworten von ähnlicher Qualität wie die von Klinikerinnen und Klinikern. Die zu Google gehörige KI-Schmiede DeepMind stellte am 12. Juli im Fachjournal „Nature“ dieses Modell und einen Benchmark vor, einen Maßstab zur Beurteilung der Leistung solcher Modelle (siehe Primärquelle).

Sprachmodelle weisen im medizinischen Bereich etwa bei der Diagnose und der Bereitstellung von Informationen großes Potenzial auf. Benchmarks zur Evaluation ihrer Leistung sind dabei wichtig, um herauszufinden, wie hilfreich solche Modelle in der Praxis sein können. Die Autorinnen und Autoren merken aber an, dass bisherige Benchmarks oft nur die Leistung der Sprachmodelle in einzelnen medizinischen Tests beurteilen und daher nur begrenzte Aussagekraft haben. Sie stellen daher einen neuen Benchmark vor: MultiMedQA. Dieser setzt sich aus sieben Datensätzen zusammen: sechs bereits existenten mit Fragen aus medizinischer Forschung und von Patientinnen und Patienten, sowie HealthSearchQA, einem neuen Fragensatz aus 3173 medizinischen Fragen, nach denen online häufig gesucht wurde.

Auf der Basis des Google-Sprachmodells PaLM haben die Autorinnen und Autoren ein Sprachmodell für medizinische Fragen erstellt, das bei den meisten Datensätzen des MultiMedQA-Datensatzes mindestens so gut abschneidet wie andere State-of-the-Art-Modelle. Bei Fragen im Stil von medizinischen Zulassungsexamen in den USA war das Modell im Durchschnitt 17 Prozent genauer als andere aktuelle Sprachmodelle. Es reichte aber noch nicht an die Qualität der Antworten von medizinischem Fachpersonal heran.

Ihr Modell haben die Forschenden durch „instruction prompt tuning“ verbessert, einer Methode, um Sprachmodelle mit wenigen Musterbeispielen besser an bestimmte Domänen wie Medizin anzupassen. Das so entwickelte Modell Med-PaLM schnitt in einer Evaluation durch Klinikerinnen und Kliniker in vielen Aspekten ähnlich gut ab wie andere medizinische Fachleute. Ein Panel von neun Ärztinnen und Ärzten schätzte die Leistung des Modells ein. Dabei beurteilte je eine Person eine Antwort des Modells auf zufällige Fragen aus den Benchmark-Datensätzen, darunter medizinische Forschungsfragen und häufig gestellte Fragen von Patientinnen und Patienten. Daraus ergab sich, dass 92,6 Prozent der ausführlichen Antworten von Med-PaLM dem wissenschaftlichen Konsens entsprechen – nah an den 92,9 Prozent der Antworten von Klinikerinnen und Klinikern. 5,8 Prozent der Antworten von Med-PaLM wurden als potenziell schädlich beurteilt – vergleichbar mit den 6,5 Prozent der Antworten der Fachleute. In einigen Aspekten blieb die Leistung des Modells jedoch noch hinter der menschlichen Leistung zurück. So beinhalteten die Antworten des Sprachmodells bei 18,7 Prozent der Antworten inkorrekte oder unpassende Inhalte – viel häufiger als bei den menschlichen Antworten, dort waren es nur 1,4 Prozent.

Die Autorinnen und Autoren betonen auch mögliche Limitationen und Verbesserungsmöglichkeiten ihres Ansatzes. So wurden die Antworten von Klinikerinnen und Klinikern sowie von Med-PaLM jeweils nur von einer Person beurteilt, was das Ergebnis verfälschen könnte. In Zukunft, so die Forschenden, sollten solche Modelle auch besser darin werden, ihre Aussagen auf Basis medizinischer Quellen zu treffen und diese anzugeben oder Unsicherheiten in den Antworten besser zu kommunizieren. Darüber hinaus müsse die Vermeidung von Vorurteilen und weitere Aspekte von Fairness und Ethik noch mehr berücksichtigt werden – gerade, wenn die Modelle in der Praxis eingesetzt werden sollen.

Übersicht

Prof. Dr. Andreas Holzinger, Leiter des Human-Centered AI Lab, Universität für Bodenkultur Wien (BOKU) und Medizinische Universität Graz, Österreich

Prof. Dr. Carsten Eickhoff, Leiter des Health NLP Lab, Eberhard Karls Universität Tübingen

Dr. Carsten Marr, Direktor des Instituts AI for Health, Helmholtz Zentrum München – Deutsches Forschungszentrum für Gesundheit und Umwelt, München

Prof. Dr. Roland Eils, Gründungsdirektor des Zentrums für Digitale Gesundheit des Berlin Institute of Health in der Charité (BIH)
und Benjamin Wild, Wissenschaftlicher Mitarbeiter, Zentrum für Digitale Gesundheit des Berlin Institute of Health in der Charité (BIH)

Statements

Prof. Dr. Andreas Holzinger

Leiter des Human-Centered AI Lab, Universität für Bodenkultur Wien (BOKU) und Medizinische Universität Graz, Österreich

„Im Allgemeinen zeigen große Sprachmodelle (jeder kennt heute ChatGPT) in praktisch allen Anwendungsbereichen beeindruckende Fähigkeiten, so auch in der Medizin. In dieser Arbeit, die bereits am 26.12.2022 auf Arxiv veröffentlicht wurde [1], stellen die Autoren Karan Singhal et al. einen Benchmark und einen Rahmen für die menschliche Bewertung von Modellantworten entlang mehrerer Achsen vor, darunter Faktizität, Verständnis, potenzieller Schaden und Verzerrung. Damit evaluieren sie ihr PaLM (kurz für Pathways Language Model). Das ist ein 540 Milliarden Parameter großes Sprachmodell. Die Ergebnisse sind beeindruckend, aber die menschliche Bewertung zeigt wichtige Lücken auf. Um dies zu beheben, führen die Autoren ein sogenanntes Instruktionsprompt-Matching ein, einen parametereffizienten Ansatz zur Anpassung solch großer Sprachmodelle an neue Domänen anhand weniger Beispiele. Das daraus resultierende Modell, Med-PaLM, zeigt ermutigende Leistungen, bleibt aber menschlichen Klinikern unterlegen. Die Autoren zeigen, dass sich das Verständnis, der Wissensabruf und das schlussfolgernde Denken mit der Skalierung des Modells und der Anpassung der Anweisungen verbessern. Die Evaluierungen mit menschlichen Experten zeigen die Grenzen der aktuellen Modelle auf und unterstreichen die Bedeutung von Evaluierungsrahmen und Methodenentwicklung für die Entwicklung sicherer, hilfreicher Sprachmodelle für klinische Anwendungen.“

Auf die Frage, wie die Leistung des Sprachmodells zu beurteilen ist:
„Keine Frage, die Leistungen solcher großen Sprachmodelle sind beeindruckend – insbesondere, wenn man sich vor Augen hält, dass es sich um Leistungen von Modellen, die auf digitalen Computern laufen, handelt, wo jede Operation auf die Addition von Binärzahlen zurückgeführt wird. Das hat mich schon als Kind fasziniert. Es ist wichtig zu bedenken, dass diese Leistung, obwohl sie in einigen Aufgabenstellungen natürlich beeindruckend ist, stark vom Kontext und der Art der Aufgabe abhängt. Sprachmodelle haben kein wirkliches Verständnis der Welt – wie es Menschen haben. Sie generieren Antworten auf der Basis von Mustern, die sie in den Daten gesehen haben, mit denen sie trainiert wurden. Allerdings können sie nicht auf Kenntnisse oder Erfahrungen zurückgreifen, und sie haben keine Fähigkeit zu generalisieren beziehungsweise Kontext auf die gleiche Weise zu verstehen, wie es ein Mensch tut. Wichtig ist auch, dass es ein generelles Problem der KI ist, die Gültigkeit oder Zuverlässigkeit einer Informationsquelle zu beurteilen, ganz zu schweigen von emotionalem Verständnis und Empathie: Obwohl Sprachmodelle Texte generieren können, die emotional erscheinen mögen, haben sie kein Verständnis für Emotionen und können keine Empathie ‚fühlen‘.“

Auf die Frage, wie der vorgestellte Benchmark zu beurteilen ist:
„Benchmarks können natürlich dabei helfen, die generelle Leistung eines großen Sprachmodells zu bewerten, indem sie das Modell in vordefinierten Aufgabenstellungen testen. Sie können damit Einblicke in die Fähigkeiten des Modells in Bezug auf Sprachverständnis, Spracherzeugung und die Fähigkeit, spezifische Aufgaben auszuführen, liefern. In der medizinischen Praxis können solche spezifischen Benchmarks, die auf medizinischen Texten und Fragestellungen basieren, dabei helfen zu ermitteln, wie gut das Modell medizinisches Fachwissen erfasst, Informationen aus medizinischen Texten extrahiert und medizinische Fragen beantwortet. Trotzdem ist zu betonen, dass solche Benchmarks einige wichtige Grenzen zeigen, zum Beispiel Kontextsensitivität: Benchmarks können oft nicht die Fähigkeit eines Modells beurteilen, auf kontextspezifische oder individualisierte Anfragen zu reagieren, wie sie gerade in der alltäglichen medizinischen Praxis auftreten können. Egal welcher Benchmark, diese Überprüfungen werden, genau wie in diesem Paper, unter definierten Bedingungen durchgeführt, die sich oft von realen Einsatzbedingungen unterscheiden. Beispielsweise kann ein Modell, das in einem Benchmark gut abschneidet, in der Praxis möglicherweise nicht gut auf unstrukturierte oder unsachgemäß formulierte Anfragen reagieren. Benchmarks können Schwierigkeiten haben, Aspekte wie die Sicherheit der Modellanwendung und den Umgang des Modells mit sensiblen Daten zu reflektieren. Um die Eignung eines großen Sprachmodells für den Einsatz in der medizinischen Praxis effektiv zu beurteilen, wäre es daher wichtig, nicht nur auf Benchmarks zu vertrauen, sondern auch auf sorgfältige Tests und Evaluierungen unter realen Bedingungen, einschließlich der Prüfung auf mögliche ethische, rechtliche und sicherheitsrelevante Aspekte.“

Auf die Frage, welches Potenzial Sprachmodelle jetzt und in naher Zukunft für den Einsatz in der Medizin haben:
„Große Sprachmodelle haben mit Sicherheit viel Potenzial für praktisch alle Anwendungsbereiche, in denen mit Text gearbeitet wird. Und da die Medizin auf Dokumentation und Berichterstattung aufgebaut ist, können solche Modelle definitiv helfen und unterstützen. Ich betone aber unterstützen – nicht ersetzen. Trotz des großen Potenzials von Sprachmodellen ist die Rolle des menschlichen medizinischen Personals unersetzlich. Keine KI kann das umfassende Verständnis, das Urteilsvermögen und die empathische Kommunikation ersetzen, die Menschen bieten können. Daher wird es ein Werkzeug bleiben, das man eben gezielt einsetzen kann, wie die Dampfmaschine vor rund 250 Jahren.“

Auf die Frage, welche Probleme sich beim Einsatz von Sprachmodellen in der medizinischen Praxis ergeben könnten und wie man diesen vorbeugen kann:
„Der große Vorteil der digitalen Computer, den ich meinen Studierenden seit vielen Jahren vermittle, besteht in drei einfachen Konzepten: Replizierbarkeit, Skalierbarkeit und Kommunikation. Menschliche Gehirnleistung ist nicht skalierbar, wir Menschen nehmen unser Wissen mit ins Grab und wir sind in der Kommunikation auf die sehr geringe Bandbreite unserer natürlichen Sprache angewiesen. Große Sprachmodelle auf digitalen Computern können ihr ‚Wissen‘ auf beliebige andere Maschinen replizieren, sind enorm skalierbar und können parallel miteinander kommunizieren.“

„Genau in diesen Vorteilen liegen aber auch die Nachteile, beziehungsweise die Probleme und zukünftigen Gefahren. Konkret sehe ich im Einsatz in der medizinischen Praxis eine Anzahl von Problemen, wie zum Beispiel Fehlinterpretation von Daten: Ein Modell kann die medizinischen Daten, die es analysiert, falsch interpretieren oder es kann auf fehlerhaften Daten trainiert worden sein. Das könnte dazu führen, dass irreführende oder sogar falsche medizinische Ratschläge gegeben werden. Abhilfe kann sein, eben nicht nur ein Modell heranzuziehen, sondern verschiedene, so wie es auch bei menschlichen Experten gemacht wird. Ein weiteres generelles Problem ist Vertraulichkeit: Die Gewährleistung der Privatsphäre und Vertraulichkeit der Patientendaten kann ein Problem darstellen, insbesondere wenn das Modell online ist und Daten beliebig und global austauschen kann.“

„Das größte Problem, das ich sehe, ist jedoch ein Mangel an kontextbasiertem und personalisiertem Urteilsvermögen. Menschliche Experten zeigen (oft, natürlich auch nicht immer) ‚Hausverstand‘, das heißt, Menschen können Erfahrung und konzeptuelles Verstehen im Kontext eines Problems einbringen – was derzeit keine Maschine kann. Unmittelbar damit verbunden ist ein Mangel an personalisiertem Urteilsvermögen. Solche Modelle können zwar Daten erstaunlich analysieren, aber sie können den individuellen Kontext und die Einzigartigkeit eines Patienten und einer Situation nicht verstehen. Der Landarzt, der einen Patienten möglicherweise seit seiner Geburt kennt, verfügt über enormes ‚Hintergrundwissen‘ – und über Gespür und Intuition. Das ist manchmal unschätzbar wichtig. Eine technische Abhilfe könnte sein, einen Human-in-the-Loop einzubinden und damit das große Sprachmodell wie eine Servolenkung fürs menschliche Gehirn zu verwenden. Vertrauen ist wohl das größte Problem. Nämlich umgekehrt könnten sowohl Experten als auch Patienten einem solchen Modell übermäßig vertrauen und dabei wichtige menschliche Beurteilungen und Erfahrungen vernachlässigen. Schließlich geht es auch um die Datengrundlage – solche Modelle können naturgemäß nur auf der Grundlage der Daten, mit denen sie trainiert wurden, arbeiten.“

Prof. Dr. Carsten Eickhoff

Leiter des Health NLP Lab, Eberhard Karls Universität Tübingen

„Diese Arbeit lebt in einer Reihe von Studien, die das biomedizinische und klinische Faktenwissen, das in LLMs abgebildet wird, quantifizieren. Besonders interessant an diesem Artikel ist deshalb die Evaluation durch das Expertenpanel unter klinisch relevanten Gesichtspunkten wie der Wahrscheinlichkeit, einem Patienten Schaden zuzufügen. In dieser Hinsicht hätte ich mir sogar noch etwas mehr gewünscht, als hier geliefert wird. Die Studie lässt jedes Modellgenerat von einem Mediziner überprüfen, aber speziell bei schwierigen klinischen Fragen hat die Vergangenheit gezeigt, dass unabhängige Zweit- und sogar Drittmeinungen signifikante Verbesserungen in der Entscheidungsqualität erwirken. So etwas hätte man hier – natürlich auf Kosten eines höheren Zeitaufwandes – sehr schön simulieren können. Die allgemein bereits sehr hohe Übereinstimmung mit der klinischen Lehrmeinung ist allerdings ein guter Indikator dafür, dass medizinische Standardfragen hier bereits gut bedient werden. Spannend wird es dann bei kniffligeren Denkaufgaben, wie sie zum Beispiel im DC3-Datensatz [2] kompiliert wurden, bei denen sich Kliniker teilweise vehement widersprechen.“

Dr. Carsten Marr

Direktor des Instituts AI for Health, Helmholtz Zentrum München – Deutsches Forschungszentrum für Gesundheit und Umwelt, München

„Die Leistung des vorgestellten Modells ist beeindruckend und bei vielen Aufgaben vergleichbar mit der Leistung von medizinischen Experten. Die Autoren der Studie haben dafür ein Corpus an Testaufgaben zusammengestellt und die Modellleistung aus verschiedenen Perspektiven evaluiert.“

Auf die Frage, wie der vorgestellte Benchmark zu beurteilen ist:
„Mit der rapiden Entwicklung von Sprachmodellen ist es eine Aufgabe der Wissenschaft, diese so gut wie möglich zu evaluieren. Die hier vorgestellten Benchmarks sind dafür ein wichtiger Schritt.“

Auf die Frage, welches Potenzial Sprachmodelle jetzt und in naher Zukunft für den Einsatz in der Medizin haben:
„Zwischen der korrekten Beantwortung von Multiple-Choice-Fragen und dem Einsatz in der medizinischen Praxis liegen selbstverständlich Welten. Nichtsdestotrotz kann das hier vorgestellte Sprachmodell für Ärzte und Patienten sehr nützlich sein für die Beantwortung und Kontextualisierung von medizinischen Fragen. Existierende KI-Modelle, die beispielsweise Diagnosen anhand von Bilddaten stellen, können durch die Erklärbarkeit von Sprache mit dem vorgestellten Modell sinnvoll erweitert werden.“

Auf die Frage, welche Probleme sich beim Einsatz von Sprachmodellen in der medizinischen Praxis ergeben könnten und wie man diesen vorbeugen kann:
„Neben den in der Studie vorgestellten Problemen gibt es den sogenannten ‚Automation Bias‘, also die Überschätzung des Wahrheitsgehalts von computergenerierten Aussagen durch den Menschen. Medizinisches Personal, aber auch Laien, müssen daher für den Umgang mit Sprachmodellen geschult werden.“

„Der Programmiercode der vorgestellten Forschungsergebnisse wurde von Google bisher nicht veröffentlicht. Das Training von großen Sprachmodellen bedarf darüber hinaus einer Computer-Power, die derzeit nur den großen IT-Unternehmen vorbehalten ist. Wir müssen daran arbeiten, in Europa IT-Strukturen zu schaffen, die vergleichbare, transparente Forschung durch staatlich finanzierte Institutionen erlauben.“

Prof. Dr. Roland Eils

Gründungsdirektor des Zentrums für Digitale Gesundheit des Berlin Institute of Health in der Charité (BIH)

Benjamin Wild

Wissenschaftlicher Mitarbeiter, Zentrum für Digitale Gesundheit des Berlin Institute of Health in der Charité (BIH)

„Das Preprint zu dieser nun in ‚Nature‘ erschienenen Arbeit ist im Dezember 2022 erschienen, das Feld ist sehr schnelllebig. Inzwischen gibt es schon einen Med-PALM-2-Preprint und eine Ankündigung von Google, dieses auch im klinischen Alltag zu testen.“

„Methodisch basiert das Modell auf der PaLM-Architektur von Google und ist methodisch State of the Art, vergleichbar mit GPT-4.“

„Größtes methodisches Problem ist ähnlich wie bei anderen LLMs, dass die Modelle halluzinieren können, und es schwierig zu bewerten ist, wann eine Aussage korrekt ist, und wann sie nur auf den ersten Blick korrekt aussieht. Das ist kein Problem von Med-PaLM, sondern ein generell aktuell noch nicht gelöstes Problem in dem Feld, was hier allerdings besonders problematisch ist.“

Auf die Frage, wie der vorgestellte Benchmark zu beurteilen ist:
„Gute und aussagekräftige Benchmarks sind ein großer Faktor für die massiven Fortschritte in dem Feld des maschinellen Lernens in den letzten Jahren. Daher ist es aus meiner Sicht sehr begrüßenswert, dass sich hier die Mühe gemacht wurde, sinnvolle Benchmarks zu entwickeln.“

„Jedoch sind die Benchmarks zum Teil auf dem Level von typischen Prüfungsfragen in der Medizin zu sehen, also mit einer klaren Fragestruktur und einer klaren erwarteten Antwort in Multiple-Choice-Art und daher gegebenenfalls nicht repräsentativ für die wirklichen Probleme im klinischen Alltag.“

„Fragwürdig ist, wie gut das Modell mit einer realistischen Situation umgehen würde, in der ein Patient unklare, unvollständige und zum Teil falsche Aussagen trifft, und Entscheidung im Kontext von praktischen klinischen Einschränkungen getroffen werden müssen.“

Auf die Frage, welches Potenzial Sprachmodelle jetzt und in naher Zukunft für den Einsatz in der Medizin haben:
„Offensichtlicher Kandidat ist die Assistenz bei bürokratischen, sich ständig wiederholenden Aufgaben wie das Verfassen von Arztbriefen. Darüber hinaus die automatische Zusammenfassung des aktuellen Forschungsstandes zu bestimmten Fragestellungen als Unterstützung bei schwierigen Fragen zum Beispiel in der Diagnostik. Mit sinnvollem Feintuning der Modelle können sie auch als erste Stufe der medizinischen Beratung von Patienten infrage kommen.“

Auf die Frage, welche Probleme sich beim Einsatz von Sprachmodellen in der medizinischen Praxis ergeben könnten und wie man diesen vorbeugen kann:
„Wie bereits zuvor geschrieben, neigen LLMs zum Halluzinieren, das heißt, sie erfinden mitunter vollkommen unsinnige Sachverhalte und Erklärungen. Das kann natürlich bei einem Einsatz im medizinischen Alltag problematisch sein. Daher ist es derzeit noch unabdingbar, die Aussagen eines LLMs einer strikten Qualitätskontrolle zum Beispiel durch eine medizinische Fachkraft zu unterwerfen.“

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Andreas Holzinger: „Ich habe keine Interessenkonflikte.“

Prof. Dr. Carsten Eickhoff: „Ich habe keine Konflikte zu den Autoren oder ihren Affiliations.“

Dr. Carsten Marr: „Keine.“

Prof. Dr. Roland Eils und Benjamin Wild: „Keine Interessenkonflikte.“

Primärquellen

Singhal K et al. (2023): Large language models encode clinical knowledge. Nature. DOI: 10.1038/s41586-023-06291-2.

Weiterführende Recherchequellen

Science Media Center (2022): Sechs Merkmale für gute Algorithmen in der Medizin. Research in Context. Stand: 18.01.2022.

Prof. Dr. Holzinger empfiehlt folgende Literatur zur weiteren Recherche:

Holzinger A et al. (2023): Toward human-level concept learning: Pattern benchmarking for AI algorithms. Patterns. DOI: 10.1016/j.patter.2023.100788.

Holzinger A et al. (2023): AI for life: Trends in artificial intelligence for biotechnology. New Biotechnology. DOI: 10.1016/j.nbt.2023.02.001.

Holzinger A (2021): The Next Frontier: AI We Can Really Trust. Machine Learning and Principles and Practice of Knowledge Discovery in Databases. DOI: 10.1007/978-3-030-93736-2_33.

Müller H et al. (2021): The Ten Commandments of Ethical Medical AI. Computer. DOI: 10.1109/MC.2021.3074263.

Stöger K et at. (2021): Medical artificial intelligence: the European legal perspective. Communications of the ACM. DOI: 10.1145/3458652.

Literaturstellen, die von den Experten zitiert wurden

[1] Singhal K et a. (2022): Large Language Models Encode Clinical Knowledge. Arxiv.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.

[2] Eickhoff C et al. (2019): DC3 -- A Diagnostic Case Challenge Collection for Clinical Decision Support. Arxiv.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.