Sechs Merkmale für gute Algorithmen in der Medizin
Künstliche Intelligenz (KI) und Algorithmen in der medizinischen Anwendung haben direkte Auswirkungen auf die Gesundheit und müssen daher besondere Qualitätsstandards erfüllen. Eine Gruppe von Forschenden aus den USA hat in einem Review Eigenschaften von idealen Algorithmen für das Gesundheitswesen vorgestellt (siehe Primärquelle). Das Review ist am 18.01.2022 im Fachjournal „PLOS Digital Health“ erschienen.
Director of Analytics, Body Imaging Service, Memorial Sloan Kettering Cancer Center, New York, Vereinigte Staaten
„Die Autoren rücken einige der ‚Schmerzpunkte‘ der KI-Forschung ins Licht, zum Beispiel Reproduzierbarkeit und Interpretierbarkeit, beides sehr aktive Forschungsfelder in der KI-Forschung. Einige Kategorien sind etwas schwammig definiert und auch sind nicht alle immer zwingend notwendig – in der Notfalldiagnostik liegt oft nur ein einziger Zeitpunkt vor und der Verlauf ist fürs Erste weniger wichtig. Im Großen und Ganzen ergeben die Kategorien aber Sinn und sind ein guter Leitfaden.“
Auf die Frage, inwiefern methodische oder generelle Schwächen bei Studien zu KI in der Medizin ein Problem sind:
„Ich glaube, dies ist nicht nur auf das Forschungsgebiet KI beschränkt: Es ist in jedem Feld relativ einfach, schnell eine Studie mit niedriger Qualität zu publizieren. Das Feld KI in der Medizin hat vor einigen Jahren eine Renaissance erlebt, folglich hat die Zahl der guten wie auch der schlechteren Studien zugenommen.“
Auf die Frage, wie prävalent KI-Anwendungen in der klinischen Anwendung sind, in welchen Bereichen sie besonders hilfreich sind und in welchen Bereichen sie noch Probleme haben:
„Erste KI-Anwendungen sind bereits im Einsatz, diese tragen zum Beispiel zur Verbesserung der Bildqualität oder Verkürzung der Untersuchung in der Computertomographie (CT) oder in der Magnetresonanztomographie (MRT) bei. Andere Beispiele sind zeitaufwändige Arbeiten wie die Organsegmentierung – zum Beispiel Herzkammern bei der Herz-MRT –, die durch KI schnell und zuverlässig erledigt werden können und den klinischen Alltag erleichtern. Die Hürden, dass KI autonom Diagnosen stellt, sind relativ hoch: Wie die Pandemie deutlich gezeigt hat, benötigt es trotz aller logisch bestechlichen und biologisch plausiblen Ansätze immer gute, randomisierte und verblindete klinische Studien, um den Nutzen einer Maßnahme zu beweisen. Das ist bei der Medikamenten- und Impfstoffentwicklung so, bei neuen diagnostischen Verfahren oder Operationen und wird auch bei KI so sein.“
Auf die Frage, inwiefern KI-basierte Methoden im Kampf gegen die COVID-19-Pandemie nur einen geringen Mehrwert geliefert haben und woran das liegen kann:
„Es wurden aufgrund der Pandemie relativ viele COVID-19-spezifische Forschungsgelder ausgeschüttet. Es verwundert also nicht, dass entsprechend viele Forschungsgruppen an dem Problem gearbeitet haben. Wynants et al. haben in einem groß angelegten Review gezeigt, dass aus über 230 Modellen zur Prognose von COVID-19-Infektionen und deren Verlauf lediglich ein bis zwei vielleicht nützlich sind [1]. Es stellt sich natürlich die Frage, ob es nicht besser gewesen wäre, einige dieser Bemühungen zusammenzulegen, um stattdessen zum Beispiel 100 Publikationen und davon 20 nützliche zu erhalten. Dies sollte ein Denkanstoß sein für die Organisationen, die Forschungsgelder ausschütten. Solange die Publikation an sich als Erfolgskriterium gilt, wird sich die reelle Erfolgsquote von unter einem Prozent wohl nicht groß verbessern.“
Auf die Frage, welche positiven Beispiele es für gute, gelungene Studien gibt, die konkrete Fortschritte in der Medizin ermöglicht haben:
„In der Schlaganfall-Diagnostik gibt es bereits zugelassene Software, die selbstständig Bilddaten auswertet und Alarm schlagen kann. Dies ist besonders in Gebieten mit Mangel an Spezialisten hilfreich, kann aber auch im Normalfall kostbare Zeit sparen.“
Juniorprofessor für Medizinische Ethik mit Schwerpunkt auf Digitalisierung, Fakultät für Gesundheitswissenschaften, Universität Potsdam
„In den vergangenen Jahren gab es immer wieder Vorschläge, einheitliche Leitlinien oder Qualitätsstandards für KI und Deep Learning Systeme in der Medizin zu formulieren. Die Checkliste für ‚ideale‘ Algorithmen ordnet sich hier ein und stellt damit einen Beitrag zu einer wichtigen Debatte dar. Zugleich muss sich aber zeigen, wie derartige Vorschläge aufgegriffen werden und wie sich diese in die Praxis übersetzen lassen. Zudem scheint mir eine weiterführende Diskussion über verbindliche Bewertungsmaßstäbe von KI-Systemen in der Medizin notwendig, etwa im Rahmen von Zertifizierungs- oder Zulassungsverfahren.“
„Gegenwärtig gibt es einen Hype um KI in der Medizin und tatsächlich sehen viele Studien zum Beispiel zur Analyse von Bilddaten überaus vielversprechend aus. Einige KI-Systeme werden mitunter ohne umfassende Prüfung in die Klinik gebracht. Unter Realbedingungen sind entsprechende System aber häufig weniger leistungsfähig, manche nutzlos oder sogar gefährlich. Um die Wirksamkeit und Sicherheit von KI unter Realbedingungen zu erhöhen, bedarf es umfangreicherer klinischer Forschung. Hier müssen sich digitale Innovationen an etablierten methodischen Standards messen.“
„So häufig wir von den Potenzialen der künstlichen Intelligenz in Diagnostik oder Versorgung lesen, so selten sind diese bislang für die Patienten spürbar. Handschriftliche Patientenakten oder Befunde auf CD sind noch immer die Realität – Big Data und KI die Ausnahme. Deutschland ist eines der Schlusslichter der Digitalisierung im Gesundheitswesen. Zugleich ist dies aber kein deutsches Phänomen. Die digitale Transformation ist allerorts ein komplexer Prozess, der von der medizinischen Ausbildung, Infrastruktur, Gesetzgebung bis hin in die Kliniken und Arztpraxen reichen muss – eine Entwicklung, die gerade in großen Gesundheitssystemen Jahrzehnte dauern wird. Vor allem braucht es aber wirksame und erprobte KI-Systeme, die sich sinnvoll in die Versorgung integrieren lassen.“
„Die COVID-19-Pandemie hat als Digitalisierungstreiber im Gesundheitssystem gewirkt. Für die Diagnose und Prognose wurden binnen weniger Monate weltweit zahlreiche KI- beziehungsweise Deep Learning Systeme entwickelt. Mittlerweile zeigen Untersuchungen allerdings, dass so gut wie keines dieser Systeme den Ansprüchen an eine klinische Nutzung genügt [2] [3]. Häufig kann dafür eine mangelhafte Datenqualität verantwortlich gemacht werden. Zugleich mag aber auch der weltweite Ausnahmezustand der Gesundheitssysteme dazu beigetragen haben: Die Bereitschaft zum Einsatz von technischen Lösungen ist hoch, wenn diese einen mehr oder weniger plausiblen Beitrag zu Pandemiebekämpfung versprechen.“
„Keine.“
Alle anderen: Keine Angaben erhalten.
Primärquelle
Loftus TJ et al. (2021): Ideal algorithms in healthcare: Explainable, dynamic, precise, autonomous, fair, and reproducible. PLOS Digital Health. DOI: 10.1371/journal.pdig.0000006.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] COVID-19 PRECISE. Precise Risk Estimation to optimise COVID-19 Care for Infected or Suspected patients in diverse sEttings.
[2] Roberts M et al. (2021): Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans. Nature Machine Intelligence. DOI: 10.1038/s42256-021-00307-0.
[3] Wynants L et al. (2020): Prediction models for diagnosis and prognosis of covid-19: systematic review and critical appraisal. BMJ. DOI: 10.1136/bmj.m1328.
PD Dr. Anton Becker
Director of Analytics, Body Imaging Service, Memorial Sloan Kettering Cancer Center, New York, Vereinigte Staaten
Prof. Dr. Robert Ranisch
Juniorprofessor für Medizinische Ethik mit Schwerpunkt auf Digitalisierung, Fakultät für Gesundheitswissenschaften, Universität Potsdam