Explainable AI in der Medizin
Sollten undurchsichtige KI-Anwendungen so gestaltet werden, dass sie zu jedem Ergebnis auch eine Erklärung liefern? Besser nicht – insbesondere im Medizinbereich, warnen Autorinnen und Autoren in einem Kommentar, der am 15.07.2021 im Fachjournal „Science“ erschienen ist (siehe Primärquelle).
Human-Centered AI Lab, Institut für Medizinische Informatik/Statistik, Medizinische Universität Graz, Österreich, und Gastprofessor für erklärbare Künstliche Intelligenz, University of Alberta, Edmonton, Kanada, Österreich
Auf die Frage, wie bei Black-Box-Anwendungen sichergestellt werden kann, dass das System zuverlässig das leistet, was es soll, und wie das Vertrauen der Anwenderinnen und Anwender erlangt werden kann:
„Ein genereller Faktor bei komplexeren Problemstellungen in der Medizin ist, dass man sich vom ‚automatischen‘ Gedanken (‚press the button – take the result‘) löst und die Möglichkeit schafft, dass ein human-in-the-loop [1], zumindest aber ein human-in-control eingebunden wird. Menschen können nämlich (manchmal – natürlich nicht immer) etwas einbringen, was keine KI auf diesem Planeten im Moment kann: konzeptuelles Verstehen, Erfahrungswissen, Intuition – zum Beispiel eine Plausibilitätsprüfung: ‚Kann dieses Ergebnis im Gesamtkontext stimmen?‘. Diese interaktive Einbindung von Menschen kann auch Vertrauen in KI schaffen, nämlich dann, wenn Mensch und KI interaktiv ‚zusammenarbeiten‘ und die jeweiligen Stärken genützt werden können – können doch gewisse Routineaufgaben tatsächlich schon besser von KI erledigt werden. Ein solcher Ansatz benötigt allerdings – insbesondere im medizinischen Bereich – neuartige Mensch-KI Interfaces, die es erlauben, auch Anwenderinnen und Anwender mit wenig mathematisch-informatischem Hintergrundwissen in Dialog zu treten und auch eine individuelle Anpassung an gegebene Erfordernisse und Problemstellungen ermöglichen [2].“
Auf die Frage, wie die Aussage des Policy Briefs einzuschätzen ist, dass die „Erklärungen“, die Explainable AI im Nachhinein liefert, nicht an das „Erklärbarkeitsideal“ von Interpretable AI heranreichen können:
„Explainable AI (XAI) hebt lediglich technisch entscheidungsrelevante Teile von Maschinendarstellungen und Lernmodellen hervor, also jene Teile, die zur Modellgenauigkeit im Training oder zu einer bestimmten Vorhersage beigetragen haben. Eine Problematik dabei ist, dass sich ‚Explainability‘ nicht (!) auf ein menschliches Modell der Anwenderin oder des Anwenders bezieht. Genau aus diesem Grund haben wir das Konzept der Causability [3] eingeführt, das sich auf ein menschliches Modell bezieht [4]. Der Begriff Causability leitet sich von Usability (Gebrauchstauglichkeit) ab, das nach DIN EN ISO 9241-11 definiert ist als das messbare Ausmaß, in dem ein System für einen Benutzer ein spezifiziertes Niveau der Benutzbarkeit mit Effektivität, Effizienz und Zufriedenheit in einem spezifizierten Nutzungskontext erreicht. Causability (Ursachenerkennbarkeit) ist somit das messbare Ausmaß, in dem eine Erklärung einer Aussage für einen Benutzer (das menschliche Modell!) ein spezifiziertes Niveau des kausalen Verständnisses mit Effektivität, Effizienz und Zufriedenheit in einem spezifizierten Nutzungskontext erreicht [4].“
Auf die Frage, welche Rolle es für die klinische Anwendung spielen sollte, ob der Output einer KI-Anwendung erklärbar beziehungsweise nachvollziehbar ist:
„Nachvollziehbarkeit von Ergebnissen, also die Möglichkeit der Beantwortung ‚wie‘ die Resultate zustande gekommen sind, ist – zumindest in Europa – aus rechtlichen Gründen erforderlich [5], was natürlich nicht heißt, dass dies in Echtzeit und sofort zu erfolgen hat. Aber falls zum Beispiel ein Fehler passiert, muss es juristisch nachvollziehbar sein, wie das Ergebnis zustande gekommen ist. Interpretierbarkeit ist darüber hinaus zur Vertrauensbildung essenziell: KI-gestützten Systemen, bei denen eine Nachvollziehbarkeit im Schadensfall nicht gewährleistet ist, werden Ärztinnen und Ärzte nicht vertrauen können – weil sie selbst juristisch als natürliche Personen für ihre Entscheidungen zur Verantwortung gezogen werden können. Schließlich ist das Vertrauen in KI-Systeme neben der rechtlichen auch eine ethische Frage [6].“
Auf die Frage, welche Kriterien Zulassungsbehörden für Systeme anlegen sollten, die auf Black-Box-Algorithmen zugreifen:
„Generell die Möglichkeit, Fehlverhalten der KI nachzuvollziehen, zum Beispiel durch automatisierte Protokollierung. Es sollte begründet werden, warum ein Black-Box Algorithmus überhaupt eingesetzt wird, oder ob nicht auch ein anderes Lernmodell möglich wäre, zum Beispiel durch Leistungsvergleich; bezüglich Leistung ist eine wichtige Kenngröße der Genauigkeitsgrad. Hier ist ein klassisches Problem, dass maschinelle Lernmodelle auf so genannten i.i.d. (independent identically distributed) Daten trainiert werden, die Datenqualität aber in der Realität – gerade in der klinischen Medizin – ein riesengroßes Problem darstellt. Big Data ist gerade in der Medizin oft nicht in ausreichendem Maße vorhanden und wenn, dann oft in mangelnder Datenqualität. Auch sollte eine Bewertung des Bias beziehungsweise der Fairness getroffen werden, also Maßnahmen gegen Diskriminierung beziehungsweise eine Bewertung des Diskriminierungsrisikos. Robustheit und Manipulationssicherheit sind auf jeden Fall wichtig, so wie regelmäßige Kontrollen. Bezüglich der Sicherheit ist eine Angabe des Risikos von Fehlverhalten und Konsequenzen dieses Fehlverhaltens wichtig. Hilfreich könnte hier eine Art ‚Beipackzettel‘ mit den wichtigsten Eigenschaften des Modells beziehungsweise Systems sein. Das ist natürlich nur eine unvollständige Aufzählung in aller Kürze.“
Stellvertretender Direktor des Innovation Center Computer Assisted Surgery (ICCAS), Universität Leipzig
Auf die Frage, welche Rolle es für die klinische Anwendung spielen sollte, ob der Output einer KI-Anwendung erklärbar beziehungsweise nachvollziehbar ist:
„Für eine angemessene Patientenbehandlung muss der Arzt alle relevanten diagnostischen Informationen in Zusammenhang setzen und darauf eine Therapieentscheidung treffen. Aus Medizinersicht muss der Output von KI-Anwendungen daher genauso nachvollziehbar sein, wie die erzeugten Patientendaten aus MRT-, CT- oder EKG-Messungen. Inwieweit eine Erklärbarkeit der genutzten KI-Modelle notwendig ist, sollte von der Kritikalität der unterstützten Behandlungsentscheidung abhängen.“
Auf die Frage, inwiefern der Aspekt der Nachvollziehbarkeit algorithmischer Entscheidungen bei der Zulassung einer solchen Anwendung in Deutschland und der EU berücksichtigt wird:
„Aus regulatorischer Sicht werden KI-Anwendungen nach der Medical Device Regulation 2017/745 als Medizingeräte-Software eingestuft und unterliegen in Deutschland daher den Entwicklungs- und Überwachungs-Anforderungen, die an einen Software-Lebenszyklus gestellt werden. Wenngleich die Anforderungen von Ärzten als Entwicklungseingaben berücksichtigt werden, muss ein Hersteller die Erklärbarkeit und Nachvollziehbarkeit seines Produkts primär während seines Entwicklungsprozesses nachweisen können. Das bereitgestellte Medizinprodukt hingegen wird unter den Aspekten der Minimierung eines Patientenrisikos und der Zweckmäßigkeit auf seine Konformität bewertet. In welchem Maße das Endprodukt beide Qualitätsmerkmale berücksichtigt, bleibt letztendlich eine Design-Entscheidung des Herstellers.“
Auf die Frage, welche Kriterien Zulassungsbehörden für Systeme anlegen sollten, die auf Black-Box-Algorithmen zugreifen:
„Hier ergeben sich zwei Handlungsmöglichkeiten. Zum einen könnten durch benannte Stellen unabhängige Referenzdatensätze definiert werden. Eine KI-Anwendung muss gegen diese Datensätze getestet werden und die Analyse der dabei erzeugten Ergebnisse nachweislich in den Entwicklungsprozess einfließen. Zum anderen wäre die Sammlung von model-agnostischen Untersuchungsmethoden vorstellbar, zum Beispiel Shapley Additive Explanations (SHAP), Individual Conditional Explanations (ICE) oder Concept Activation Vectors (CAV), die auf erzeugte Black-Box-Modelle angewendet werden müssen. Eine risikotechnische Analyse der Untersuchungsergebnisse sollte anschließend eine Aussage zur Vertretbarkeit der Anwendung erlauben.“
Auf die Frage, wie bei Black-Box-Anwendungen sichergestellt werden kann, dass das System zuverlässig das leistet, was es soll, und wie das Vertrauen der Anwenderinnen und Anwender erlangt werden kann:
„Das Hauptproblem von Black-Box-Modellen liegt in dem unvorhersehbaren Verhalten des Systems als Antwort auf Eingabedaten, die zum Trainingszeitpunkt unbekannt waren. Die Zuverlässigkeit von KI-Anwendungen kann daher nur effektiv gesteigert werden, wenn die Menge, Variabilität, Realität und Verfügbarkeit von Daten gewährleistet werden kann. Entsprechend sollten Zulassungsverfahren auch die Fähigkeit zur weiterführenden Verbesserung von KI-Anwendungen kritisch hinterfragen. Eine Datenaufzeichnung im Produktivbetrieb und das periodische Nach-Training von Black-Box-Modellen auf repräsentativen Patientendaten sind hier wesentliche Faktoren.“
„Das ärztliche Vertrauen in KI-Anwendungen kann nur durch eine kritische Auseinandersetzung mit der genutzten Technologie, persönlich und einrichtungsspezifisch, erlangt werden. Hersteller sollten konsequenterweise daher Wert auf explorative KI-Funktionen in Bezug auf Eingabedaten und Modellverhalten legen. Dieser Vorgang könnte zusätzlich verstärkt werden, wenn Kliniken in ihren Rollen als Daten-Distributoren stärker in den regulatorischen Ablauf einbezogen werden. In Anlehnung an die Arbeitsweise der benannten Stellen sollten Kliniken medizinische Auditoren mit Expertise in der Hinterfragung von KI-Anwendungen einsetzen.“
Professor für Medizinische Ethik mit Schwerpunkt auf Digitalisierung, Fakultät für Gesundheitswissenschaften Brandenburg, Universität Potsdam
„Für eine Patientin kann der Kopf ihres Arztes zunächst genauso eine Blackbox darstellen, wie die Maschine. Und im Zweifel möchte sie sicherlich eher die verlässlichere Diagnose oder die bessere Behandlung als ein Mehr an Erklärbarkeit. Dennoch gilt nicht einfach: ‚Wer heilt, hat Recht‘. In den allermeisten Fällen ist zumindest ein bestimmtes Maß an Transparenz notwendig, was den Output von KI-Anwendungen angeht. Anderenfalls kann auch die Aufklärung und Kommunikation mit PatientInnen nicht gelingen.“
„Letztlich wird es nicht darum gehen, dass die Ärztin wirklich in die Tiefen der Blackbox hineinleuchtet. Wir müssen auch nicht unbedingt erklären können, warum Flugzeuge fliegen, um der Technik zu vertrauen. Aber es bedarf Mechanismen, die einer erfolgreichen und verlässlichen Zusammenarbeit von Mensch und Maschine dienen. Sinnvoll kann es beispielsweise sein, dass eine KI Anhaltspunkte über ihre eigene Aussagekraft in einem bestimmten Fall gibt [7]. Schließlich lässt sich anhand einer Bildaufnahme auch von den besten Systemen kaum mit Gewissheit sagen, ob zum Beispiel diese oder jene Hautveränderung nun ein Melanom darstellt oder nicht.“
„Eine weiterhin offene Frage von Anwendungen der KI in der Medizin ist die Verantwortlichkeit im Falle von Fehlern. Menschen neigen gerne dazu, eine konkrete Person zur Verantwortung ziehen zu wollen – notfalls denjenigen, der am nächsten an der Maschine steht. Es mag unbefriedigend sein, aber vielleicht müssen wir uns an eine Art verteilte Verantwortung gewöhnen. Medizinische Diagnosen oder Behandlungen werden niemals fehlerfrei sein und das Netz an Akteuren – Menschen, Maschinen und den Menschen dahinter – wächst in der digitalen Medizin zunehmend. Alle können die Quelle von Fehlern sein.“
„In den vergangenen Jahren haben KI-Anwendungen gerade in der medizinischen Diagnostik erstaunliche Ergebnisse gezeigt. Dann wird gerne von der Überlegenheit der KI über die ExpertenInnen gesprochen. Die allermeisten Studien fanden aber unter Idealsituationen statt – also beispielsweise in retrospektiven Settings. Es bedarf nun klinischer Studien, um die Zuverlässigkeit von KI in der Diagnostik und Behandlung auch in der klinischen Praxis zu untersuchen [8].“
„Es muss ein breiteres Verständnis für die Möglichkeiten und Limitationen von KI in der Medizin geschaffen werden. Hier mischen sich weiterhin ungerechtfertigte Sorgen und übermäßige Hoffnungen, und das sowohl auf Seiten des medizinischen Personals wie auch der PatientInnen. So sollte besser in der Öffentlichkeit kommuniziert werden, dass das Ziel von KI in der Medizin nicht der Ersatz von FachärztInnen ist, sondern eine Ergänzung. Zugleich legen Untersuchungen nahe, dass auch ÄrztInnen die Verlässlichkeit einer KI mitunter überschätzen oder sich irreführen lassen. Ein gesundes Misstrauen gegenüber der Maschine sollte erhalten bleiben. Nicht zuletzt deshalb müssen die neuen digitalen Möglichkeiten auch verstärkt in der medizinischen Aus- und Weiterbildung thematisiert werden.“
Leiterin der Arbeitsgruppe Kognitive Systeme, Fakultät Wirtschaftsinformatik und Angewandte Informatik, Otto-Friedrich-Universität Bamberg, und Gruppenleiterin Comprehensible Artificial Intelligence (CAI), Fraunhofer-Institut für Integrierte Schaltungen IIS, Erlangen
„Der Beitrag liefert plausible Argumente dafür, dass das nachträgliche Generieren von Erklärungen für Blackbox-Klassifikatoren nicht unbedingt sinnvoll ist, um Entscheidungen des KI-Systems nachvollziehbar zu machen. Im Gegenteil, Erklärungen können zu nicht gerechtfertigtem Vertrauen in die Systementscheidungen führen und dazu verleiten, diese unhinterfragt abzunicken. Die Funktion von nachträglichen Erklärungen für intransparente Modelle ist im Wesentlichen, aufzuzeigen, aufgrund welcher Information die Systementscheidung zustande kam. Dies kann sich von den wahren Ursachen unterscheiden. Zudem ist zumindest bei einigen Erklärungsmethoden nicht gewährleistet, dass die Erklärung für das Systemverhalten mit dem tatsächlichen Systemverhalten übereinstimmt.“
„Im Beitrag wird stattdessen dafür argumentiert, wann immer möglich, interpretierbare Verfahren des maschinellen Lernens einzusetzen. Solche Verfahren liefern symbolisch repräsentierte ‚Whitebox‘ Modelle. Diese sind zwar ab einer gewissen Komplexität ebenfalls nicht einfach nachvollziehbar, aber – wie im Beitrag gesagt wird – interpretierbare Modelle können mit vertretbarem Aufwand verstanden werden.“
„In Forschungsprojekten an der Universität Bamberg und in der Fraunhofer IIS Projektgruppe Comprehensible AI werden seit mehreren Jahren solche interpretierbaren Ansätze des maschinellen Lernens für bildbasierte medizinische Diagnostik entwickelt und untersucht. Die Ansätze gehen über den im Science-Beitrag beschriebenen Vorschlag in mehreren Aspekten hinaus: Anstelle einfacher Regressionsansätze oder Entscheidungsbäumen wird induktives logisches Programmieren (kurz ILP) eingesetzt. Die mit diesem Ansatz gelernten Modelle sind deutlich ausdrucksstärker und damit für komplexe Entscheidungsbereiche der Medizin besser geeignet. Beispielsweise können räumliche Beziehungen – etwa, dass Tumorgewebe in eine andere Gewebeart eingedrungen ist – genutzt werden, um verschiedene Tumorklassen voneinander abzugrenzen.“
„Zudem erlaubt ILP, dass vorhandenes Wissen im Lernprozess berücksichtigt werden kann. Anders als im Beitrag diskutiert zeigen unsere Arbeiten, dass es sinnvoll sein kann, interpretierbare Ansätze mit Erklärungen zu kombinieren. Erklärungen sind dabei vielfältiger als die im Kontext von maschinellem Lernen oft genutzten Visualisierungen. Beispielsweise kann visuelles Hervorheben von Bereichen in einem Bild mit sprachlichen Erklärungen kombiniert werden, um zu zeigen, wo sich Tumorgewebe befindet und zusätzlich anzugeben, aufgrund welcher weiterer Gegebenheiten wie Größe, Lage und Form das KI-System eine bestimmte Tumorklasse identifiziert hat.“
„Zudem können für die aktuelle Entscheidung prototypische Beispiele gezeigt werden, analog zu Krankheitsbildern in medizinischen Lehrbüchern. Schließlich kann das zum aktuellen Fall ähnliche Beispiel gezeigt werden, das zu einer anderen Klassenentscheidung führen würde, um Entscheidungsgrenzen zu veranschaulichen.“
„Schließlich sind auf die kognitiven Anforderungen des Menschen abgestimmte Interaktionsschnittstellen notwendig. Da gelernte Modelle nie vollständig korrekt sein können, müssen Experten in der Lage sein, Entscheidungen zu korrigieren. Hier können Erklärungen helfen, um Systementscheidungen besser nachvollziehen zu können und sich gegebenenfalls eigene Fehleinschätzungen bewusst zu machen. Ansätze, die ermöglichen, dass nicht nur die Entscheidung, sondern auch die Erklärungen, wie das System zu einer Entscheidung kam, korrigierbar sind, ermöglichen, dass solches Expertenwissen direkt in die Anpassung gelernter Modelle einfließen kann.“
Professor für Systematische Theologie/Ethik, Friedrich-Alexander-Universität Erlangen-Nürnberg, und von 2016-2020 Vorsitzender des Deutschen Ethikrates
„Der Artikel giert nach Aufmerksamkeit, indem er durch die Erfindung eines Strohmannes einen scharfen Gegensatz zwischen explainability und interpretability konstruiert, der in der Forschung so nicht existiert.“
„Es hätte gereicht, wenn die Autoren ihre Wortwahl als einen hilfreichen terminologischen Vorschlag unterbreitet hätten, ohne gleich die breit vorhandene, sehr diversifizierte Forschungslandschaft als unterkomplex erscheinen zu lassen. Dieser Gestus scheint dem Veröffentlichungsort geschuldet.“
„An dem Artikel wird deutlich: Nicht die Alternative explainability oder interpretability löst das Problem von AI/ML-Black-Box-Software, sondern ihre Deutung als ein sozio-technisches System.“
„Für das von der AI/ML-Software betroffene Datensubjekt muss es am Ende benennbare Verantwortungs- und Haftungsträger geben. Ihm muss medizinisch und rechtlich nachvollziehbar und zeitnah die getroffene Entscheidung erläutert werden können. Egal wie der Algorithmus entschieden hat, ein Mensch muss die Entscheidung rechtfertigen können. Wo dies nicht möglich ist, versagen KI-Systeme und verdienen kein Vertrauen.“
„Es sind keinerlei Interessenkonflikte vorhanden.“
„Keine Interessenkonflikte.“
„Interessenkonflikte habe ich nicht.“
Alle anderen: Keine Angaben erhalten.
Primärquelle
Babic B et al. (2021): Beware explanations from AI in health care. Science; 373 (6552): 284-286. DOI: 10.1126/science.abg1834.
Weiterführende Recherchequellen
Datenethikkommission (2019): Gutachten der Datenethikkommission. Insbesondere Seite 173ff., Algorithmische Systeme, Empfehlung eines risikoadaptierten Regulierungsansatzes.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Holzinger A (2016): Interactive Machine Learning for Health Informatics: When do we need the human-in-the-loop? Brain Informatics; 3 (2): 119-131. DOI: 10.1007/s40708-016-0042-6.
[2] Holzinger A (2020): Explainable AI and Multi-Modal Causability in Medicine. i-com; 19 (3): 171-179. DOI: 10.1515/icom-2020-0024.
[3] Holzinger A et al. (2019): Causability and Explainability of Artificial Intelligence in Medicine. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery; 9 (4): 1-13. DOI: 10.1002/widm.1312.
[4] Holzinger A et al. (2020): Measuring the Quality of Explanations: The System Causability Scale (SCS). Comparing Human and Machine Explanations. KI - Künstliche Intelligenz; 34 (2): 193-198, DOI: 10.1007/s13218-020-00636-z.
[5] Schneeberger D et al. (2020). The European legal framework for medical AI. In: Machine Learning and Knowledge Extraction. CD-MAKE 2020. DOI: 10.1007/978-3-030-57321-8_12.
[6] Müller H et al. (2021): The Ten Commandments of Ethical Medical AI. Computer; 54: 119-123. DOI: 10.1109/MC.2021.3074263.
[7] Grote T et al. (2021): Trustworthy medical AI systems need to know when they don’t know. Journal of Medical Ethics 2021; 47: 337-338. DOI: 10.1136/medethics-2021-107463.
[8] Topol EJ (2020): Welcoming new guidelines for AI clinical research. Nature Medicine; 26: 1318-1320. DOI: 10.1038/s41591-020-1042-x.
Schwarz F (02.07.2021): Vorbereitet auf die Zukunft. Süddeutsche Zeitung.
Wissenschaftsjahr 2019, Künstliche Intelligenz (26.03.2019): Diagnose per Künstlicher Intelligenz soll transparenter werden. Wissenschaftsmeldung der Initiative des Bundesministeriums für Bildung und Forschung.
Bruckert S et al. (2020): The Next Generation of Medical Decision Support: A Roadmap Toward Transparent Expert Companions. Front. Artif. Intell.; 3: 507973. DOI: 10.3389/frai.2020.507973.
Schmid U et al. (2020): Mutual Explanations for Cooperative Decision Making in Medicine. Künstliche Intelligenz; 34: 227-233. DOI: 10.1007/s13218-020-00633-2.
Ai L et al. (2020): Beneficial and Harmful Explanatory Machine Learning. arXiv:2009.06410.
Rabold J et al. (2019): Enriching Visual with Verbal Explanations for Relational Concepts – Combining LIME with Aleph. arXiv:1910.01837.
Prof. Dr. Andreas Holzinger
Human-Centered AI Lab, Institut für Medizinische Informatik/Statistik, Medizinische Universität Graz, Österreich, und Gastprofessor für erklärbare Künstliche Intelligenz, University of Alberta, Edmonton, Kanada, Österreich
Prof. Dr. Thomas Neumuth
Stellvertretender Direktor des Innovation Center Computer Assisted Surgery (ICCAS), Universität Leipzig
Prof. Dr. Robert Ranisch
Professor für Medizinische Ethik mit Schwerpunkt auf Digitalisierung, Fakultät für Gesundheitswissenschaften Brandenburg, Universität Potsdam
Prof. Dr. Ute Schmid
Leiterin der Arbeitsgruppe Kognitive Systeme, Fakultät Wirtschaftsinformatik und Angewandte Informatik, Otto-Friedrich-Universität Bamberg, und Gruppenleiterin Comprehensible Artificial Intelligence (CAI), Fraunhofer-Institut für Integrierte Schaltungen IIS, Erlangen
Prof. Dr. Peter Dabrock
Professor für Systematische Theologie/Ethik, Friedrich-Alexander-Universität Erlangen-Nürnberg, und von 2016-2020 Vorsitzender des Deutschen Ethikrates