Algorithmus stuft Blasenkrebs ein und „erklärt“ seinen Befund

13.05.2019

Ein Algorithmus kann Blasenkrebs anhand der Analyse von Gewebeschnitten in verschiedene Stadien einteilen und seine Ergebnisse angeblich nachvollziehbar machen. Ein Forscherteam der Universität Florida stellt diesen Diagnose-Algorithmus im Journal „Nature Machine Intelligence“ vor (siehe Primärquelle).

Um das System zu trainieren, haben Pathologen gefärbte Schnitte von Blasentumoren nach ihrem Grad der Differenzierung eingeschätzt und gleichzeitig bestimmte Regionen von Interesse markiert und kommentiert. Die Forscher haben den Algorithmus mit diesen Daten trainiert und ihn anschließend in einem Test gegen 17 unabhängige Pathologen in der Diagnose unbekannter Gewebeschnitte antreten lassen. Dabei konnte das Modell den Durchschnittswert der Pathologen hinsichtlich Spezifität und Sensitivität knapp übertreffen.

Den Forschern zufolge besteht das Modell aus drei miteinander verbundenen neuronalen Netzwerken. Die eigentliche Besonderheit liegt jedoch woanders: Der Algorithmus gibt neben der einfachen Klassifikation auch weiterführende Informationen zu den Gründen dieser Bewertung in Bild- und Textform an. Beispielsweise hebt er Ausschnitte von besonderem Interesse aus dem Schnittbild hervor und macht in einem kurzen Text deutlich, was er darauf erkennt. Damit soll er laut den Autoren in der Klinik als eine Art zweite Meinung für Pathologen fungieren können. Die Nachvollziehbarkeit des Systems ist vor allem im Zuge der Diskussion um Explainable AI – Künstliche Intelligenz, deren Entscheidungen für Menschen nachzuvollziehen sind und nicht in einer Black Box stattfinden – ein wichtiger Faktor, der bei anderen Algorithmen zur klinischen Anwendung in der Vergangenheit selten gegeben war.

Übersicht

Prof. Dr. Joachim Denzler, Professor am Institut für Informatik und Leiter des Lehrstuhls Digitale Bildverarbeitung, Friedrich-Schiller-Universität Jena

Prof. Dr. Kristian Kersting, Leiter des Fachgebietes Maschinelles Lernen, Fachbereich Informatik und Centre for Cognitive Science, Technische Universität Darmstadt

Dr. Frank-Peter Schilling, Wissenschaftlicher Mitarbeiter am Institut für angewandte Informationstechnologie (InIT), Zürcher Hochschule für Angewandte Wissenschaften (ZHAW), Schweiz

Prof. Dr. Peter Hammerer, Leiter der Urologischen Klinik des Städtischen Klinikums Braunschweig und Vorstandsmitglied der Europäischen Urologischen Krebsgesellschaft (ESOU)

Prof. Dr. Michael Muders, Direktor des Rudolf-Becker-Labors und Oberarzt der Pathologie am Zentrum für Pathologie, Universitätsklinikum Bonn

Statements

Prof. Dr. Joachim Denzler

Professor am Institut für Informatik und Leiter des Lehrstuhls Digitale Bildverarbeitung, Friedrich-Schiller-Universität Jena

„Transparenz und Nachvollziehbarkeit von Ergebnissen aus tiefen Lernverfahren (Deep Learning) ist eines der Ziele heutiger Bemühungen im maschinellen Lernen. Der Mensch soll verstehen, warum die Maschine ein bestimmtes Ergebnis generiert, um gegebenenfalls auch grobe Fehler zu erkennen oder auch, um aus dem Ergebnis selber lernen zu können.“

„Die Arbeit des Forscherteams zeigt, dass es möglich ist, neben Ergebnissen der Tumorsegmentierung über Deep Learning auch ein Ergebnis in einer für den Mediziner verständlichen Form, das heißt einen Arztbericht, zu erzeugen. Der Ansatz ist in seinen einzelnen Schritten nicht hoch-innovativ, sondern eher ein klassisches Vorgehen, das man aus anderen Bereichen von Computer Vision bereits kennt. Es hilft aber dem Arzt, das automatisch generierte Ergebnis für eine Probe a) nachzuvollziehen und b) auf Plausibilität hin zu überprüfen. Natürliche Sprache ist dabei die beste Form. Medizinische Experten sind typischerweise in der Lage, auch ohne solch eine Information das Ergebnis der Maschine zu verwenden. Will man jedoch KI auch in der Breite einsetzen und somit auch Hausärzten ermöglichen, mit diesen Techniken die Betreuung von Patienten zu verbessern, ist die Erklärung ein essenzieller Bestandteil.“

„Schlüssel zum Erfolg dieser Arbeit ist, dass es den Wissenschaftlern gelingt, hinreichend viele Trainingsdaten aus Bildern und realen Arztberichten zu sammeln und geeignet aufzubereiten. Im medizinischen Kontext ist das eine Herausforderung, da Datenschutz und Vertraulichkeit von Patientendaten eine wichtige Bedeutung haben. So gesehen erwarte ich, dass der Ansatz auch auf andere Fragen im medizinischen Kontext übertragbar ist, unter der Voraussetzung, dass entsprechende Trainingsdaten vorliegen.“

„Zusammengefasst erachte ich die Arbeit als einen wichtigen Wegweiser, um KI in die medizinische Früherkennung, Therapie und Nachsorge zu bringen, da der Mediziner die Möglichkeit bekommt, über die Erklärung in Textform mit der Maschine eine Entscheidung zu fällen. Das wird meiner Einschätzung nach zu einer enormen Steigerung der Akzeptanz von Methoden aus der KI führen und helfen, die Qualität von medizinischer Behandlung von einzelnen medizinischen Zentren und Universitätskliniken in die Breite zu bringen, da auch weniger erfahrenen Mediziner auf solche Methoden (in diesem Fall Analyse von gefärbten Schnitten von Urothelzell-Karzinomen) zurückgreifen und mit einem guten Gefühl anwenden können.“

Prof. Dr. Kristian Kersting

Leiter des Fachgebietes Maschinelles Lernen, Fachbereich Informatik und Centre for Cognitive Science, Technische Universität Darmstadt

„Erklärende KI-Systeme sind ein hoch aktuelles Forschungsthema, die Forschung nimmt aber gerade erst so richtig Fahrt auf. Ziel ist es, dass KI-Systeme ihre ‚Beweggründe‘ offenlegen, so dass wir Menschen uns besser auf sie verlassen können. Das ist ein wichtiger Schritt. Ob die vorliegende Veröffentlichung dieses Ziel erreicht, ist aber unklar. Allgemein sind Erklärungen von KI-Systemen den Medizinern noch weit unterlegen. Der Mensch kann auf allgemeines Weltwissen zurückgreifen, das weit über die Daten hinausgeht. Er kann seine Erklärungen begründen und in einem Dialog weiter ausführen beziehungsweise revidieren. Das kann das vorliegende System nicht. Daher ist die Aussage, dass das System ‚human-like diagnostic reasoning process‘ automatisiert, kritisch zu bewerten. Die Experimente zeigen nur, dass die Vorhersagen von Blasenkrebs auf den benutzen Daten besser sind als die des Durchschnitts von 17 Pathologen und eine geringere Streuung aufweisen. Das ist gut zu wissen, aber nicht überraschend. So ist es zum Beispiel bekannt, dass tiefe, neuronale Netzwerke Hautkrebs sehr gut aus pathologischen Bildern vorhersagen können, wie Referenz 5 aus dem Artikel belegt [1]. Einen aktuellen Überblick bietet vielleicht [2] und die dort enthaltenden Literaturhinweise.“

„Der Beitrag der vorliegenden Arbeit zum aktuellen Stand der Forschung sind die Erklärungen in Wort und Bild. Dazu hatten die Autoren eigene Vorarbeiten auf Konferenzen, die in der vorliegenden Arbeit zusammengeführt werden. Leider ist es unklar, wie nützlich die gelieferten Erklärungen für Pathologen sind. Die verwendeten Standardmetriken zeigen nur, dass die Erklärungen syntaktisch besser zu den Erklärungen in den Daten passen als die von anderen KI-Systemen. Eine Benutzerstudie mit Pathologen zur Güte der Erklärungen wurde nicht durchgeführt. Auch eine Ablationsuntersuchung, bei der systematisch Erklärungskomponenten entfernt werden, fehlt.“

„Es ist also fraglich, ob – wie behauptet – die Erklärung in Wort und Bild relevante Zweitmeinungen für Pathologen liefert. Das müssen weitere Studien erst noch zeigen.“

„Das vorgestellte Modell folgt den Ansätzen, die aus der Literatur bekannt sind, verändert diese aber etwas und verschaltet sie auf neue Art und Weise. Das ist oft so beim Deep Learning. Man könnte – ohne meinen Kollegen aus den Ingenieurwissenschaften zu nahe treten zu wollen – von Deep Learning Engineering sprechen. Daher sind das Modell und die Ergebnisse nicht erstaunlich. Die vorliegende Veröffentlichung führt die eigenen Vorarbeiten der Autoren [3][4] zusammen. Das ist ein wichtiger Schritt in die richtige Richtung. Ob die gelieferten Erklärungen aber nützlich sind, müssen weitere Studien erst noch zeigen. Auch sollten falsche ‚Beweggründe‘ für Entscheidungen korrigierbar sein. Daran arbeiten wir zurzeit [5].“

Auf die Frage, wie leicht sich das System auf andere Fälle generalisieren lässt:
„Das erscheint naheliegend und auch einfach, solange die entsprechenden Daten vorliegen. Dann könnte das System neu antrainiert und evaluiert werden. Ob die Vorhersagegüte und die Erklärungen ähnlich gut sind, kann man aber zum jetzigen Zeitpunkt nicht sagen. Ich würde aber vermuten, dass das der Fall sein wird, solange es genügend viele Daten gibt. Vorläufer des Netzwerkes sind auch online verfügbar [6]. Auch das Netzwerk selbst soll öffentlich zugänglich gemacht werden [7].“

„Das Problem ist, dass es einen OpenLetter großer Teile der internationalen Machine Learning Community gibt [8], der dazu auffordert, nicht bei Nature Machine Intelligence zu publizieren. Daher sind vielleicht anfangs die Arbeiten dort nicht die stärksten. Aber an sich finde ich die Stoßrichtung des Papiers schon interessant und wichtig. Ich würde mich freuen, wenn das Journal auf lange Sicht Erfolg hat. Bei dem OpenLetter sind nicht alle Argumente ganz richtig. So wird ja gerade in der Wissenschaftskommunikation über die Gatekeeper-Funktion und deren aktuellen Verlust stark debattiert. Das wird im OpenLetter leider nicht thematisiert.“

Dr. Frank-Peter Schilling

Wissenschaftlicher Mitarbeiter am Institut für angewandte Informationstechnologie (InIT), Zürcher Hochschule für Angewandte Wissenschaften (ZHAW), Schweiz

„Die Autoren kombinieren mehrere Neuronale Netze mit verschiedenen, komplexen Strukturen, um mehrere Probleme parallel zu lösen: die Identifikation von bösartig veränderten Regionen des Zellgewebes, die tiefergehende Klassifizierung der Art der Veränderungen dieser Regionen und schließlich die Generierung von Textfragmenten der Diagnose. Diese KI-generierte Diagnose ist vergleichbar mit dem Report eines Pathologen.“

„Die sogenannte ‚Caption Generation‘, das heißt die Generierung von Textunterschriften, die den Inhalt eines Bildes basierend auf den identifizierten Objekten beschreiben können, ist an sich nicht ganz neu. Dazu werden Architekturen von Neuronalen Netzen verwendet, die CNN (Convolutional Neural Networks) zur Objekterkennung mit RNN (Recurrent Neural Networks) zur Texterzeugung (ähnlich zum Beispiel bei Google Translate) kombinieren.“

„Ebenfalls werden Neuronale Netze schon seit einiger Zeit auch im medizinischen Umfeld zur Erkennung von Krebs in Gewebeaufnahmen verwendet, zum Beispiel Hautkrebs, und erreichen eine Performance, die mit Fachärzten vergleichbar ist.“

„Neu ist in diesem Fall die Verwendung eines Systems zur Generierung von Diagnosereports, die denen eines Arztes entsprechen. Dies geht weit über eine simple ‚ja/nein‘-Antwort hinaus. Das ist ein wichtiger Schritt hin zu ‚erklärbarer‘ KI, die nicht nur eine Black Box darstellt, sondern es ermöglicht, nachzuvollziehen, wie der Algorithmus zu seiner Entscheidung gekommen ist: durch die Identifikation der verdächtigen Regionen – das ‚Wo?‘ – und deren Klassifizierung – das ‚Was?‘ – und schließlich Freitext Diagnose.“

„Prinzipiell kann man das Modell mit anderen Datensätzen neu trainieren, und so die Anwendungsmöglichkeiten auch auf andere Arten von Krebs, zum Beispiel Hautkrebs, erweitern. Das Training setzt allerdings eine große Menge an Trainingsbildern voraus, die bereits von menschlichen Experten vorklassifiziert worden sind. Die Verfügbarkeit solcher Trainingsdaten in ausreichender Menge ist oft eine wichtige Hürde bei der Übertragbarkeit in ein anderes Gebiet.“

Prof. Dr. Peter Hammerer

Leiter der Urologischen Klinik, Städtisches Klinikum Braunschweig, und Vorstandsmitglied der Europäischen Urologischen Krebsgesellschaft (ESOU)

„Die klinische Relevanz derartiger Modelle ist hoch, da anhand der exakten pathologischen Begutachtung die Entscheidung über die weitere Therapie des Harnblasenkarzinoms getroffen wird. Die primäre Diagnostik bei Harnblasenkarzinomen erfolgt durch eine transurethrale Ausschabung (TUR-B), bei der der Blasentumor bis in die Muskelschichten reseziert wird (endoskopische Abtragung durch die Harnröhre; Anm. d. Red.).“

„Neben der Beurteilung der Aggressivität des Tumors (low/high grade) ist die Invasions-Tiefe des Blasentumors von entscheidender Bedeutung, da von dieser Information entsprechend der aktuellen Leitlinien direkt die Entscheidung hinsichtlich einer Nachsektion, beispielsweise bei pT1-Tumor (Tumor durchbricht die Blasenschleimhaut, ist aber noch nicht in den Muskel eingewachsen; Anm. d. Red.) beziehungsweise einer Zystektomie (Entfernung der Harnblase; Anm. d. Red.) abhängig ist.“

„Die Einteilung der Tumoraggressivität erlaubt eine Abschätzung des Rezidivrisikos und Progressionsrisikos (Wiederauftreten und Fortschreiten der Krebserkrankung; Anm. d. Red.) und gibt Hinweise für eine eventuellen Rezidivprophylaxe.“

„Die histologische Begutachtung kann in einigen Fällen erschwert sein, beispielsweise nach vorausgegangener Resektion, nach intravesikalen Spülbehandlungen mit zum Beispiel BCG oder Mitomycin, oder bei Infektionen. Es ist unklar, inwieweit in dem untersuchten Patientenkollektiv dieser Studie derartige schwierige Bewertungen enthalten waren.“

„Die zusätzliche Information, die dieses System neben der eigentlichen Einschätzung liefert, ist hilfreich. Für eine ausreichende Validierung ist eine größere Anzahl an Patienten und auch das weitere Follow-up hinsichtlich einer Risikoeinteilung notwendig.“

„Insgesamt sind solche Modelle zukunftsweisend, da die pathologischen Fachärzte damit eine wesentliche Arbeitserleichterung erhalten.“

„Derartige diagnoseunterstützende Systeme können in allen Bereichen der Pathologie eingesetzt werden. Dies gilt selbstverständlich nicht nur für die Diagnostik von Krebserkrankungen, in vergleichbarer Weise lässt sich durch solche Systeme die Diagnostik von zum Beispiel entzündlichen Erkrankungen in vielen Bereichen ermöglichen. Ein wesentlicher zusätzlicher Aspekt ist die molekulare Diagnostik, die die Therapieentscheidung zukünftig wesentlich verändern wird, zum Beispiel molekulare Tumorboards (Austausch von Fachärzten, meist mit molekular-genetischem Hintergrund, zu aktuellen Krebsfällen und deren optimaler Behandlung; Anm. d. Red.). Diese Aspekte sind in der vorliegenden Arbeit nicht berücksichtigt.“

Prof. Dr. Michael Muders

Direktor des Rudolf-Becker-Labors und Oberarzt der Pathologie am Zentrum für Pathologie, Universitätsklinikum Bonn

„Die klinische Relevanz dieses Modell ist außerordentlich hoch und stellt einen signifikanten Fortschritt bei der Verwendung von ‚machine learning‘ und AI in der mikroskopischen Diagnostik dar. Besonders interessant und innovativ ist die mitgelieferte histologische Beschreibung der Präparate, die vom zweitevaluierenden menschlichen Pathologen übernommen und überprüft werden kann. Diese Beschreibung enthält weitere wichtige Informationen, die durchaus zu einer Aufdeckung neuer prognostischer morphologischer Kriterien führen kann. Dieses System ist nicht nur auf die Diagnostik von Harnblasenkarzinome beschränkt, es könnte auch bei anderen malignen Erkrankungen eingesetzt werden.“

„Dieses System hat auch ein sehr hohes Potenzial, die Interobserver-Variabilität, also die unterschiedliche Einschätzung des einzelnen Pathologen hinsichtlich des sogenannten Gradings und damit der Aggressivität des Tumors, zu minimieren. Die ist entscheidend, um weltweite Standards zu schaffen, die nicht nur den industrialisierten, sondern auch den Schwellen- und unterentwickelten Ländern zu Gute kommt.“

„Wie bereits oben ausgeführt, stellen gerade die zusätzlichen Informationen des Systems einen enormen Mehrwert da. Es ermöglicht nicht nur die Überprüfung der Befunde, sondern auch die Aufdeckung neuer prognostischer Faktoren.“

„Das sogenannte Grading ist nach der sogenannten Stadien- und Entitäteneinteilung beziehungsweise molekularen Signatur der malignen Erkrankung die wichtigste diagnostische Information vom Pathologen, die sowohl die Therapie determiniert als auch die Überlebenswahrscheinlichkeit des Patienten voraussagt. Beim Blasenkarzinom haben die sogenannten low grade Tumoren eine signifikant geringere Tendenz einen aggressiven Verlauf zu nehmen als die sogenannten high grade Tumoren. Dies determiniert dann selbstverständlich auch den therapeutischen Ansatz.“

„Insgesamt beurteile ich dieses Modell als einen wichtigen Schritt zur Etablierung des Computers als essenzielles Hilfsmittel in der Diagnostik. Gerade bei immer weiter steigenden Fallzahlen und angesichts des zunehmenden Mangels an Pathologen ist dies eine sehr gute Entwicklung. Es beschleunigt, standardisiert und objektiviert die Diagnosestellung und hat ohne Zweifel einen sehr hohen Nutzen für die behandelnden Kollegen und die Patienten. Die Färbungen, die in dieser Studie verwendet wurden, sind state of the art. Die Methodik kann ich als Pathologe leider nicht ausreichend beurteilen, sie scheint mir aber plausibel.“

„Diese Methodik lässt sich auf andere Krebsentitäten übertragen. Beispiele wären das Grading, also die Malignitätseinschätzung, von Nierenzelltumoren und von Prostatakarzinomen, die sehr stringenten Kriterien folgen. Auch das sehr gut beschriebene Grading von Brustkrebs lässt sich hierdurch objektivieren und beschleunigen. Möglicherweise kann dieses System aber auch Merkmale identifizieren, die prognostisch und therapeutisch relevant sind, bisher aber noch nicht vom menschlichen Pathologen entdeckt wurden. Darin – also bei der Identifikation neuer morphologisch sichtbarer prognostischer Merkmale – sehe ich auch einen der Vorteile von machine learning und der Verwendung computer-assistierter Algorithmen in der pathologischen Diagnostik.“

Angaben zu möglichen Interessenkonflikten

Dr. Frank-Peter Schilling: „Es besteht kein Interessenkonflikt meinerseits.“

Prof. Dr. Michael Muders: „Keine.“

Alle anderen: Keine Angaben erhalten.

Primärquelle

Zhang Z et al. (2019): Pathologist-level interpretable whole-slide cancer diagnosis with deep learning. Nature Machine Intelligence. DOI: 10.1038/s42256-019-0052-1.

Literaturstellen, die von den Experten zitiert wurden

[1] Esteva A et al. (2017): Dermatologist-level classification of skin cancer with deep neural networks. Nature; 542 (7639): 115-118.

[2] Yasaka K et al. (2018): Deep learning and artificial intelligence in radiology: Current applications and future directions. PLoS Medicine; 15 (11): e1002707.

[3] Zhang Z et al. (2017): MDNet: A Semantically and Visually Interpretable Medical Image Diagnosis Network. CVPR; 3549-3557.

[4] Zhang Z et al. (2017): TandemNet: Distilling Knowledge from Medical Images Using Diagnostic Reports as Optional Semantic References. MICCAI; (3): 320-328.

[5] Teso S, Kersting K (2019): Explanatory Interactive Machine Learning. In Proceedings of the 2nd AAAI/ACM Conference on AI, Ethics, and Society (AIES).

[6] Github Profil von Zizhao Zhang.

[7] Github Repository, auf dem bald der Code zum Paper der Primärquelle veröffentlicht werden soll.

[8] Oregon State University: Statement on Nature Machine Intelligence.

Weitere Recherchequellen

Molnar C (2019): Interpretable Machine Learning. A Guide for Making Black Box Models Explainable. Ein online verfügbares Buch über für Menschen interpretierbare Machine Learning Modelle und Explainable AI.

Compérat EM et al. (2018): Grading of Urothelial Carcinoma and The New "World Health Organisation Classification of Tumours of the Urinary System and Male Genital Organs 2016". Eur Urol Focus. pii: S2405-4569(18)30004-X. DOI: 10.1016/j.euf.2018.01.003.