Algorithmus diagnostiziert Kinderkrankheiten im Krankenhaus
Kann ein Algorithmus Kinderkrankheiten ähnlich gut diagnostizieren wie behandelnde Ärzte? Eine chinesische Arbeitsgruppe stellt ein System künstlicher Intelligenz (KI) vor, das genau das können soll. Um das System zu trainieren, haben die Autoren Daten aus elektronischen Patientenakten des Guangzhou Women and Children’s Medical Center in China benutzt. In einem ersten Schritt haben sie sogenanntes Natural Language Processing angewendet, um die Informationen aus den Krankenakten nutzbar zu machen. Diese Technik verarbeitet natürliche geschriebene oder gesprochene Sprache maschinell und bringt sie in eine strukturierte, für weitere Algorithmen verarbeitbare Form. Die aus den Akten extrahierten Daten umfassten Informationen zur medizinischen Vorgeschichte, Laborergebnisse und Auffälligkeiten in physischen Untersuchungen, nicht jedoch die vom Arzt gestellte Diagnose. In einem zweiten Schritt hat ein Algorithmus die Daten dann immer feiner werdenden Klassen zugeordnet: zunächst den betroffenen Organsystemen, dann Gruppen von verwandten Krankheiten bis hin zu einer endgültigen Diagnose. Die vom System gestellte Diagnose stimmte je nach Krankheit in 79 bis 98 Prozent der Fälle mit der des behandelnden Arztes überein.
Oberarzt in der Klinik für Pädiatrische Hämatologie und Onkologie, Medizinische Hochschule Hannover (MHH), Hannover
„Der Artikel zeigt, dass künstliche Intelligenz (KI) in der Lage ist, Datensätze zu klassifizieren. Im vorliegenden Fall wurden Krankenakten klassifiziert, die in elektronischer Form (electronic health records; EHR) vorlagen. Entsprechend wäre es denkbar, einen Datensatz im deutschen System ebenfalls mit KI zu klassifizieren. Derzeit gibt es allerdings an den wenigsten Einrichtungen eine (einheitliche) Patientenakte. In den wenigsten Einrichtungen sind diese (komplett) elektronisch. Vielerorts finden sich noch handschriftliche Notizen oder wenig strukturierte elektronische Daten. Das erschwert die systematische Auswertung und den Einsatz von KI im deutschen System.“
„Die Anwendungsfälle sind für mich in dem Artikel nicht nachvollziehbar beschrieben worden. Da heißt es, dass aus dem Datensatz von ‚11.926 records a random subset‘ von Ärzten klassifiziert wurde. Was heißt das? Wie viele Krankenakten wurden in welcher Zeit von ÄrztInnen begutachtet? Das ist mir viel zu ungenau, um die (wirkliche) Qualität zu bewerten.“
„Grundsätzlich ist es sinnvoll, zu Ausbildungszwecken mit virtual patients (VP) zu arbeiten. Entsprechend kann der große Datensatz auch für Trainingszwecke junger Ärztinnen und Ärzte eingesetzt werden. Da es jedoch nie ganz transparent ist, warum sich eine KI für eine Diagnose entscheidet, finde ich das für eine konkrete Lernsituation nicht optimal. Denn da fragt der Auszubildende doch: Warum ist in diesem Fall die Diagnose Windpocken wahrscheinlich? Die KI kann das nicht begründen, die echte Lehrerin/der Lehrer schon.“
„Die Methoden halte ich für grundsätzlich geeignet, um zu Datensätze klassifizieren. Wir haben ebenfalls vergleichbare Systeme erfolgreich eingesetzt, um Krankheiten beziehungsweise Symptome zu klassifizieren und Krankheiten zuzuordnen. Ich sehe im Wesentlichen zwei Limitationen: Erstens wurde im vorliegenden Artikel nur eine kleine Auswahl pädiatrischer Diagnosen verwendet. Seltene Erkrankungen, die sich durchaus hinter allgemeinen Symptomen verstecken könnten, wurden offenbar ausgespart. Als eine viel bedeutsamere Limitation erscheint mir zweitens, wie die Diagnosen validiert wurden: Es ist davon auszugehen, dass in dem überaus großen Trainingsdatensatz überwiegend ‚klinische‘ Diagnosen gestellt wurden, das heißt, allein nach dem klinischen Eindruck wurde die Diagnose Windpocken oder Röteln gestellt. Das mag in vielen Fällen ausreichend sein, besonders bei einfachen Diagnosen. Aber statistisch ist jede siebte Diagnose in der Notfall-Sprechstunde falsch. Entsprechend muss ein gutes KI-System sicherstellen, dass der Trainings-Datensatz an Daten trainiert, die von Hand validiert wurden, wo also extra überprüft wurde, dass die Diagnose auch wirklich korrekt ist. Diesen Schritt konnte ich in der vorgestellten Arbeit nicht sehen und entsprechend hat das System mutmaßlich auch falsche Diagnosen trainiert.“
„Die Autoren schreiben, dass dieses – oder vergleichbare Systeme – für eine Triage (Erstauswahl oder Ersteinschätzung kranker Patienten nach dem Schweregrad der Erkrankung oder Verletzung; Anm. d. Red.) geeignet sein könnten. Diese Einschätzung teile ich, da über gute Klassifikatoren eine Triage sinnvoll unterstützt werden kann.“
Stellvertretender Direktor des Innovation Center Computer Assisted Surgery (ICCAS), Universität Leipzig
„Die Studie liefert interessante Ergebnisse, die nach Angabe der Autoren mit der Ergebnisqualität der menschlichen Vergleichsgruppen verglichen in etwa gleichwertig sind. Die Studie zeigt das Potenzial von Künstlicher Intelligenz (KI) zur Entscheidungsunterstützung des Arztes. Das Problem der Übertragbarkeit auf das deutsche Gesundheitssystem sehe ich in der zu geringen Menge verfügbarer Datensätze, um solch ein System zu trainieren. Das ist aus unterschiedlichen Gründen der Fall, zum Beispiel fehlt die technische Anbindung der Systeme zur Datenintegration oder Privacy-Aspekte spielen eine Rolle. Außerdem herrscht eine grundsätzlichen Zurückhaltung gegenüber Technologien, insbesondere in zusätzlich emotional belegten Bereichen wie der Kindermedizin (‚Würden Sie lieber einen Arzt oder einen Computer über die Behandlung Ihres Kindes entscheiden lassen?‘).“
Auf die Frage, inwiefern ist es sinnvoll ist, junge Ärzte zu Schulungszwecken mit Algorithmen arbeiten zu lassen:
„Das halte ich nicht für sinnvoll. Jeder Arzt muss den Einsatz von Technologie verantworten können, das heißt, er muss sich über die Funktionsweise der Technologie im Klaren sein. Das ist insbesondere relevant, um zu überprüfen, ob die Ergebnisse der Technologie plausibel sind. Wenn ein Arzt nicht in der Lage ist zu erkennen, ob die Technologie das korrekte Ergebnis liefert, ist der Einsatz der Technologie durch den Arzt nicht zu verantworten. Wenn ein junger Arzt das klinische Bild noch nicht beurteilen kann, wie soll er dann die Korrektheit des Ergebnisses der KI beurteilen? Zusätzlich bedarf es keine KI, um die Korrektheit eines Ergebnisses während einer Schulung mit dem, in der Regel durch einen Senior verifizierten Referenzergebnisses zu vergleichen.“
„Die Hauptlimitation des Systems ist die fehlende Interpretierbarkeit. Die angewendeten Algorithmen sind nicht rückverfolgbar und es kann nicht erklärt werden, wie die Entscheidung zustande kommt. Der verwendeten Methodik ist es inhärent, dass die Ergebnisfindung vor dem Nutzer verborgen bleibt.“
Leiter des Projekts Biostatistik, Helmholtz-Zentrum für Infektionsforschung (HZI), Braunschweig
„Die Studie weist aus statistischer Sicht erhebliche Mängel auf. So wird beispielsweise eine scheinbar gute Vorhersagequalität des KI-Systems, bei der fast 89 Prozent der Diagnosen korrekt sind (Bakterielle gegen Mykoplasma-Pneumonie, Tabelle 4 im Anhang) als Erfolg verkauft. Da aber knapp 90 Prozent der Fälle aus einer Diagnose stammen, ist das KI-System schlechter als ein System, das ohne jegliche Zusatzinformation blind immer diese eine Diagnose stellen würde. Das KI-System ist an dieser Stelle also schlechter als Raten. In manchen Fällen ist das KI-System minimal besser als die simple Methode der Mehrheitsdiagnose. Es erreicht beispielsweise nur eine Steigerung von circa 93 Prozent (blindes Raten) auf knapp 95 Prozent (Upper respiratory system, Tabelle 1 des Artikels). Bei den Hauptdiagnosen schneidet das KI-System deutlich besser ab als blindes Raten. Allerdings bedarf es wahrscheinlich in den meisten Fällen weder eines Medizinstudiums noch einer Künstlichen Intelligenz, um eine Atemwegs- von einer Darmerkrankung zu unterscheiden.“
„Des Weiteren gibt es offensichtliche Inkonsistenzen oder Fehler bei den Fallzahlen. Im Methodenteil wird von 567.498 Patienten gesprochen, in der Tabelle im Anhang sind es 815.919. Vermutlich sind die Zahlen in den Spalten D und E ab Zeile 6 in der Fallzahltabelle (Tabelle 1 im Anhang) vertauscht. Zumindest können sie so nicht stimmen, da die Trainingskohorte laut der Tabelle deutlich größer sein sollte als die Testkohorte.“
„Neben diesen auch für den statistischen Laien überprüfbaren Einschränkungen der Studie kommt hinzu, dass das Studiendesign nicht klar ist, dass an mehreren Stellen nicht beschrieben wird, wie bestimmte Werte berechnet wurden (AUC-Werte Anhang) und dass es Probleme mit der statistischen Terminologie (‚linear logistic regression‘) gibt.“
„Sicherlich sind nicht alle Ergebnisse in der Studie anzuzweifeln. Aber insgesamt ist mit den Zahlen und den Begriffen so schludrig umgegangen worden, dass man dadurch der gesamten Studie nur sehr wenig Vertrauen schenken kann.“
„Ich bin Mitgründer der Firma Improved Medical Diagnostics IMD, Hannover, GmbH. Die Firma verfolgt den Zweck, Diagnose-unterstützende Verfahren zu entwickeln. Wir haben im November 2018 eine App als Medizinprodukt zugelassen, die anhand des Antwortmusters von 53 Fragen sagen kann, ob eine seltene Erkrankung vorliegt.“
Alle anderen: Keine Angaben erhalten.
Primärquelle
Liang H et al. (2019): Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence. Nature Medicine. DOI: 10.1038/s41591-018-0335-9.
Prof. Dr. Lorenz Grigull
Oberarzt in der Klinik für Pädiatrische Hämatologie und Onkologie, Medizinische Hochschule Hannover (MHH), Hannover
Prof. Dr. Thomas Neumuth
Stellvertretender Direktor des Innovation Center Computer Assisted Surgery (ICCAS), Universität Leipzig
Prof. Dr. Frank Klawonn
Leiter des Projekts Biostatistik, Helmholtz-Zentrum für Infektionsforschung (HZI), Braunschweig