Schnellere Diagnose genetischer Krankheiten mit KI?

20.05.2020

Die Diagnose von monogenetischen Erbkrankheiten ist zeit- und arbeitsintensiv, weil sie mit einer aufwendigen Literatur- und Datenbankrecherche verbunden ist. In einer Studie, die soeben im Fachjournal „Science Translational Medicine“ (siehe Primärquelle) erschienen ist, stellen die Autoren nun eine auf Machine Learning basierende Methode vor, die Medizinern bei der Diagnose von seltenen Erbkrankheiten helfen und diesen Prozess beschleunigen soll.

Das Tool erstellt ein Ranking der Genvarianten, die auf Grundlage der vorhandenen Literatur am wahrscheinlichsten Ursache eines beobachteten Krankheitsbildes sind. Dazu wurden aus allen bis September 2018 in der Literaturdatenbank PubMed gelisteten Artikeln jene ausgewählt, die sich mit monogenetischen Erbkrankheiten und dem Zusammenhang zwischen bestimmten Krankheitssymptomen und -merkmalen und zugehörigen Genvarianten beschäftigen. Mit Hilfe der Methode des Natural Language Processing wurde aus den Volltexten eine Datenbank dieser Zusammenhänge erstellt. Das Tool gibt dabei außerdem für jede aufgeführte Genvariante an, auf welchen Studien die Einordnung basiert. So haben Ärzte gleichzeitig Zugang zu potenziell relevanter Fachliteratur für weitere Recherchen.

Bei etwa 90 Prozent der Patienten, an denen das System überprüft wurde, befindet sich die tatsächliche genetische Ursache in den Top 10 des Rankings; bei 66 Prozent der Patienten sogar direkt an erster Stelle. Das Tool ist bereits online verfügbar.

Übersicht

Dr. Tobias Müller, Wissenschaftlicher Mitarbeiter am Zentrum für unerkannte und seltene Erkrankungen (ZusE), Universitätsklinikum Marburg

Prof. Dr. Sebastian Rudolph, Professor für Computational Logic, Fakultät für Informatik, Technische Universität Dresden

Prof. Dr. Kristian Kersting, Leiter des Fachgebiets Maschinelles Lernen, Technische Universität Darmstadt

Prof. Dr. Thomas Meitinger, Leiter des Instituts für Humangenetik, Klinikum rechts der Isar, Technische Universität München (TUM)

Prof. Dr. Peter Krawitz, Direktor des Instituts für Genomische Statistik und Bioinformatik, Universitätsklinikum Bonn

Statements

Dr. Tobias Müller

Wissenschaftlicher Mitarbeiter am Zentrum für unerkannte und seltene Erkrankungen (ZusE), Universitätsklinikum Marburg

„Die klinische Relevanz ist schwer zu beurteilen, da die Evaluation retrospektiv auf Basis von 271 bereits diagnostizierten Fällen erfolgte. Für Systeme der diagnostischen Entscheidungsunterstützung müssen wir im sicheren Rahmen eine prospektive Evaluation fordern, um die Wertigkeit im ärztlichen Alltag abzuschätzen (siehe auch [1][2][3]).“

„Aus technischer Sicht zeigt die Arbeit sehr eindrucksvoll, wie durch geschickte Kombination algorithmischer Verfahren aus der Fülle an Publikationen die relevante Literatur selektiert und Gennamen sowie assoziierte Symptome extrahiert werden können. Dies zum Aufbau einer Wissensbasis, um diese daraufhin nach einem möglichst exakten Match zwischen Symptomkomplex und ursächlicher Genvariante zu durchsuchen. Ebenfalls ist das System bei der Darstellung der Ergebnisse sehr transparent und keine ‚black-box‘. Diese Systeme sind notwendig, damit wir die Erkenntnisse aus der Menge an wissenschaftlicher und medizinischer Literatur beherrschbar machen und damit zum Wohle unserer Patienten einsetzen können.“

„Ich freue mich sehr, dass sich Entwickler mit hohem Engagement für eine computerunterstützte Diagnosefindung bei Menschen mit seltenen Erkrankungen einsetzen. Gerade aufgrund der Vielzahl und hohen Variabilität der seltenen Erkrankungen wird klar, dass dieses Feld enorm von technischer Unterstützung profitieren kann.“

Auf die Frage, inwieweit eine Top 10 Auswahl der möglichen Diagnosen mit einer 90-Prozent-Treffer-Wahrscheinlichkeit inklusive Hintergrund-Literatur die jetzige Diagnose von Erbkrankheiten erleichtern würde:
„In der alltäglichen Anwendung besteht die Schwierigkeit zum einen im Abgleich der Symptomkomplexe mit möglichen Krankheitsbildern und Genvarianten, wofür die Autoren eine technische Unterstützung anbieten. Jedoch insbesondere auch in der Formulierung und Eingabe der beobachteten Symptome. Diese sind Teil der notwendigen Eingangsdaten für das System und setzen zuallererst natürlich voraus, dass man als Arzt die hochvariablen und teilweise sehr subtilen Symptome bei einem Patienten als solche wahrnimmt.“

Auf die Frage, wie eine solche Diagnose derzeit vonstatten geht:
„Jede Diagnose beginnt mit der Erfassung der Symptome des Patienten im zeitlichen Verlauf, durch Anamnese, Untersuchung oder apparative Diagnostik. Danach gilt es die Erkrankung zu bestimmen, welche erklärend für den beobachteten Symptomkomplex ist. Besonders anspruchsvoll wird es, wenn mehrere Krankheiten gleichzeitig auftreten oder eine Erkrankung in dieser Form noch nicht beschrieben wurde.“

„Sehr offensichtlich ist die Limitation, dass nur Erkrankungen in der Wissensbasis vorhanden sind, über welche es bereits wissenschaftliche Literatur gibt. Die Extraktion der relevanten Artikel sowie Gennamen und Phänotypen werden durch Methoden des Maschinellen Lernens sowie Natural Language Processing (NLP) geleistet. Diese können naturgemäß keine 100-prozentige Genauigkeit liefern. Darauf weisen die Autoren jedoch explizit hin. Die größte Einschränkung sehe ich in der Formulierung der Symptome durch den Arzt, welche sehr variabel erfolgen kann. Jedoch ist auch die beschreibende Literatur sehr variabel auf welcher die Wissensbasis gründet, wodurch sich dies ausgleichen dürfte.“

„Die Überlegenheit von AMELIE im Vergleich zu fünf anderen Programmen zum Auffinden potenziell krankheitsverursachender Varianten wurde auf Basis von 271 Fällen aus drei Quellen bestimmt. Es muss kritisch hinterfragt werden ob dies generalistisch auf alle Krankheiten aus der Gruppe der monogenetischen Erkrankungen übertragbar ist.“

Prof. Dr. Sebastian Rudolph

Professor für Computational Logic, Fakultät für Informatik, Technische Universität Dresden

„Ich kann das in dem Artikel vorgestellte Tool nur aus der Sicht eines KI-Wissenschaftlers beurteilen. Seine möglichen Auswirkungen auf die klinische Praxis müsste ein Mediziner einschätzen.“

„Methodisch stellt der präsentierte Ansatz eine gelungene Verknüpfung von verschiedenen Verfahren der Wissensrepräsentation und des maschinellen Lernens dar. Die einzelnen verwendeten Komponenten sind dabei im Bereich der künstlichen Intelligenz und der Sprachverarbeitung bekannt und etabliert. Die relative Verbesserung im Vergleich zu schon existierenden automatisierten Lösungen lässt sich wohl mit dem großem Entwicklungs- und Anpassungsaufwand erklären, mit der dieser Ansatz auf die zu bewältigende Aufgabe maßgeschneidert wurde.“

„Der Erkenntnisgewinn der Publikation für die KI-Forschung selbst ist daher eher überschaubar. Allerdings wird sehr gut deutlich, wie KI-Systeme in der Praxis den Menschen auch bei anspruchsvollen Verrichtungen unterstützen können, gerade auch in Gebieten, die den Umgang mit einer unüberschaubaren und kontinuierlich weiter wachsenden Flut an Informationen erfordern. Wichtig dabei ist aber, dass das Resultat der automatischen Analyse letztlich der Bewertung eines Mediziners zugeführt wird, denn ein tiefes inhaltliches Verständnis komplexer Fachtexte ist momentan noch dem Menschen vorbehalten.“

Prof. Dr. Kristian Kersting

Leiter des Fachgebiets Maschinelles Lernen, Technische Universität Darmstadt

„Ein großer Teil des medizinischen Fachwissens wird in wissenschaftlichen Journalen veröffentlicht. Um eine globale Sicht auf den Stand der Forschung sowie ihrer Antworten zu wichtigen Fragen und Diagnosen zu bekommen, muss man mit der enormen Masse an Veröffentlichungen umgehen können. Das ist fast schon eine ‚unmenschliche‘ Aufgabe. Das Problem der Informationsüberlastung ist ein in der Informatik und der Künstlichen Intelligenz lange bekanntes Problem, das man mit Hilfe von automatischen Methoden zur Extraktion von Wissensbasen zu lösen versucht. Sie machen die medizinische Fachliteratur für Maschinen ‚lesbar‘.“

„Die vorliegende Studie präsentiert nun eine konkrete Pipeline, die wissenschaftliche Literatur automatisch durchforstet, um die wahrscheinlichsten Kandidaten für ursächliche Gene zu ermitteln, die die Symptome eines bestimmten Patienten am besten erklären. Das ist ein tolles Beispiel, wie Mensch und Maschine zusammen mehr erreichen können.“

„Im Gegensatz zu den vielen Erfolgen des Deep Learnings, die wir alle diskutieren, zeigt die vorliegende Studie sehr eindrücklich, was man mit klassischen Methoden schon hinbekommen kann, indem man sie clever kombiniert. Es wird nicht nur ein einzelner Klassifikator als Blackbox gebaut, sondern verschiedene Modelle der Künstlichen Intelligenz wirken zusammen. Das ist erfrischend. Da es gut verstandene Ansätze sind, bleibt das Gesamtsystem verständlich, sodass die Pipeline ihre Entscheidungen begründen und sogar Hinweise auf relevante Forschungsartikel liefern kann. Das zeigt eine wichtige Richtung in der aktuellen KI-Forschung. Ähnlich wie die Systembiologie müssen wir eine systemische Sichtweise auf KI-Systeme einnehmen: Interaktionen einzelner KI-Bausteine werden mathematisch und algorithmisch erfasst, verstanden und genutzt, um eine valide Gesamtsicht auf komplexe KI-Systeme und damit Antworten auf komplexe Fragestellungen zu erhalten.“

„Im Gegensatz zu einer Medizinerin oder einem Mediziner ist das Tool ein Spezialist für genau eine Aufgabe. Für andere Aufgaben, Krankheiten und Erklärungen muss die Pipeline anders aussehen. Sie muss wieder komplett neu aufgebaut werden. Das ist aber eigentlich kein Nachteil. Denn ein Auto soll uns auch nur von A nach B bringen und nicht noch Gedichte schreiben. Ein weiterer Nachteil wird von den Autoren selbst angesprochen: die Unvollständigkeit der Literatur und die damit verbundene Unsicherheit in den Vorhersagen. Dieser wird nicht vollständig Rechnung getragen. Es wird eine ‚closed world‘-Annahme getroffen: Alles, was wir nicht aus der Literatur kennen, existiert auch nicht. Die reale Welt ist aber nicht so einfach. Sie ist eine ‚open world‘ und nicht alles ist in der wissenschaftlichen Literatur in den Datenbanken bereits abgedeckt. Trotzdem sind die Ergebnisse sehr vielversprechend, und auch wir Menschen wissen nicht immer alles. Ob das Tool aber Einschränkungen in der Benutzung aufweist, müssen jetzt Praxistests zeigen. Die empirischen Ergebnisse sind sehr vielversprechend aus der Sicht eines Informatikers.“

„Die empirische Untersuchung erscheint sehr solide. Sie beinhaltet Kreuz-Validierungen, Signifikanz-Auswertungen und Ablationsstudien. Der Vergleich mit ähnlichen Ansätzen zeigt die aktuelle Überlegenheit. Es werden außerdem Limitierungen des Systems angesprochen. Das ist eine sehr beeindruckende Leistung. Die Interaktion der einzelnen KI-Bausteine wird allerdings nicht zu Ende gedacht. Ändert sich die ‚Meinung‘ eines KI-Bausteins ,hat das Einfluss auf die anderen Bausteine. Wenn man das beim Lernen und Schlussfolgern berücksichtigt, könnten noch bessere Ergebnisse erzielt werden. Auch sollte man eigentlich die verschiedenen Argumente für und gegen eine wissenschaftliche Behauptung finden. Veröffentlichungen beziehen sich aufeinander. Sie geben Argumente für und gegen wissenschaftliche Thesen. Das wird in der aktuellen Studie nicht beachtet.“

Prof. Dr. Thomas Meitinger

Leiter des Instituts für Humangenetik, Klinikum rechts der Isar, Technische Universität München (TUM)

„Bei den monogenen Erkrankungen besteht ein relativ direkter Zusammenhang zwischen einer Mutation in einem Gen und einem Krankheitsbild. Die eine Seite der Gleichung, die Varianz des Genoms, kann über Sequenzierungsmethoden immer besser bestimmt werden. Die verschiedenen Krankheitsbilder sind schon schwieriger zu erfassen. Das im Paper vorgestellte Programm benutzt die Weltliteratur, um Gen-Krankheitsbildpaare herauszusuchen und die „Passung“ zu quantifizieren in Form einer Reihenfolge.Das hilft bei der molekularen Diagnostik von monogenen Erkrankungen. Das vorliegende Paper ist ein kleiner Schritt bei der Verbesserung solcher Analysen, es ist kein Durchbruch“.

„Das Krankheitsbild bei monogenen Erkrankungen, vor allem der Verlauf der Erkrankung, ist sehr schwierig zu erfassen. Denn jeder Mensch reagiert ein bisschen anders auf die gleiche Veränderung im Genom. Es gilt diese Verbindung zwischen dem Krankheitsbild und der verantwortlichen Genvariante herzustellen. Dazu gibt es immer mehr Publikationen. Diese zu durchdringen, ist arbeitsaufwendig und dazu braucht es technische Unterstützung. Allerdings sind über die Hälfte der Zusammenhänge nicht aufgeklärt. Diese unbekannten Zusammenhänge sind die schwierigere Aufgabe. Das Programm hilft nur bei den bekannten Zusammenhängen und kann damit vielleicht helfen, Bekanntes schnell ausschließen.“

„Aktuell werden vor allem manuell kuratierte Datenbanken verwendet, um bekannte Zusammenhänge zwischen Krankheitsbild und der verantwortlichen Genvariante für die Diagnose zugänglich zu machen. Der große Vorteil einer manuellen Kuratierung liegt darin, dass die Qualität der vorhandenen Literatur bewertet wird. Dabei kann es jedoch einige Zeit dauern, bis neue Forschungsergebnisse aufgenommen werden können. Eine automatisierte Erfassung von Publikationen kann diese neue Literatur früher mit einbeziehen. Dabei kann dieses Programm eine Hilfe sein.“

„Methoden für diese Art der Literaturrecherche werden ständig weiterentwickelt. Nach meiner Erfahrung überbetont die Studie jedoch, wie viel Zeit dadurch bei der Analyse gespart werden kann. Wie groß der Nutzen dieses Programms tatsächlich ist, wird sich erst zeigen, wenn zu den im Manuskript gemachten Vergleichen weitere Vergleiche hinzukommen.“

„Der Name für das Programm – Amelie – ist raffiniert gewählt, aber auch vielsagend. Wenn ich mich richtig erinnere an den Kinofilm, dann handelt es sich um ein Märchen. An Märchen ist etwas Wahres dran, sagt man.“

Prof. Dr. Peter Krawitz

Direktor des Instituts für Genomische Statistik und Bioinformatik, Universitätsklinikum Bonn

„Birgmeier und Kollegen stellen ein neues Werkzeug vor, welches Klinker anhand von phänotypischen und molekulargenetischen Daten bei der Differentialdiagnostik seltener Erkrankungen unterstützen soll. Die Angaben zur Performanz basieren auf simulierten oder retrospektiv erhobenen Daten. Es handelt sich damit um ein weiteres Tool, das die Odyssee bei der Suche nach der richtigen Diagnose verkürzen kann. Der Mehrwert oder die Überlegenheit im Vergleich zu anderen Tools müsste aber erst noch durch Einsatz unter realen Bedingungen belegt werden.”

„Die Genauigkeitsraten in den Top-10- oder Top-1-Auswertungen des Tools sind durchaus üblich. Die Ergebnisse zur Leistung des Tools im Vergleich zu anderen kann man unter anderem in Abbildung zwei ablesen; die dort angegebenen Werte sind als gut zu bewerten.”

„Insgesamt halte ich das vorgestellte Werkzeug der renommierten Arbeitsgruppe selbstverständlich für sehr solide und relevant in diesem Forschungsbereich. Wie auch bei anderen Tools,sind aber einige Limitationen zu nennen.”

„Das Tool bezieht keine Ergebnisse aus der Bildanalyse ein. Eine seltene Erkrankung, die zum Beispiel durch ‚einen charakteristischen phänotypischen Aspekt’ in einem Fachartikel beschrieben wird, ist diesem Tool praktisch nicht zugänglich. Dazu müssen andere Verfahren eingesetzt werden, wie zum Beispiel [4] und [5].”

„Der Vergleich mit bereits bestehenden Tools,insbesondere bei einer über Simulation und retrospektiv zusammengestellten Testkohorte, ist nur von eingeschränkter Aussagekraft. Das Werkzeug sollte nun in prospektiven Studien unter realen Bedingungen untersucht werden. Zudem ist der Code des Tools leider nicht offengelegt und der Methodenteil nicht sehr aufschlussreich.”

„Jede in diesem Feld aktive Arbeitsgruppe kämpft mit den gleichen Problemen. Natural Language Processing (NLP) scheitert bereits an scheinbar einfachen Problemen, wie zum Beispiel der Erkennung, ob ein Merkmal nicht anwesend ist. Auch wenn im untersuchten Fließtext Vergleiche mit anderen Fällen aus der Literatur oder Familienmitgliedern angestellt werden, ist das derzeit für NLP praktisch nicht erkennbar. Zu diesen Punkten wird nichts in der Arbeit gesagt. Es ist daher unklar, ob die bessere Performanz des Tools auf verbesserte Algorithmen zurück geht oder ‚einfach’ nur auf besseres Engineering.”

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Peter Krawitz: „Wir arbeiten an ähnlichen Fragestellungen, legen jedoch derzeit unseren Fokus eher auf die Analyse von Bilddaten.”

Dr. Tobias Müller: „Ich bin am Zentrum für unerkannte und seltene Erkrankungen am Universitätsklinikum Marburg tätig. Darüber hinaus leite ich die Stabsstelle Digitale Transformation bei der RHÖN-KLINIKUM AG, Bad Neustadt a.d. Saale.“

Prof. Dr. Kristian Kersting: „Ich habe 2015 eine gemeinsame Publikation zusammen mit einem der Koautoren, Christopher Re, veröffentlicht. Aktuell stehen wir beide im Kontakt und loten mögliche Zusammenarbeiten aus. Über die vorliegenden Arbeit und Veröffentlichung war ich nicht im Bilde.“

Alle anderen: Keine Angaben erhalten.

Primärquelle

Birgmeier J (2020): AMELIE speeds Mendelian diagnosis by matching patient phenotype and genotype to primary literature. Sci. Trans. Med.; 12, eaau9113.

Literaturstellen, die von den Experten zitiert wurden

[1] Kaulen H (2020): Sind Algorithmen tatsächlich die besseren Ärzte? FAZ.

[2] Nagendran M et al. (2020): Artificial intelligence versus clinicians:systematic review of design, reporting standards, and claims of deeplearning studies. BMJ; 368 :m689. DOI: 10.1136/bmj.m689.

[3] Fraser H et al. (2018): Safety of patient-facing digital symptom checkers. Lancet, 392(10161), 2263-2264. DOI: 10.1016/S0140-6736(18)32819-8.

[4] Gurovich Y et al. (2019): Identifying facial phenotypes of genetic disorders using deep learning. Nature Medicine; 25: 60.64. DOI: 10.1038/s41591-018-0279-0.

[5] Hsieh T-C et al. (2019): PEDIA: prioritization of exome data by image analysis. Genetics in Medicine; 21: 2807–2814. DOI: 10.1038/s41436-019-0566-2.