Wie trainieren Forschende Algorithmen mit medizinischen Daten, ohne den Datenschutz zu gefährden? Technische und ethische Aspekte

Anlass

Verwertbare Daten über Patientinnen und Patienten werden für die medizinische Forschung strategisch immer wichtiger. Insbesondere beim Antrainieren von Algorithmen aus den Bereichen der künstlichen Intelligenz und des maschinellen Lernens sind massive Datensammlungen unverzichtbar – am besten so detailliert wie möglich, in großer Menge und gut kuratiert. Die neue Sammelleidenschaft führt zwangsläufig zu Konflikten mit Privatsphäre und Datenschutz, da die verwendeten Daten oft sehr sensible Informationen über Patientinnen und Patienten enthalten. In einigen Fällen kann man sogar von einem fertigen KI-Programm auf Gesundheitsdaten zurückschließen und in Teilen zum Antrainieren verwendete Bilder – wie Röntgenbilder oder MRT-Bilder – rekonstruieren.

Klassische Gegenmaßnahmen wie das Anonymisieren der Daten reichen künftig nicht mehr in jedem Fall aus, werden nicht überall sorgfältig angewandt und sind in einigen Fällen auch nicht sinnvoll. In letzter Zeit kommen daher vermehrt Methoden ins Gespräch, wie Algorithmen angelernt werden könnten, ohne Datenschutz und Privatsphäre zu gefährden.

Unter anderem geht es dabei um die Methoden des „Federated Learning“ und des „Swarm Learning“. Beim Federated Learning stellt eine zentrale Instanz zwar den anzulernenden KI-Algorithmus bereit, dieser wird aber lokal da angelernt, wo die Daten bereits liegen – also beispielsweise in den teilnehmenden Krankenhäusern. Die Parameter der so angelernten lokalen KI-Modelle werden an die zentrale Instanz zurückgesendet, wo sie zur Aktualisierung des gemeinschaftlichen KI-Modells verwendet werden. Diese aktualisierten Parameter werden dann an die lokalen Instanzen zurückgeschickt und das dortige Modell wird weitertrainiert. Dieser Vorgang kann wiederholt werden, bis eine gewisse Anzahl Wiederholungen oder ein Schwellenwert in der Performance des Modells erreicht wurde. So erhält die zentrale Instanz nie selbst Zugriff auf die zum Trainieren verwendeten Daten.

Das Swarm Learning funktioniert im Prinzip ähnlich, geht aber einen Schritt weiter. Bei diesem Ansatz gibt es keine zentrale Instanz. Bei jedem Durchlauf wird – durch Zufall oder nach vorgegebenen Kriterien – bestimmt, welche der gleichberechtigten teilnehmenden Instanzen in einem Durchlauf die verschiedenen lokalen KI-Modelle zu einer Version kombiniert.

Zu beiden Ansätzen sind kürzlich zwei Studien in Nature Machine Intelligence [I] und Nature [II] erschienen.

Aber wie zuverlässig sind solche Ansätze, die den Schutz der Privatsphäre mit der Forschungsfreiheit verbinden wollen? Welche weiteren Ansätze werden derzeit erprobt? Welche Vor- und Nachteile haben die verschiedenen Ansätze? Wie kann man überhaupt die Performance von Algorithmen beurteilen und ab wann werden sie in der klinischen Praxis hilfreich? Welche ethischen Aspekte sind dabei zu beachten? Und wie sollte man zwischen Schutz der Gesundheitsdaten und dem Mehrwert für die Forschung abwägen – und wer sollte das tun?

Diese Fragen – und Ihre – beantworteten eine Expertin und zwei Experten in einem 50-minütigen virtuellen Press Briefing.

mehr Infos ausklappen

Video und Transkript

Das Transkript können Sie hier als pdf herunterladen.

Abschluss-Statements

Das SMC hat die Experten und die Expertin am Ende des Press Briefings um kurze Abschlussstatements mit einem Blick in die Zukunft gebeten. Diese möchten wir Ihnen nachfolgend als Statements zur Verfügung stellen.

Prof. Dr. Andreas Maier

Leiter des Lehrstuhls für Mustererkennung, Friedrich-Alexander-Universität Erlangen-Nürnberg

„Ich denke, dass viele Technologien geeignet sind (KIs datenschutzkonform zu trainieren; Anm. d. Red.). Das Federated Learning wird für gewisse Einsatzgebiete sinnvoll sein. Ich denke, dass das Swarm Learning auch eine sehr interessante Technologie ist, die es ermöglicht, die verschiedenen Partner zusammenzubringen und Aushandlungen zu machen. Ich bin immer noch überzeugt, dass Datenspende gut sein kann, wenn man direkt die Erlaubnis einholt, um gewisse Hochrisiko-Dinge zu tun, die potenziell das Risiko haben, dass Daten dabei deanonymisiert werden.“

„Alle Technologien werden ihre entsprechenden Einsatzbereiche entwickeln und man wird klar sehen, wo welche Technologie im Vorteil ist, sodass – wenn man es richtig macht – man wahrscheinlich so gut wie keine oder keine Performance-Einbußen haben muss. Und ich denke, es ist einfach gut investiert, wenn man das jetzt richtig aufsetzt, weil wir dann auch in Zukunft gute Systeme haben werden und das, ohne dabei einzelne Patienten einem Risiko auszusetzen. Das finde ich sehr erstrebenswert und ich denke, dass wir hier auf einem sehr guten Weg sind.“

Prof. Dr. Joachim Schultze

Direktor des Forschungsbereichs Systemmedizin, Deutsches Zentrum für neurodegenerative Erkrankungen e. V. (DZNE), Bonn, und Last Author der Nature-Studie zu Swarm Learning

„Ich bin davon überzeugt, dass wir ohne KI mit den großen Datenmengen, die wir im Augenblick produzieren, nicht zurechtkommen werden. Und wir eröffnen durch die KI Datenräume, die wir als Menschen gar nicht erfassen können. Nehmen wir als Beispiel Genomdaten, das ist ein Datenraum, der ist für uns weder visualisierbar noch hörbar zu machen. Unsere Sinne reichen dafür einfach nicht aus. Da wenden wir schon heute in der Forschung regelmäßig KI an und die müssen wir jetzt in die Klinik übertragen, da kommen wir nicht drum herum.“

„Dann gibt es unterschiedliche Geschwindigkeiten, wie auch bei jetzigen Methoden in der Medizin. Es gibt schnelle Bereiche mit sehr viel Forschung und sehr viel schneller Umsetzung von Technologie und es gibt langsamere. Mit KI wird es genauso sein. Wir müssen die Ärzte bei der Nutzung von Daten entlasten. Ich sehe das als Expertensysteme, die notwendig sein werden, damit der Arzt in Zukunft die richtigen Entscheidungen treffen kann, weil er ansonsten die Daten mit seinem Wissen und seinem Verständnis nicht nutzen kann. Und das führt ihn dann in eine schlechte Situation. Wenn nachher der Standard ist, dass man die Daten nutzen muss, weil das der Stand der Technik ist, ein Arzt das aber nicht kann, weil er keinen Zugang hat, dann ist er in einer sehr misslichen Lage. Er kann nämlich dann juristisch angegangen werden, nicht nach dem Stand der Technik zu arbeiten. Das müssen wir vermeiden und deswegen ist es wichtig, dass wir unter den ethischen Voraussetzungen die Dinge mit höchsten Sicherheitsstandards weiterentwickeln.“

Prof. Dr. Christiane Woopen

Direktorin des Cologne Center for Ethics, Rights, Economics, and Social Sciences of Health, Universität zu Köln, und Vorsitzende des Europäischen Ethikrates (European Group on Ethics in Science and New Technologies)

„Ich glaube, dass wir auf einem guten Weg sind, sowohl technologisch, wenn man solche Entwicklungen wie hier das Swarm Learning betrachtet, als auch regulatorisch. Das dauert natürlich alles sehr lange, aber mit der Datenschutz-Grundverordnung hat Europa einen Standard gesetzt, der auch international maßstabbildend ist. Das hat auch alles seine Schattenseiten und das muss man weiterentwickeln, aber es ist ein hervorragender Ausgangspunkt und wirklich ein Meilenstein in der internationalen Landschaft.“

„Wenn das Gleiche jetzt auch noch für algorithmische Systeme, also für künstliche Intelligenz, gelingen würde – so wie die Kommission das kürzlich vorgelegt hat – wäre auch das ein Meilenstein im internationalen Bereich. Das wird aber sicherlich auch noch einige Zeit dauern.“

„Außerdem fände ich es begrüßenswert, wenn wir viel mehr in die Ausbildung investieren würden, und zwar in eine multidisziplinäre Ausbildung, dass diejenigen, die Informatik und Datenwissenschaften und so weiter lernen, auch die ethischen und regulatorischen Aspekte mitbedenken, damit sie auch ein Bewusstsein für diese Themen entwickeln. Und dass sich andererseits aber auch die Ethiker in diesen Technologien weiterbilden, damit sie, wenn sie angewandte Ethik in dem Bereich betreiben, dann auch wissen, worüber sie sprechen. Sonst bleibt das alles sehr wolkig und allgemein und kann im Einzelfall nicht nutzen.“

„Insofern glaube ich, dass wir auf einem guten Weg sind, aber ich glaube, wir müssen angesichts der großen Macht einiger weniger Akteure in dem Bereich, die über die Daten, über die Technologien und über das Geld verfügen, mitbestimmen, welche Fragen wir überhaupt stellen, welche Forschung wir betreiben und wer dann auch den Nutzen davon hat.“

Quellen

Weiterführende Recherchequellen

Science Media Center (2021): Einige zentrale Begriffe aus dem Bereich Medizin-KI und Datenschutz. Kurz-Glossar. Stand: 17.06.2021.

Literaturstellen, die vom SMC zitiert wurden

[I] Kaissis G et al. (2021): End-to-end privacy preserving deep learning on multi-institutional medical imaging. Nature Machine Intelligence. DOI: 10.1038/s42256-021-00337-8.

[II] Schultze J et al. (2021): Swarm Learning for decentralized and confidential clinical machine learning. Nature. DOI: 10.1038/s41586-021-03583-3.

Prof. Dr. Andreas Maier

Leiter des Lehrstuhls für Mustererkennung, Friedrich-Alexander-Universität Erlangen-Nürnberg

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

Es wurden keine Interessenkonflikte abgefragt.

Prof. Dr. Joachim Schultze

Direktor des Forschungsbereichs Systemmedizin, Deutsches Zentrum für neurodegenerative Erkrankungen e. V. (DZNE), Bonn, und Last Author der Nature-Studie zu Swarm Learning

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

Es wurden keine Interessenkonflikte abgefragt.

Prof. Dr. Christiane Woopen

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

Es wurden keine Interessenkonflikte abgefragt.

Expert:innen

Literatur