DeepMind-Durchbruch löst angeblich Proteinfaltungs-Problem
Wie sich aus einer linearen Abfolge von Aminosäuren ein dreidimensionales Protein faltet, um so als molekulare Maschine biologische Prozesse in Lebewesen zu steuern, wird seit der Entzifferung des genetischen Codes als sogenanntes „Proteinfaltungsproblem“ erforscht. Seit mehr als 50 Jahren versuchen Experimentatoren, Strukturbiologen und „Computational Biologists“, das Rätsel des sogenannten „zweiten genetischen Codes“ des Lebens zu knacken. Wäre dieser Code entschlüsselt, dann könnten Forschende und Pharmafirmen aus einer bloßen DNA-Sequenz die komplexe räumliche Gestalt von Eiweißen mit atomarer Auflösung vorhersagen. Doch trotz aller experimentellen, inkrementellen Erfolge der Strukturaufklärung von Proteinen bleibt die De-Novo Vorhersage der räumlichen Struktur eines Eiweißes auf der Basis der Aminosäuresequenz ein „heiliger Gral“ der Biologie, vor allem dann, wenn den Forschenden keinerlei Proteine mit ähnlichen Aminosäuresequenzen bekannt sind [I].
Gruppenleiter, Europäisches Laboratorium für Molekularbiologie (EMBL), Hamburg
„Wow, das ist ein Durchbruch! Es gibt natürlich Einschränkungen und Aspekte, die verbessert werden müssen, bevor das Problem der Strukturvorhersage endgültig gelöst ist, aber die Genauigkeit und Erfolgsrate von AlphaFold ist beispiellos. Ich kann es kaum erwarten, diese Methode für meine Proteine einzusetzen.“
Zur Frage nach der grundlegenden Herausforderung bei der Vorhersage der Proteinfaltung:
„Es gibt zwei grundlegende Herausforderungen: die ‚Vorhersage der Proteinfaltung‘ – die Kartierung der tatsächlichen Faltungswege, die Proteine nehmen, um ihre native Struktur anzunehmen – und die ‚Vorhersage von Faltungen in Proteinen‘ – die Vorhersage von Proteinstrukturen anhand von Sequenzen. Die erste Herausforderung ist noch weit davon entfernt, geknackt zu werden, aber DeepMind hat einen erstaunlichen Durchbruch bei der Lösung der zweiten Herausforderung erzielt.“
„Viele Computerprogramme sind in der Lage, Strukturen von Einzeldomänenproteinen vorherzusagen, die gelegentlich genauso gut sind wie experimentelle Strukturen. Aber DeepMind's AlphaFold sagt Strukturen mit viel höherer Genauigkeit und mit viel höherer Erfolgsrate voraus. Die aktuellen Daten des CASP haben dies bereits verifiziert. Bevor wir das Problem als gelöst betrachten, sollten wir jedoch abwarten, bis wir wirklich regelmäßig das AlphaFold-Programm ausführen, anstatt Strukturen im Labor zu lösen.“
Zur Frage nach den Auswirkungen auf Praxis und Forschung und wo die Grenzen von AlphaFold liegen:
„Die Vorhersage der Struktur von Proteinkomplexen ist immer noch sehr schwierig und kann von AlphaFold noch nicht durchgeführt werden. Aber im Prinzip kann der AlphaFold-Ansatz verwendet werden, um Kontakte zwischen Proteinen in einem Komplex abzubilden. Wenn DeepMind dies auch nur mit der Hälfte der derzeitigen Genauigkeit für einzelne Proteine schafft, wäre das ein weiterer Meilenstein.“
„Proteine nehmen in der Regel nicht eine einzige Faltung an, sondern verändern sich als Reaktion auf die Umgebung, bei der Bindung an andere Proteine, bei der Durchführung enzymatischer Reaktionen oder bei der Bindung von Medikamenten oder therapeutischen Antikörpern. Es scheint, dass AlphaFold diese Veränderungen noch nicht vorhersagen kann. Aber Deep Learning kann auch auf solche Probleme angewandt werden, und es wäre schön zu sehen, wie DeepMind sich mit ihnen beschäftigt. Wir müssen nur gute Trainingsdaten liefern.“
Gruppenleiter Protein Data Bank in Europe, European Bioinformatics Institute, Europäisches Laboratorium für Molekularbiologie (EMBL-EBI), Cambridge, Vereinigtes Königreich
„Die dreidimensionalen Strukturen von Proteinen sind wesentlich für das Verständnis biologischer Systeme auf molekularer Ebene, da die Form ihre Funktion bestimmt. Die Strukturen können verwendet werden, um neue Proteinfunktionen zu entwerfen, die Stabilität bestehender Proteine zu verbessern oder therapeutische Moleküle mit Anwendungen in der Biotechnologie und der pharmazeutischen Industrie zu entwickeln. Daher bleibt die Erforschung der grundlegenden Prinzipien des Proteinstrukturdesigns eine der großen Herausforderungen der computergestützten Biologie.“
„Derzeit haben weniger als ein Prozent der Proteine im Menschen experimentell bestimmte Strukturen. Die Strukturvorhersage kann 3D-Strukturen für Sequenzen liefern, für die experimentell bestimmte Strukturen nicht verfügbar sind. Die Fortschritte, die DeepMind mit der AlphaFold-Methode erzielt hat, sind aufgrund der bemerkenswerten Erfolgsrate bei der Vorhersage von 3D-Strukturen besonders bedeutsam.“
„Gemeinschaftsanstrengungen wie das CASP haben maßgeblich dazu beigetragen, Forscher in diesem Bereich zusammenzubringen, was zu raschen Fortschritten bei der Entwicklung von Strukturvorhersagemethoden geführt hat. Die von AlphaFold erzielten Fortschritte sind insofern bemerkenswert, als dies das erste Mal ist, dass eine einzige Vorhersagemethode einen großen Teil der Strukturziele, die bei einer CASP-Herausforderung bereitgestellt werden, genau vorhergesagt hat.“
„In einer zellulären Umgebung funktionieren die meisten Proteine, indem sie Komplexe bilden, sodass zu den zukünftigen Herausforderungen die Vorhersage von Strukturen von Multidomänen-Proteinen, Proteinkomplexen und die Identifizierung biologisch sinnvoller Funktionszustände einzelner Makromoleküle gehören.“
Leiter der Forschungsgruppe „Multiscale Biomolecular Simulation“, Karlsruher Institut für Technologie (KIT)
„Proteine sind komplexe Biomoleküle, die Leben auf der molekularen Skala bestimmen. Dabei ist ihr Aufbau verblüffend einfach, denn sie bestehen aus einer oder mehreren Ketten aneinandergereihter Aminosäuren – analog Perlen einer Kette. Diese ‚Perlenkette‘ oder ‚Proteinsequenz‘ nimmt eine eindeutige und nur aufwändig messbare dreidimensionale Struktur in einem Prozess namens Proteinfaltung an. Die dreidimensionale Struktur aus der Proteinsequenz vorherzusagen ist eine sehr große wissenschaftliche Herausforderung. AlphaFold nutzt für diese Aufgabenstellung Verfahren der künstlichen Intelligenz, die den bestehenden gewaltigen Datenschatz an Sequenz- und Strukturdatenbanken nutzen. Die bisher veröffentlichen Ergebnisse dazu sind extrem beindruckend, zum Beispiel die GDTs (‚global distance tests‘) von teilweise über 90 sind überragende Ergebnisse. Allerdings gibt es noch keine wissenschaftliche Veröffentlichung, die in die Details des neuen Verfahrens einsteigt. Da würde ich mich über zeitnahe Informationen, insbesondere auch Rohdaten und den ‚Source Code‘, sehr freuen. Dies hat bei der 2018 präsentierten Vorläufer-Variante von AlphaFold leider etwa 1,5 Jahre gedauert, bis die Veröffentlichung [1] erschienen ist.“
„Zur tatsächlichen wissenschaftlichen Einordnung muss jedes Detail der zugrundeliegenden Daten und auch des Verfahrens überprüft und bewertet werden. Zunächst ist das Wort ‚Proteinfaltung‘ nicht eindeutig, da es nicht nur Vorhersage der finalen Strukturen, sondern auch das Verständnis der Dynamik, also des Weges dorthin, umfasst. Dort gibt es sowohl aus laborexperimenteller aber auch aus theoretischer Sicht, zum Beispiel im Rahmen der ‚Theorie der Energielandschaft‘ oder aus molekulardynamischen Simulationen, zahlreiche Erkenntnisse. Bei den Vorhersageergebnissen müsste man unterscheiden, für welche Klassen von Proteinen hochqualitative Vorhersagen möglich sind, da Proteinstrukturen sehr unterschiedlich in ihrer Komplexität sind. Funktioniert AlphaFold für all diese Klassen oder gibt es ungelöste Herausforderungen? Wie gut sind Vorhersagen bei weniger Inputdaten? Also zum Beispiel bei eukaryotischen Lebewesen (höhere Lebewesen mit Zellkern und Zellkompartimenten; umso komplexer die Zellstruktur, desto mehr Interaktionen kann ein Protein eingehen; also in Polymeren oder Komplexen vorliegen, Membran-gebunden sein, et cetera. Der reine Sequenz-Input ist dann klein im Verhältnis zu den möglichen Einflussfaktoren, die das Protein noch verändern können; Anm. d. Red.) oder bei kleineren Multiple Sequence Alignments (MSA) (MSA bedeutet grundsätzlich die Ausrichtung von drei oder mehr biologischen Sequenzen – Aminosäure- oder DNA/RNA-Sequenzen ähnlicher Länge. Aus den Ergebnissen des Übereinanderlegens können evolutionäre Beziehungen zwischen den Sequenzen untersucht werden; Anm. d. Red.).“
„Auch zur verwendeten Technik kann ich derzeit nur grobe Aussagen machen. So wurde die Netzwerkstruktur des Deep Learning von der Version von 2018 hin zur aktuellen Version von AlphaFold deutlich variiert. In den früheren Versionen wurden drei unterschiedliche, sich ergänzende neuronale Netze trainiert, um zum Beispiel Abstände zwischen Aminosäuren vorherzusagen. Erst in einem zweiten und separaten Schritt wurden daraus Proteinstrukturen erzeugt. Im aktuellen AlphaFold werden nun zusätzliche Konzepte des Deep Learning, insbesondere der ‚Attention‘ aus der Bild- und Sprachverarbeitung, genutzt. Außerdem wird die Proteinstruktur innerhalb eines einzigen neuronalen Netzes direkt erzeugt. Was ich bemerkenswert finde ist, dass AlphaFold vermutlich gezielt sogenannte globale Informationen per Attention nutzt, obwohl dies bei der alten Version nicht als notwendig betrachtet wurde [1].“
„Absolut herausragend ist die berichtete Genauigkeit des Verfahrens. Für eine vergleichbare Genauigkeit waren bisher aufwändige Experimente nötig, um neue Proteinstrukturen untersuchen zu können. Vorhersagen neuer Strukturen würden gleichzeitig weitere Validierungen ermöglichen. Ferner könnten strukturgebende Verfahren in Zukunft deutlich vereinfacht werden, was neben der Grundlagenforschung auch für die pharmazeutische und medizinische Forschung relevant ist.“
„Was ich noch nicht abschätzen kann, sind die Grenzen des Deep Learning im Bereich der Computational Biology. Derzeit entwickelt sich das Feld so rapide. Aber es wird sehr spannend und es gibt schon jetzt viele Anschlussfragen! Ein Problem bei Neuronalen Netzen ist das der Interpretierbarkeit – ihre Komplexität erschwert das Verständnis, welche Mechanismen zum Ergebnis führen. Dort haben einfachere Modelle, die sich direkt interpretieren lassen, deutliche Vorteile. Dann benötigt Deep Learning erhebliche Datenmengen, ist also zum Beispiel auf RNA-Moleküle mangels Trainingsbeispielen erst einmal nicht direkt anwendbar. Was Multidomainproteine und Komplexe angeht, sind wahrscheinlich keine großen Schwierigkeiten zu erwarten, die hohe Vorhersagequalität auf diese Gruppen zu transferieren. Weiterhin werden die Verfahren auf zusätzliche Fragen angewandt werden. So gibt es zum Beispiel Ansätze, Vorhersagen zur Proteinfunktion zu machen – etwa, welche Mutationen von Schlüsselproteinen Antibiotikaresistenz erhöhen oder reduzieren, oder wie man industriell relevante Enzyme verbessern kann. Da wäre man auch direkt bei der Anwendung.“
„Spannend ist in dem Zusammenhang auch ‚die gesellschaftliche Perspektive‘ der Forschung. Wollen wir als Gesellschaft, dass große internationale Technologieunternehmen Forschung zu KI so wesentlich vorantreiben, oder wollen wir in der öffentlichen Forschung an Universitäten und Forschungseinrichtungen unabhängige Kompetenz in der Schlüsseltechnologie KI halten?“
Leiter der Forschungsgruppe Computational Structural Biology, Institut für Biologische Informationsprozesse, Strukturbiochemie, Forschungszentrum Jülich
Zur Frage, ob der „Code der Proteinfaltung“ geknackt wurde:
„Der ‚Code der Proteinfaltung‘ beschreibt das Verständnis des Zusammenhangs zwischen Sequenz und Struktur. Eine Deep Learning Methode wie AlphaFold liefert zwar ganz erstaunliche Ergebnisse, gibt aber wenig Aufschluss darüber, wie diese Ergebnisse zustande kommen.“
„AlphaFold ist im Grunde, wie eine Person zu kennen, die innerhalb weniger Stunden eine Proteinstruktur experimentell bestimmen kann, uns aber nicht sagt, wie sie das macht.“
„Es ist fantastisch und von großem wissenschaftlichem Wert, eine Methode zu haben, die so erfolgreich atomare Modelle produziert. Den ‚Code der Proteinfaltung‘ halte ich allerdings nicht wirklich für geknackt.“
Zur Frage, was DeepMind genau erreicht haben soll, dass das Vorhersage-Problem von Faltungsstrukturen für gelöst erklärt wird und welche Daten man bräuchte, um das überprüfen zu können:
„Der CASP Wettbewerb ist ein Blindtest (die richtigen Strukturen sind den Teilnehmern noch unbekannt) und ist ursprünglich geschaffen worden, um festzustellen, wie gut die Wissenschaft die Vorhersage von Proteinstrukturen beherrscht. Es ist also ein sehr guter Test für neue Methoden. Wenn hier also eine Methode beweist, dass alle ihre Vorhersagen sehr nah an den korrekten experimentell bestimmten Strukturen sind, dann kann das als Lösung des Problems bezeichnet werden. Ein GDT von 90 ist sehr gut und selbst 85 bedeutet, dass die Faltung im Wesentlichen korrekt ist.“
Anmerkung – Prof. Schröder aktualisierte den folgenden Teil des Statements nachträglich zu:
„Nach der Veröffentlichung der Ergebnisse ist nun klar geworden, dass AlphaFold für alle eingeschickten Strukturen die Faltung korrekt bestimmt, das heißt alle Strukturen richtig vorhergesagt hat. Es liefert zwar nicht für alle, aber für die große Mehrheit der Strukturen extrem genaue Modelle. Damit lässt sich nun durchaus sagen, dass AlphaFold beziehungsweise DeepMind das Proteinfaltungsproblem praktisch gelöst hat.”
Aus Gründen der Nachvollziehbarkeit können Sie hier das ursprüngliche Statement weiterhin lesen:
„Ich habe allerdings bisher keine Informationen darüber, wie viele Strukturen AlphaFold in CASP14 nicht (!) richtig lösen konnte. Ich sehe nur den mittleren GDT, der ist zwar sehr hoch, aber von einer Lösung des Faltungsproblems würde ich erwarten, dass sie für alle Proteine funktioniert. Zum Vergleich: In CASP13 (2018) hatte AlphaFold ‚nur’ 24 von 43 der schwierigen Strukturen gelöst.”
Zur Frage nach der grundlegenden Herausforderung der Proteinfaltung:
„Die Kette von Aminosäuren eines Proteins lässt sich theoretisch in eine astronomisch große Zahl von Faltungen im dreidimensionalen Raum packen. Aber nur eine dieser Faltungen ist die richtige – nämlich die mit der niedrigsten Energie. Die Vorhersage ist daher extrem komplex.“
„Die größten Fortschritte auf diesem Gebiet wurden daher immer dann erreicht, wenn zusätzliche Informationen gefunden wurden, die diesen Suchraum verkleinern. Zum Beispiel wurde eine Methode eingeführt, bei der mögliche Faltungen nur aus bekannten Fragmenten zusammengesetzt werden. Auf diese Weise wird nur ein relevanterer Teil des Raums abgesucht. Darüber hinaus werden seit einigen Jahren Informationen aus Koevolutionsanalysen verwendet: genetische Variationen von räumlich benachbarten Aminosäuren sind korreliert. Aus der Beobachtung dieser Korrelationen lässt sich also auf räumliche Nähe zurückschließen. Die Information über räumliche Nähe wiederum liefert wichtige Informationen über die Struktur und grenzt somit die Suche weiter ein.“
„All diese Informationen sind nun auch implizit im AlphaFold Netz enthalten, allerdings ohne diese explizit hineinprogrammiert zu haben. Das Netz hat diese Informationen selbst gelernt.“
Zur Frage nach den Auswirkungen auf Praxis und Forschung:
„Die experimentelle Bestimmung von Proteinstrukturen ist ein sehr aufwändiger Prozess und kann unter Umständen Jahre dauern – das gilt vor allem für Membranproteine. Mit AlphaFold dauert die Vorhersage nur einige Stunden.“
„Proteinstrukturen liefern wichtige Erkenntnisse über die Funktion der Proteine, das ist also wichtig für die Grundlagenforschung und das Wissen darüber, wie Leben funktioniert.“
„Außerdem sind Proteinstrukturen aber auch direkt für die Entwicklung von Medikamenten wichtig. Proteine sind häufig das Ziel von Wirkstoffen, mit denen die Proteine zum Beispiel inhibiert werden sollen. Wenn wir ein genaues atomares Modell eines Zielproteins haben, kann dieses benutzt werden, um gezielt einen Wirkstoff zu entwickeln.“
„Wir gehen davon aus, dass in Zukunft jeder Mensch sein Erbgut entschlüsselt haben wird. Da sich das Erbgut der Menschen unterscheidet, unterscheiden sich auch seine Proteine. Jeder Mensch hat also leicht unterschiedliche Proteine. Wir werden aber nicht in der Lage sein, für jeden Menschen seine eigenen Proteinstrukturen experimentell zu bestimmen. Mit Hilfe von Strukturvorhersagemethoden – wie zum Beispiel AlphaFold – geht das nun aber.“
„Das schnell wachsende Gebiet der personalisierten Medizin könnte damit sogar zur personalisierten molekularen Medizin werden, bei der wir Wirkstoffe und Therapie in Zukunft auf die persönlichen Proteinstrukturen eines einzigen Patienten zuschneiden.“
Zur Frage, wo die Grenzen von AlphaFold liegen:
„Deep Learning braucht einen großen Fundus an Wissen/Informationen, mit dessen Hilfe das Netzwerk trainiert werden kann. Im Fall von AlphaFold ist das die Proteindatenbank, die alle bekannten atomaren Modelle von Proteinen enthält.“
„Wir interessieren uns aber zum Beispiel auch dafür, wie sich Proteinstrukturen verändern, wenn sich bestimmte Umgebungsbedingungen (zum Beispiel der pH-Wert, die Temperatur oder die Salzkonzentration) ändern oder wenn ein Ligand (ein Stoff oder Molekül, das an ein Zielprotein, beispielsweise einen Rezeptor, spezifisch binden kann; Anm. d. Red.) bindet. Da solche Informationen nur vereinzelt verfügbar sind und nicht systematisch in Datenbanken hinterlegt sind, ist es für Deep Learning Methoden nicht möglich, diese Strukturveränderungen vorherzusagen. Dafür benötigen wir weiterhin Modelle, die auf einer physik-basierten Beschreibung der atomaren Strukturen basieren.“
„Ebenso wird es mit AlphaFold schwierig sein, Fehlfaltungen vorherzusagen. Hier sind vor allem amyloide Proteine von Bedeutung, die häufig zu Proteinablagerungen vor allem in neurodegenerativen Erkrankungen wie zum Beispiel Alzheimer führen.“
Direktor des Max-Planck-Instituts für Entwicklungsbiologie, Tübingen
„Ich habe in CASP14 eines der Teams geleitet, welches die eingereichten Strukturvorhersagen begutachtet hat, und war zutiefst von der Qualität der Modelle von AlphaFold und deren Vorsprung vor den besten nächsten Gruppen beeindruckt. Wir haben selber mehrere Proteine als Targets zur Vorhersage eingereicht, darunter eines, für das wir kristallographische Diffraktionsdaten bis 3,5 Angström hatten, die Struktur aber seit einem Jahrzehnt nicht hatten lösen können. Mit der Vorhersage von AlphaFold als Suchmodell konnten wir die Struktur in einer halben Stunde lösen.“
Professor und Leiter des Instituts für Wirkstoffentwicklung, Universität Leipzig und Professor für Chemie, Pharmakologie und Biomedizinische Informatik, Vanderbilt University, Nashville, USA
„Die Vorhersage der Proteinfaltung am Computer ist kompliziert, weil mehrere Tausend Atome richtig positioniert werden müssen, wie ein riesiges dreidimensionales Puzzle. Dafür gibt es theoretisch mehr Möglichkeiten als Sterne im Universum. Kein Computerprogramm kann alle diese Möglichkeiten testen. Verfahren der künstlichen Intelligenz spielen daher schon seit Mitte der 90er Jahre eine große Rolle dabei, wahrscheinliche Lösungen abzuschätzen und so die Zahl der Möglichkeiten zu reduzieren. Diese innovativen Verfahren haben in der Vergangenheit immer wieder zu einer deutlichen Verbesserung der Vorhersage von Proteinfaltungen geführt. So haben wir und andere mit neuronalen Netzen sehr erfolgreich die Sekundärstruktur von Proteinen vorhergesagt, eine Voraussetzung für die erfolgreiche Vorhersage der Proteinfaltung.“
„Soweit ich die Resultate von AlphaFold schon bewerten kann, sieht es so aus, als ob wiederum ein großer Fortschritt gelungen ist. Das ist toll und wird unser Forschungsfeld vorantreiben! Ich wäre allerding vorsichtig hier von der ‚Lösung‘ des Problems zu reden. Wissenschaftlicher Fortschritt ist häufig nicht eine Ja- oder Nein-Entscheidung, sondern ein iterativer Prozess in kleinen oder größeren Schritten. Wenn sich die Ergebnisse so bestätigen, ist dies ein großer Schritt in diesem Prozess. Man kann aber auch noch kritische Fragen stellen: So ist die Vorhersage der Proteinfaltung ja offenbar nicht bei 100 Prozent der Beispiele gelungen. Auch ist die Vorhersage abhängig von der Auswertung Tausender bekannter Proteinstrukturen, das heißt, dass das grundlegende Proteinfaltungsproblem noch nicht ohne Zuhilfenahme dieses Wissens (wir sagen ,de novo‘) gelöst werden kann. Das limitiert die Übertragung in andere Forschungsfelder.“
„Nichtsdestotrotz – wenn sich alles bestätigt – ein toller Erfolg, der sicherlich die struktur-basierte Entwicklung von Medikamenten für Krankheiten ermöglichen wird. Zum Beispiel die Entwicklung von Therapeutika für neurologische Krankheiten (Alzheimer, Schizophrenie, Demenz) kann profitieren, wenn die Struktur bestimmter Rezeptoren im Gehirn nun berechnet werden kann. Für eine abschließende Bewertung muss man auf das Erscheinen der entsprechenden von anderen Wissenschaftlern geprüften Publikationen warten.“
Direktor der Abteilung für theoretische und computergestützte Biophysik, Max-Planck-Institut für biophysikalische Chemie, Göttingen
„Proteine sind die ‚Nanomaschinen‘ der Zelle, die nahezu alle Funktionen im Körper verrichten. Es sind Kettenmoleküle mit einer für jedes Protein spezifischen Abfolge aus 20 Bausteinen, den Aminosäuren, die in unseren Genen gespeichert ist. Unerlässlich für die Funktion eines Proteins ist die präzise räumliche Anordnung der Aminosäurekette, deren Struktur oder Faltung. Diese dreidimensionale Struktur ist nicht in den Genen gespeichert; vielmehr falten sich die Proteine nahezu von selbst nach ihrer Herstellung in den Proteinfabriken der Zelle, den Ribosomen, in ihre korrekte Form. Diese Struktur ist also in irgendeiner Form in der Abfolge der Aminosäuren des Proteins kodiert – aber wie?“
„Diesen Code zu entschlüsseln, also lediglich aufgrund seiner Abfolge der Aminosäuren vorherzusagen, welche Struktur ein Protein einnehmen wird, ist seit über 50 Jahren ein Rätsel. Erst in den vergangenen Jahren sind wir der Lösung dieses ‚Proteinfaltungsproblems‘ einige Schritte nähergekommen. Natürlich kann die Proteinstruktur auch experimentell vermessen werden – das ist jedoch oft aufwändig und gelingt nicht immer.“
„Die Struktur kleiner, schnell faltender Proteine kann seit einigen Jahren relativ zuverlässig von Computersimulationen des Faltungsprozesses aufgrund physikalischer Gesetze vorhergesagt werden – ganz ähnlich, wie sich die Bahn einer Raumsonde zu einem Planeten berechnen lässt. Für die meisten größeren Proteine wären dazu jedoch 1000 oder sogar 1.000.000-fach leistungsfähigere Hochleistungscomputer nötig.“
„Das AlphaFold-Team ist einen anderen Weg gegangen. Mithilfe von maschinellem Lernen ist es ihnen gelungen, die ‚Regeln der Proteinfaltung‘ so gut aus einer großen Zahl bekannter Proteinstrukturen zu extrahieren, dass sie damit in einem Blindversuch-Wettbewerb 70 von 100 Proteinstrukturen sehr genau vorhersagen konnten.“
„Dies ist zweifelsohne eine beachtliche Leistung und ein deutlicher Fortschritt, der viele andere Ansätze in den Schatten stellt. Ist damit das Proteinfaltungsproblem ‚weitgehend gelöst‘, wie die Autoren der Studie schreiben? Wenn statt einer zweitägigen Wettervorhersage mit 60 Prozent Zuverlässigkeit nun eine dreitägige Vorhersage mit 80 Prozent Genauigkeit gelingt – ist damit das Wettervorhersageproblem gelöst? Ich denke, das wäre etwas übertrieben.“
„Mich würde auch sehr interessieren, ob es gelingt, diese Faltungsregeln soweit aus dem Deep Learning-Algorithmus zu extrahieren, dass wir die Proteinfaltung nicht nur besser vorhersagen, sondern auch besser verstehen können.“
„Unstrittig hat sich Deep Learning auch auf dem wichtigen Gebiet der Proteinfaltung als sehr mächtiges Werkzeug erwiesen, mit dessen Hilfe sicher noch weitere bemerkenswerte Fortschritte erwartet werden dürfen, etwa beim computergestützten Entwurf neuer Medikamente oder sogar dem Design neuer Proteine mit maßgeschneiderter Funktion.“
Leiter der Forschungsgruppe „Computational Systems Biochemistry“, Max-Planck-Institut für Biochemie, Martinsried bei München
„Eines der schwierigsten Probleme der Biophysik ist die Vorhersage der genauen dreidimensionalen Struktur eines Proteins basierend auf der Aminosäuresequenz. Obwohl diese Struktur eindeutig durch die Gesetze der Physik vorgegeben ist, ist deren Berechnung ausgehend von den grundlegenden Formeln der Quantenmechanik als aussichtslos anzusehen. Der dazu benötigte Rechenaufwand wäre gigantisch.“
„Daher ist ein Deep Learning Ansatz hier sehr vielversprechend. Basierend auf vielen Beispielen, in denen die Proteinstruktur mit experimentellen Methoden gelöst wurde, wird ein ‚Deep Neural Network‘ trainiert, welches die entscheidenden Regeln für die Bestimmung der Struktur extrahiert, und somit die Lösung der komplizierten physikalischen Gleichungen ersetzt. AlphaFold will hierdurch den ‚Code der Proteinfaltung‘ geknackt haben.“
„Der ‚Critical Assessment of protein Structure Prediction‘ (CASP) Wettbewerb ist ein sehr guter Maßstab zur Beurteilung, inwiefern Vorhersagemethoden der Proteinstruktur gute Ergebnisse liefern. Hier ist insbesondere darauf zu achten, dass die vorherzusagenden Strukturen neu genug sind – in dem Sinne, dass die zu bewertenden Methoden diese Proteinstruktur in ihrer Trainingsphase noch nicht kannten. Nur dann kann man davon ausgehen, dass die Methode mit allgemeinen abstrahierten Regeln arbeitet, um Strukturen vorherzusagen. AlphaFold besteht diesen Test mit Bravour und mit solch guten Ergebnissen, dass man wahrscheinlich davon ausgehen kann, dass das verbesserte AlphaFold tatsächlich den Code geknackt hat.“
„DeepMind hat die Architektur des ‚Deep Neural Networks‘, welches sie in ihrer Publikation in Nature vom Januar 2020 vorgestellt hatten, weiter verfeinert. Ich bin auf eine genauere Beschreibung der Verbesserungen in einer weiteren Publikation gespannt. Wir werden gerne die trainierten Netzwerkmodelle für unsere Arbeit in der Massenspektrometrie-basierten Proteomics verwenden.“
„Die Möglichkeit, Proteinstrukturen schnell und präzise vorherzusagen, eröffnet ungeahnte Möglichkeiten für das Verständnis von Krankheiten und ihrer Heilung. Die Funktion von Proteinen hängt eng zusammen mit ihrer dreidimensionalen Struktur. Viele Krankheiten basieren auf der Störung der regulären Funktionsweise von Proteinen. Die Beziehung zwischen der DNA und der Funktionsweise von Proteinen, Zellen, Geweben, Organen und dem ganzen Körper wird durch die Strukturvorhersage ein enormes Stück weiter zusammengeführt. Wir kennen das menschliche Erbgut schon lange, aber es sind trotzdem noch viele Fragen offen, die nun eine bessere Möglichkeit der Beantwortung vor sich haben.“
„Trotz der Erfolge wird es noch einige offene Fragen und Verbesserungsmöglichkeiten geben. So ist es zum Beispiel noch eine Nummer schwieriger, basierend auf der Vorhersage der Proteinstrukturen zu erschließen, wie diese Proteine zusammenarbeiten und welche Proteinkomplexe gebildet werden. Außerdem werden diese mit DNA, RNA und kleineren Molekülen – wie körpereigenen Metaboliten oder dem Körper zugefügten Wirkstoffen – interagieren. Das wird von AlphaFold noch nicht beantwortet. Außerdem hat fast jedes Protein Modifikationen wie zum Beispiel Phosphorylierungen, die einen wichtigen Einfluss auf Struktur, Funktion und Wechselwirkung mit anderen Biomolekülen haben.“
Professor für strukturelle Bioinformatik, Biozentrum, Universität Basel und Leiter der Gruppe Computational Structural Biology, SIB Swiss Institute of Bioinformatics, Lausanne, Schweiz
„Die Vorhersage der Proteinfaltung ist eine der größten Herausforderungen im Bereich der Bioinformatik. Dabei stellen sich zwei grundlegende Fragen: Wie falten sich Proteine und welche Faktoren bestimmen die Faltungsmechanismen? Und wie sehen die ‚gefalteten‘ dreidimensionalen Strukturen der natürlich vorkommenden Proteine aus? AlphaFold hat einen Meilenstein zur Beantwortung der zweiten Frage erreicht, indem der Algorithmus in der Lage ist, die dreidimensionale Struktur einer Proteinkette aus der Sequenz der Aminosäuren mit hoher Genauigkeit vorherzusagen.“
„Im Rahmen des CASP-Experiments wurde AlphaFold im direkten Vergleich mit anderen modernen Methoden unabhängig evaluiert. Um eine objektive Beurteilung zu ermöglichen, wurden alle betrachteten Vorhersagemethoden zeitgleich auf Proteinsequenzen angewendet, für die zum Zeitpunkt der Vorhersage noch keine experimentelle Struktur verfügbar war. AlphaFold konnte dabei insbesondere für Proteine, bei denen bisher keine verwandten Strukturen bekannt waren (sogenannte ‚de novo‘ Vorhersagen), erstmals zuverlässig Vorhersagen mit hoher Genauigkeit liefern. Wir können daher davon ausgehen, dass die Methode für eine Vielzahl heute noch unbekannter Strukturen ebenfalls erfolgreich anwendbar sein wird.“
„Zahlreiche aktuelle Methoden zur Proteinstrukturvorhersage verwenden heute Methoden im Bereich des Deep Learning. Die genauen technischen Details des Ansatzes von AlphaFold werden am CASP14 Meeting präsentiert und später detailliert in einer wissenschaftlichen Publikation veröffentlicht. Zum jetzigen Zeitpunkt ist es daher zu früh, um technische Details zu diskutieren.“
Zur Frage nach den Auswirkungen auf Praxis und Forschung:
„Proteinstrukturen werden heute nur selten als ‚Selbstzweck‘ aufgeklärt, sondern dienen meistens als Werkzeug, um andere Forschungsfragen im Bereich der Life Sciences zu bearbeiten. Typische Beispiele wären die Interpretation von genetischen Mutationen im Kontext von Erbkrankheiten oder somatischen Mutationen bei Krebs, die strukturbasierte Entwicklung von Medikamenten, die Entwicklung neuer Impfstoffe oder die gezielte Veränderung der Eigenschaften von Proteinen im Bereich der Biotechnologie. Zuverlässige Methoden zur Vorhersage von Proteinstrukturen erlauben es, strukturbasierte Forschungsansätze auch auf Proteine anzuwenden, deren Strukturen noch nicht experimentell aufgeklärt wurden. Die schnelle Reaktion der Wissenschaft auf die COVID-19-Pandemie hat deutlich gemacht, welche hohe Bedeutung die schnelle Verfügbarkeit von Strukturinformation für den Erkenntnisfortschritt hat.“
Zur Frage, wo die Grenzen von AlphaFold liegen:
„AlphaFold hat im Rahmen des CASP14 Experiments Vorhersagen für dreidimensionale Strukturen einzelner Proteinketten erstellt. Viele biologische Funktionen von Proteinen basieren jedoch auf der Wechselwirkung mit anderen Molekülen (Co-Faktoren, Metaboliten) und auf Wechselwirkungen in Proteinkomplexen, die aus mehreren Proteinketten bestehen. AlphaFold ist heute noch nicht in der Lage, solche Vorhersagen von Komplexen zu treffen. Es ist jedoch davon auszugehen, dass auch in diesen Bereichen KI-basierte Methoden in nächster Zeit zu Fortschritten beitragen werden.“
„Eigene Forschung auf dem Gebiet der KI-getriebenen Strukturvorhersage durch Nutzung von Co-Evolutions Analysen und Attention Learning; Forschungsgelder von Google (‚Google Faculty Research Award‘) im Jahre 2016.“
„Ich habe keine Interessenkonflikte.“
„Keine Interessenskonflikte.“ Herr Grubmüller ist im Fachbeirat des SMC aktiv.
„Meine Arbeitsgruppe entwickelt eine Software zur Modellierung von Proteinstrukturen (‚SWISS-MODEL‘). Als Mitglied des Organisationskomitees von CASP bin ich außerdem an der Planung und Durchführung des Experiments beteiligt. Ich habe keine Verbindung zu den evaluierten Methoden in CASP, insbesondere auch nicht zu AlphaFold / DeepMind. CASP ist ein langjähriges wissenschaftliches Experiment, um die Genauigkeit und Zuverlässigkeit von Methoden zur Vorhersage von Proteinstrukturen objektiv und unabhängig zu evaluieren.“
Alle anderen: Keine Angaben erhalten.
Weiterführende Recherchequellen
CASP (2020): TS Analysis : Group performance based on combined z-scores. Die konkreten Ergebnisse des CASP14 Wettbewerbs zur Proteinstrukturvorhersage.
DeepMind: Blogeintrag zu AlphaFold.
DeepMind: AlphaFold/CASP14 press kit. Zusätzliche Presseinformationen auf Google Drive.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Senior AW et al. (2020): Improved protein structure prediction using potentials from deep learning. Nature; 577 (7792): 706-710. DOI: 10.1038/s41586-019-1923-7.
Literaturstellen, die vom SMC zitiert wurden
[I] Kuhlman B et al. (2019): Advances in protein structure prediction and design. Nature Reviews Molecular Cell Biology; 20: 681-697. DOI: 10.1038/s41580-019-0163-x.
[II] 14th Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction. CASP14 Website.
[III] SMC UK: Protein-folding problem solved with AI. Virtuelles Press Briefing. Das Press Briefing fand unter Embargo statt, wenn Sie die Aufzeichnung dazu sehen wollen, schreiben Sie uns an redaktion@sciencemediacenter.de
[IV] Kim PM et al. (2020): Fast and Flexible Protein Design Using Deep Graph Neural Networks. Cell Systems; 11 (4): 402-411. DOI: 10.1016/j.cels.2020.08.016.
Dr. Jan Kosinski
Gruppenleiter, Europäisches Laboratorium für Molekularbiologie (EMBL), Hamburg
Dr. Sameer Velankar
Gruppenleiter Protein Data Bank in Europe, European Bioinformatics Institute, Europäisches Laboratorium für Molekularbiologie (EMBL-EBI), Cambridge, Vereinigtes Königreich
Prof. Dr. Alexander Schug
Leiter der Forschungsgruppe „Multiscale Biomolecular Simulation“, Karlsruher Institut für Technologie (KIT)
Prof. Dr. Gunnar Schröder
Leiter der Forschungsgruppe Computational Structural Biology, Institut für Biologische Informationsprozesse, Strukturbiochemie, Forschungszentrum Jülich
Prof. Dr. Andrei Lupas
Direktor des Max-Planck-Instituts für Entwicklungsbiologie, Tübingen
Prof. Dr. Jens Meiler
Professor und Leiter des Instituts für Wirkstoffentwicklung, Universität Leipzig und Professor für Chemie, Pharmakologie und Biomedizinische Informatik, Vanderbilt University, Nashville, USA
Prof. Dr. Helmut Grubmüller
Direktor der Abteilung für theoretische und computergestützte Biophysik, Max-Planck-Institut für biophysikalische Chemie, Göttingen
Dr. Jürgen Cox
Leiter der Forschungsgruppe „Computational Systems Biochemistry“, Max-Planck-Institut für Biochemie, Martinsried bei München
Prof. Dr. Torsten Schwede
Professor für strukturelle Bioinformatik, Biozentrum, Universität Basel und Leiter der Gruppe Computational Structural Biology, SIB Swiss Institute of Bioinformatics, Lausanne, Schweiz