Zum Hauptinhalt springen
16.03.2023

Sprachmodell von Meta zur Vorhersage von Proteinstruktur

     

  • Meta AI stellt Sprachmodell vor, das Proteinstruktur vorhersagt und veröffentlicht Atlas mit 617 Millionen Voraussagen
  •  

  • laut Studie ist das Modell schneller als State-of-the-Art-Methoden wie AlphaFold, aber auch weniger genau
  •  

  • Experten: hohe Geschwindigkeit beeindruckend, Modell ist aber nicht der enorme Fortschritt wie AlphaFold es war
  •  

Fortschritte im Bereich des maschinellen Lernens erlauben es derzeit in immer höherem Tempo und hoher Präzision, aus einer linearen Abfolge von Aminosäuren die dreidimensionale Faltung eines Proteins vorherzusagen. Mit Programmen wie „AlphaFold“ der Google-Tochter DeepMind lässt sich die komplexe räumliche Gestalt von einfachen Eiweißen inzwischen aus der bloßen DNA-Sequenz mit atomarer Auflösung vorhersagen [I] [II]. Das beschleunigt zum Beispiel die Pharmaforschung an neuen molekularen Zielscheiben erheblich.

In einer Publikation in der Fachzeitschrift „Science“ (siehe Primärquelle) haben nun Forschende aus Metas KI-Labor Meta AI versucht, eine Vielzahl vollständiger Proteinstrukturen auf atomarer Ebene aus den Primärsequenzen mit Hilfe eines großen Sprachmodells (Large Language Model, LLM) zu erschließen.

Das vorgestellte Modell ESM-2 führt laut Studie zu einem Geschwindigkeitsvorteil, der in der Praxis der Strukturaufklärung von Proteinen ein bis zwei Größenordnungen erreichen kann, wodurch eine weitaus größere Anzahl Sequenzen in die Reichweite einer genauen Vorhersage auf atomarer Vorhersage kämen. Allerdings betonen die Autorinnen und Autoren auch, dass das Modell zwar schneller als State-of-the-Art Modelle wie AlphaFold sein kann, oft aber auch ungenauer ist.

Nach umfangreichem Training auf der Basis bereits entzifferter Proteinstrukturen beschleunigten sich den Forschenden zufolge die hochauflösenden Strukturvorhersagen von Proteinen. Dadurch wurde es möglich, metagenomische Daten, bei denen genetisches Material direkt aus Umweltproben extrahiert, sequenziert und analysiert wurde, strukturell näher zu charakterisieren und die Regeln der strukturellen Evolution von Proteinen nachzuvollziehen.

Das Vorgehen der Forschenden bestand darin, zunächst ein multiparametrisches Sprachmodell auf Proteindatenbanken zu trainieren, um so die evolutionär zugrunde liegende Struktur der Diversität von Proteinen zu verstehen. Daraus sollte das Modell vorhersagbare Muster in den Sequenzen erzeugen. Nimmt die Repräsentationskapazität des Sprachmodells auf der Basis der Vielfalt der Proteinsequenzen zu, dann – so hoffen die Forschenden – lernt das Modell tiefe Informationen über die biologischen Eigenschaften der Proteinsequenzen, weil letztlich deren molekularen Eigenschaften zu den Mustern führen, die in den bloßen Sequenzen beobachtet werden. Als „Proof of Principle“ erstellten die Forschenden aus der MGnify90 Datenbank des European Molecular Biology Laboratory (EMBL) [III] den sogenannten ESM Metagenomic Atlas [IV], in dem simulierte Strukturen von mehr als 617 Millionen metagenomischen Proteinsequenzen aufgelistet wurden. Darunter konnten rund 225 Millionen laut Aussagen der Forschenden „mit hoher Zuverlässigkeit“ vorhergesagt werden.

Übersicht

     

  • Prof. Dr. Alexander Schug, Leiter der Forschungsgruppe „Multiscale Biomolecular Simulation“, Karlsruher Institut für Technologie (KIT), Eggenstein-Leopoldshafen, und Leiter der NIC Forschungsgruppe „Computational Structural Biology“, Forschungszentrum Jülich GmbH (FZJ)
  •  

  • Prof. Dr. Gunnar Schröder, Leiter der Forschungsgruppe Computational Structural Biology, Institut für Biologische Informationsprozesse, Strukturbiochemie, Forschungszentrum Jülich GmbH (FZJ)
  •  

  • Prof. Dr. Torsten Schwede, Professor für strukturelle Bioinformatik, Biozentrum, Universität Basel, und Leiter der Gruppe Computational Structural Biology, SIB Swiss Institute of Bioinformatics, Lausanne, Schweiz
  •  

Statements

Prof. Dr. Alexander Schug

Leiter der Forschungsgruppe „Multiscale Biomolecular Simulation“, Karlsruher Institut für Technologie (KIT), Eggenstein-Leopoldshafen, und Leiter der NIC Forschungsgruppe „Computational Structural Biology“, Forschungszentrum Jülich GmbH (FZJ)

„Es ist eine ausgezeichnete Studie, die methodisch sehr sorgfältig durchgeführt wurde. Sie demonstriert eindrucksvoll, in welchem Maße Methoden der Künstlichen Intelligenz und Sprachmodelle auch auf andere Bereiche, hier die Molekularbiologie, ausstrahlen können. Der große Traum der Proteinstrukturvorhersage war es, basierend auf der Proteinsequenz die dreidimensionale Struktur vorherzusagen. In vielen Fällen gelingt dies mittlerweile. Die hohe Geschwindigkeit der Vorhersagen von ESMFold ist beeindruckend.“

Auf die Frage, inwiefern das vorgestellte Modell ein Fortschritt ist und was Vor- und Nachteile gegenüber bisherigen State-of-the-Art Methoden sind:
„Zunächst möchte ich kurz darauf hinweisen, dass die aktuelle Version von AlphaFold, AlphaFold2 (AF2), sich in der Modellarchitektur stark von AlphaFold 1 unterscheidet. Insbesondere AF2 war ein extrem beeindruckender Fortschritt.“

„Die vorliegende Veröffentlichung wiederum verfolgt technisch einen anderen Ansatz als AF2 durch die Nutzung großer Sprachmodelle mit einer gewaltigen Menge von bis zu 15 Milliarden Parametern. Zudem finde ich es interessant, dass die Trainingsdaten nicht nur aus experimentell bestimmten Proteinstrukturen bestehen, sondern auch aus mit AF2 vorhergesagten Strukturen. Verglichen mit AF2 ist in ESMFold die Geschwindigkeit der Vorhersage stark verbessert, wobei jedoch die Genauigkeit der Vorhersage minimal geringer – aber immer noch sehr hoch – ist. Den vorliegenden ESM Metagenomic Atlas empfinde ich als spannende Demonstration von ESMFold.“

Auf die Frage, wie sich das Forschungsfeld seit AlphaFold verändert hat und wie solche KI-Programme mittlerweile in der Praxis eingesetzt werden:
„Das gesamte Forschungsfeld der Strukturvorhersage hat sich schon vor AlphaFold in der letzten Dekade gewandelt. Es gab basierend auf Analysen der evolutionären Mutationsmuster zunächst sogenannte Kontaktvorhersagen, die Strukturvorhersagen wesentlich verbessern konnten. Später ab etwa 2017 kamen dann immer mehr Methoden des tiefen Lernens hinzu. Insbesondere AlphaFold war ein unglaublicher Fortschritt, der das Feld stark weiterentwickelt hat. Für viele Klassen von Proteinen waren plötzlich mit geringem Aufwand Vorhersagen verfügbar, die die Genauigkeit von experimentellen Messungen erreicht haben. Dazu muss man wissen, dass solche Experimente durch Synthese, Aufreinigung und Messung beziehungsweise Strukturbestimmung sehr aufwendig werden können. Die einfache und genaue Vorhersage von Proteinstrukturen durch KI-Programme hat mittlerweile große Verbreitung und ermöglich neue Studien in vielen Gebieten. So profitiert nicht nur die Grundlagenforschung etwa in der Molekularbiologie und Biophysik, sondern auch verwandte Gebiete mit Anwendungsbezug wie Pharmazie und Medizin.“

Auf die Frage, in welchen Bereichen solche Modelle schon zu Verbesserungen in der Praxis geführt haben und bei welchen Problemen sie noch scheitern:
„Um die Funktionsweise von Proteinen im Detail zu verstehen, aber auch um zum Beispiel Medikamente zu entwickeln, die mit bestimmten Oberflächenstrukturen von Proteinen wechselwirken, ist eine Kenntnis der molekularen Struktur von Proteinen wesentlich. Für viele Proteine funktionieren die Verfahren mit hoher Zuverlässigkeit und Genauigkeit. Derzeit sind allerdings noch nicht alle Klassen von Biomolekülen durch Vorhersagemodelle mit einer solchen hohen Zuverlässigkeit der Vorhersagen zugänglich. Dazu zählen bestimmte Proteinklassen wie zum Beispiel intrinsisch ungeordnete Proteine, Proteine mit Kofaktoren oder große Proteinkomplexe. Was ich aus der Studie zudem nicht herauslesen kann, ist die Genauigkeit für Vorsagen von Proteinstrukturen mit Mutationen oder mit chemischen Modifikationen, was bei der gezielten Veränderung von Proteinen und von Proteineigenschaften relevant ist. Auch für andere Biomoleküle wie zum Beispiel RNS, für die deutlich weniger Trainingsdaten für die KI-Modelle vorliegen, gibt es derzeit noch keine zuverlässigen Vorhersagen.“

Prof. Dr. Gunnar Schröder

Leiter der Forschungsgruppe Computational Structural Biology, Institut für Biologische Informationsprozesse, Strukturbiochemie, Forschungszentrum Jülich GmbH (FZJ)

„Eine wichtige Informationsquelle für die Proteinstrukturvorhersage waren bisher korrelierte genetische Variationen, die durch den Vergleich von vielen ähnlichen Sequenzen in Datenbanken gefunden wurden und Hinweise auf räumliche Anordnung lieferten. Ein sehr interessanter Aspekt von ESMFold ist, dass diese Information nun nicht mehr explizit verwendet wird, sondern vom Sprachmodell implizit gelernt wurde.“

„Obwohl ESMFold nicht die gleiche Genauigkeit wie AlphaFold2 oder RoseTTAFold erreicht, berechnet ESMFold die Strukturen deutlich schneller, um ein bis zwei Größenordnungen. Allein die höhere Geschwindigkeit hat einen Wert und ermöglicht es, Fragestellungen zu bearbeiten, die bisher nicht erreichbar waren.“

Auf die Frage, wie sich das Forschungsfeld seit AlphaFold verändert hat und wie solche KI-Programme mittlerweile in der Praxis eingesetzt werden:
„AlphaFold ist mittlerweile fester Bestandteil der täglichen wissenschaftlichen Arbeit in der Strukturbiologie geworden. Es ist natürlich klar, dass nicht alle AlphaFold-Modelle korrekt sind, aber sie liefern oft interessante Arbeitshypothesen, neue Fragestellungen und helfen, gezieltere Experimente zu planen.“

Prof. Dr. Torsten Schwede

Professor für strukturelle Bioinformatik, Biozentrum, Universität Basel, und Leiter der Gruppe Computational Structural Biology, SIB Swiss Institute of Bioinformatics, Lausanne, Schweiz

„Die Studie präsentiert einen innovativen Ansatz, Sprachmodelle zur Vorhersage von Proteinstrukturen zu nutzen und dabei eine relativ gute Genauigkeit zu erzielen. Der Vorteil beim Einsatz von Sprachmodellen zur Strukturvorhersage liegt im Vergleich zu Ansätzen wie AlphaFold oder RoseTTAFold darin, dass keine Sequenz-Alignements berechnet werden müssen. Zum einen ist dieser Schritt rechnerisch aufwendig, Methoden wie ESMFold sind dadurch deutlich schneller. Zum anderen bestand die Hypothese, dass Sprachmodelle für ‚orphan proteins‘ – also Proteine ohne nahe Verwandte, für die daher keine aussagekräftigen Sequenz-Alignements berechnet werden können – die Genauigkeit von Strukturvorhersagen erhöhen könnten. In der aktuellen Ausgabe des CASP-Experiments (CASP15) [1] konnten auf Sprachmodellen basierende Vorhersagemethoden wie ESMFold diese Erwartung jedoch nicht erfüllen.“

„Auch wenn die Genauigkeit der Vorhersagen heute noch nicht den aktuellen Stand der Technik – zum Beispiel AlphaFold2 – erreicht, sehe ich in der Verwendung von Sprachmodellen zur Vorhersage von Proteinstrukturen hohes Entwicklungspotenzial für die Zukunft.“

Auf die Frage, inwiefern das vorgestellte Modell ein Fortschritt ist und was Vor- und Nachteile gegenüber bisherigen State-of-the-Art Methoden sind:
„Ich betrachte ESMFold als wichtigen ‚proof-of-concept‘ dafür, dass Sprachmodelle im Prinzip erfolgreich zur Vorhersage von Proteinfaltung benutzt werden können. Die Geschwindigkeit der Vorhersagen ist – zumindest bis zu einer Sequenzlänge von 1024 Aminosäuren wie in Figur S2 gezeigt – bedeutend höher als beispielweise für AlphaFold2, allerdings zum Preis einer geringeren Genauigkeit der Vorhersagen. Der ESMFold-Atlas beinhaltet eine deutlich größere Anzahl an Proteinmodellen als die AlphaFold-Datenbank. Für welche Anwendungen diese zusätzlichen Modelle einen Mehrwert gegenüber den mehr als 200 Millionen Proteinen in der AlphaFold-Datenbank bieten, welche die meisten Organismen und natürlich vorkommenden Proteinfamilien abdecken, lässt sich zum jetzigen Zeitpunkt schwer abschätzen.“

„Für viele praktische Anwendungen in den Life Sciences ist die Genauigkeit eines Proteinmodells das ausschlaggebende Kriterium. In der aktuellen Ausgabe des CASP15-Experiments basieren die genauesten Methoden auf AlphaFold oder verwandten Ansätzen. Im Vergleich dazu lieferten auf Sprachmodellen basierende Methoden deutlich weniger genaue Vorhersagen [2] [3] [4] [5].“

Auf die Frage, wie sich das Forschungsfeld seit AlphaFold verändert hat und wie solche KI-Programme mittlerweile in der Praxis eingesetzt werden:
„AlphaFold hatte einen sehr großen Einfluss auf das Forschungsgebiet und schon kurze Zeit nach der Veröffentlichung der AlphaFold-Software wurde diese für verschiedenste Anwendungen weiterentwickelt und angepasst. Die Verfügbarkeit von zuverlässigen 3D Modellen für (fast) alle Proteine eines Organismus ermöglicht ein breites Spektrum an Anwendungen, wie zum Beispiel die effektive Planung von Laborexperimenten oder die Interpretation von Mutationen in menschlichen Proteinen und Krankheitserregern [6] [7].“

Auf die Frage, inwelchen Bereichen solche Modelle schon zu Verbesserungen in der Praxis geführt haben und beiwelchen Problemen sie nochscheitern:
„In den letzten Jahren hat sich die Proteinstrukturvorhersage als ein wichtiges Werkzeug in den Life Sciences durchgesetzt, welches die experimentelle Strukturbestimmung ergänzt.“

„Die Verfügbarkeit von hochqualitativen Modellen für die meisten Proteinfamilien erlaubt es, systematisch nach strukturellen Ähnlichkeiten zwischen Proteinen zu suchen. Diese strukturellen Verknüpfungen ermöglichen es, Zusammenhänge zwischen Proteinen sichtbar zu machen, die aufgrund der Sequenzen nicht nachweisbar wären. Sie ermöglichen so die funktionale Charakterisierung bisher unbekannter Proteinfamilien [8].“

„Die experimentelle Strukturbestimmung wird bedeutend vereinfacht, indem akkurate Vorhersagen als Ausgangsmodelle in der Röntgenkristallographie oder in der cryo- Elektronenmikroskopie dienen.“

„Ein bisher noch ungelöstes Problem der Proteinstrukturvorhersage sind alternative Konformationen von Proteinen, also Bewegungen, welche zum Beispiel durch die Bindung eines Liganden oder anderer Makromoleküle hervorgerufen werden können.“

„Zudem besteht bei der Vorhersage der strukturellen Folgen von Mutationen noch viel Verbesserungsbedarf. Möglicherweise besteht in diesem Bereich das größte Potential für den Einsatz von Sprachmodellen zur Vorhersage von Proteinstrukturen.“

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Alexander Schug: „Ich bin selber in dem Forschungsgebiet aktiv, sehe aber keine Interessenkonflikte.“

Prof. Dr. Torsten Schwede: „Meine Arbeitsgruppe ist Mitorganisator der CASP & CAMEO Experimente, die im Paper zitiert werden. Wir entwickeln in meiner Arbeitsgruppe Software zur Proteinstrukturvorhersage [9] und Visualisierung (zum Beispiel den Protein Atlas [10]).“

Alle anderen: Keine Angaben erhalten.

Primärquelle

Rives A et al. (2023): Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. DOI: 10.1126/science.ade2574.

Literaturstellen, die von den Experten zitiert wurden

[1] CASP15: 15th Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction.

[2] Callaway E (2022): After AlphaFold: protein-folding contest seeks next big breakthrough. Nature. DOI: 10.1038/d41586-022-04438-1.

[3] Daniel Rigden (11.12.2022): Post auf Twitter zu Resultaten der CASP15 und Schlüssen daraus.

[4] CASP15: TS Analysis: Z-score based relative group performance.

[5] CASP15: Multimer Predictions Analysis: Group performance based on combined z-scores.

[6] Minkyung Baek (20.07.2021): Post auf Twitter mit einer Grafik zu einem Anwendungsfall von AlphaFold.

[7] Akdel M et al. (2022): A structural biology community assessment of AlphaFold2 applications. Nature Structural and Molecular Biology. DOI: 10.1038/s41594-022-00849-w.

[8] Durairaj J et al. (2023): What is hidden in the darkness? Deep-learning assisted large-scale protein family curation uncovers novel protein families and folds. BioRxiv. DOI: 10.1101/2023.03.14.532539.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.

[9] Biozentrum der Universität Basel: SWISS-MODEL.

[10] Protein Universe Atlas.

Literaturstellen, die vom SMC zitiert wurden

[I] Jumper J et al. (2021): Highly accurate protein structure prediction with AlphaFold. Nature. DOI: 10.1038/s41586-021-03819-2.

[II] Science Media Center (2020): DeepMind-Durchbruch löst angeblich Proteinfaltungs-Problem. Research in Context. Stand: 30.11.2020.

[III] EMBL-EBI: MGnify.

[IV] Meta AI (2023): ESM Metagenomic Atlas. An open atlas of 617 million predicted metagenomic protein structures.