Zum Hauptinhalt springen
03.05.2023

Nicht-invasive Gehirn-Schnittstelle rekonstruiert Sprache aus MRT-Bildern

     

  • Nicht-invasive Gehirn-Computer-Schnittstelle, die aus Hirnaktivitäten Wörter und Sätze bilden kann
  •  

  • perspektivische Hilfe für Menschen, die ihre Fähigkeit zu sprechen verloren haben
  •  

  • breite klinische Anwendung aber derzeit noch illusorisch
  •  

Brain-Computer-Interfaces (BCI) sind heute ein bedeutender Forschungszweig der Medizin und Neurowissenschaften. BCIs können als Schnittstelle zwischen Gehirn und Maschine dabei helfen, dass Menschen mit schweren körperlichen und neurologischen Einschränkungen wieder gehen oder sprechen können. Viele dieser meist noch experimentellen BCIs müssen jedoch operativ ins Gehirn eingesetzt werden. Ein Beispiel für eine nicht-invasive Gehirn-Computer-Schnittstelle für Sprache liefern Forschende aus Texas nun im Fachblatt „Nature Neuroscience“ (siehe Primärquelle). Es handelt sich um eine Software, die auf Basis von Hirnaktivitäten Wörter und Sätze bilden kann – ein sogenannter Sprachdecoder.

Die Forschenden trainierten den Decoder anhand von MRT-Daten von drei Studienteilnehmern, die 16 Stunden lang Geschichten zuhörten. Ihre Hirnaktivitäten zeichneten die Wissenschaftler in der Zeit mit einem funktionellen Magnetresonanztomographen (fMRT) auf. Dieser erstellt mithilfe von Magnetfeldern und Radiowellen Bilder vom Gehirn, die zeigen, welche Regionen während bestimmter Aufgaben oder Reize aktiviert werden. Konkret maßen die Forschenden den Sauerstoffgehalt im Blut in bestimmten Hirnregionen – ein nützlicher Indikator für die neuronale Aktivität. Den Sprachdecoder speisten sie anschließend mit diesen Hirnaktivitätsmustern.

Um ihren Decoder zu testen, ließen die Forschenden die Teilnehmerinnen und Teilnehmer (eine Frau und zwei Männer) erneut Geschichten hören, die aber nicht Teil des Trainingsdatensatzes waren. Der mit den Hirnmustern gespeiste Sprachdecoder war in der Lage, aus den fMRT-Daten Wortfolgen zu erstellen, die den Inhalt der neuen Geschichten weitgehend korrekt wiedergaben – er erzeugte auch einige exakte Wörter und Sätze aus den Geschichten. Die Wissenschaftler rekonstruierten also aus den Daten mithilfe des Decoders Sprache, die mit hoher Wahrscheinlichkeit das ausdrückte, was die Testpersonen gehört hatten.

Die Autorinnen und Autoren fanden auch heraus, dass der Decoder den Inhalt einer imaginären Geschichte eines Teilnehmers oder eines Stummfilms aus fMRI-Daten wiedergeben konnte. Wenn ein Teilnehmer aktiv einer Geschichte zuhörte, während er eine andere, gleichzeitig abgespielte Geschichte ignorierte, erkannte der Decoder die Bedeutung der aktiv verfolgten Geschichte.

Das Decoding-Modell war jedoch sehr spezialisiert: So erzielte der Decoder keine guten Leistungen bei der Vorhersage des semantischen Inhalts aus Mustern eines anderen Teilnehmers. Die Autorinnen und Autoren weisen in diesem Zusammenhang darauf hin, dass je nach der künftigen Entwicklung dieser Technologien Maßnahmen zum Schutz der geistigen Privatsphäre erforderlich sein könnten.

Eine breite Anwendung des Decoders ist unter anderem aufgrund der Kosten für die fMRT-Scans derzeit noch illusorisch. Dennoch könne den Autorinnen und Autoren zufolge der Decoder kurzfristig Menschen dabei helfen, zu kommunizieren, nachdem sie die Fähigkeit zu sprechen verloren haben, zum Beispiel nach einem Hirnstamm-Schlaganfall oder einer Motoneuronenerkrankung.

Übersicht

     

  • Prof. Dr. Rainer Goebel, Leiter der Abteilung für kognitive Neurowissenschaften, Maastricht University, Niederlande
  •  

  • Dr. Christoph Reichert, Leiter der Arbeitsgruppe Brain-Machine Interface, Leibniz-Institut für Neurobiologie (LIN), Magdeburg
  •  

Statements

Prof. Dr. Rainer Goebel

Leiter der Abteilung für kognitive Neurowissenschaften, Maastricht University, Niederlande

„Dieser Sprachdecoder arbeitet nicht-invasiv, das heißt, man braucht keine Elektroden ins Gehirn einzubringen (keine invasive Neurochirurgie notwendig wie beispielsweise bei Neuralink). Invasive Sprachdecoder (mit Elektroden im Gehirn) sind prinzipiell den nicht-invasiven Verfahren (fMRI, EEG/MEG, fNIRS) überlegen, da Elektroden-Ableitungen die beste raum-zeitliche Information erfassen können, nämlich direkt Spikes von Einzel-Neuronen oder die Messung von sehr lokalen elektrischen Feldpotenzialen in der Nachbarschaft einer Elektrode. Solche invasiven elektrischen Ableitungen haben sowohl eine extrem hohe zeitliche Auflösung (besser als Millisekunden) als auch eine extrem hohe räumliche Auflösung (Mikrometer bis Millimeter). Allerdings kann man Elektroden (noch?) nicht im ganzen Gehirn oder in sehr großen Teilen (wie den drei sprach-relevanten Regionen im Artikel) implantieren. Heute ist die Implantation von 1000 bis 10.000 Elektroden state-of-the-art und für große Hirnbereiche wären sicher Hunderttausende Elektroden notwendig.“

„Von den nicht-invasiven Verfahren liefert die fMRT die besten Daten für ,decoding‘-BCIs – wir verwenden es selbst in meinem Labor als unser Hauptverfahren für ‚wissenschaftliche‘ BCIs. FMRT-BCIs sind sehr wichtig für die Forschung, sie sind aber leider nicht ,alltagstauglich‘, da man dazu Patienten oder Probanden für jede BCI-Anwendung (Training oder Anwendung) jedes Mal in einen Scanner legen muss. Man kann solche BCIs also nicht am Krankenbett oder zu Hause verwenden.“

„Der in der Studie präsentierte Decoder muss zunächst die Beziehung zwischen Sprachsemantik und Gehirnaktivität lernen, um dann später bei neuen Texten die gemessene Gehirnaktivität den wahrscheinlichsten Phrasen zuordnen zu können. Da Gehirne zwar grob ähnlich aufgebaut sind, aber auf der Ebene einer Auflösung von ein paar Millimetern doch recht verschieden sind, muss die Relation zwischen Sprachsegmenten und Hirnaktivitätsmustern individuell für jeden Probanden erstellt werden und das braucht viele Stunden Training.“

„Der Decoder arbeitet nicht mit akustischer Information (gehörter Sprache) als Eingabe, sondern mit einer bereits umkodierten (aufbereiteten) semantischen Sprachinformation wozu ein Sprachmodell (GPT-1) verwendet wurde (invasive Decoder können direkt mit gehörter Sprachinformation arbeiten). Es werden demnach keine Wörter in den Decoder eingespeist, sondern Abfolgen von semantisch kodierten Wort-Repräsentationen (,Vektoren‘).“

„Eine zentrale Idee der Arbeit war es, ein KI-Sprachmodell zu benutzen, um die Anzahl der möglichen Phrasen, die mit einem Hirnaktivitätsmuster im Einklang stehen, stark zu reduzieren. Das ist ein bisschen wie ChatGPT: auf der Basis der vergangenen Wörter und Sätzen wird das Wort/die Phrase vorgeschlagen, die am besten zum semantischen Kontext passt. Man könnte vielleicht auch sagen, dass die Verwendung eines KI-Sprachmodells die Schwäche der fMRT – die geringe zeitliche Auflösung – ganz gut ,kaschieren‘ kann. Das ist ein bisschen so, als wenn man in Word falsch geschriebene Wörter auf der Basis einer Wortdatenbank korrigieren lässt.“

„Der Decoder war dahingehend erfolgreich, dass viele ausgewählte Phrasen bei neuen (nicht trainierten) Geschichten Wörter des Originaltextes enthielten, oder zumindest einen ähnlichen Bedeutungsgehalt aufwiesen. Es gab aber auch recht viele Fehler, was für ein vollwertiges BCI sehr schlecht ist, da es für kritische Anwendungen (zum Beispiel Kommunikation bei Locked-In-Patienten) vor allem darauf ankommt, keine falschen Aussagen zu generieren.“

Auf die Frage, inwiefern der Sprachdecoder in der Lage war, die Bedeutung von imaginären Geschichten und Stummfilmen vorherzusagen, und welche Bedeutung dies für die zukünftige Anwendung dieser Technologie hat:
„Dieser Teil war eher explorativ mit wenig Daten, die auch nicht sehr überzeugend sind (viel mehr Fehler). Hier müssen erst zukünftige volle Studien zeigen, ob ein fMRI-BCI für solche Anwendungen wirklich taugt (neben den praktischen Erwägungen der fMRT).“

„Wie zuvor dargelegt, ,passen‘ Gehirne auf der Ebene von Voxeln (3D-Pixel) im Bereich von Millimetern nicht gut ,aufeinander‘, sodass ein Decoder, der auf Proband A trainiert wurde, nicht sehr gut bei Proband B funktionieren wird (wie auch im Artikel gezeigt). Dies hat den Vorteil, dass man nicht ,ungewollt‘ Gedanken auslesen kann, denn ein neuer Proband muss sich erst mal bereit erklären, in einem fMRT-Scanner viele Stunden (in mehreren Sitzungen) Geschichten aktiv zuzuhören. Danach müsste er bereit sein – wieder in einem fMRT-Scanner –, aktiv mitzumachen und (leise) zu sprechen. Nur wenn das alles gegeben ist, könnten Außenstehende mehr oder wenige richtige Phrasen ,auslesen‘. Falls die Person augenscheinlich all das mitmacht, aber dann doch in Gedanken eine andere Aufgabe macht, würde das ,ungewollte Abhören‘ dennoch nicht funktionieren.“

„Anwendungen des nicht-invasiven Sprachdecoders benötigen daher die volle Bereitschaft an einer langen Serie unbequemer Experimente teilzunehmen, mit der Bereitschaft auch mental aktiv mitzuarbeiten. Es ist also quasi unmöglich, dass sich jemand heimlich mit dem nicht-invasiven Sprachdecoder Zutritt in die Gedankenwelt einer Person verschaffen kann.“

„Sicher sollten generell Regeln aufgestellt werden, wie wir BCIs in der Zukunft einsetzen möchten und wie wir unsere Privatsphäre dabei schützen können, aber potenzielle Gefahren werden sicher aus den invasiven Verfahren (wie sie Neuralink vorantreibt) kommen und sicher nicht aus nicht-invasiven, nicht portablen fMRI-BCIs.“

„Insgesamt halte ich den Artikel für interessant, da er zeigt, dass man auch zeitlich schnell aufeinanderfolgende Stimuli (Wörter/Phrasen) zu einem gewissen Grad mit der fMRT erfassen kann. Ein großer Kritikpunkt ist für mich aber, dass hier viel ,hand waving‘ stattfindet und zu viel versprochen wird durch den überzogen dargestellten Bezug zu BCI-Anwendungen: Man bekommt als Laie sicher den Eindruck, dass leistungsstarke nicht-invasive Sprachdekodierungs-BCIs bald Einzug in unseren Alltag halten werden. Die betreffenden Studien fehlen allerdings und die exemplarischen Resultate bei der Konvertierung von innerer Sprache oder beim Anschauen von Filmen sind zwar ,statistisch signifikant‘, aber zu schlecht, um als vertrauenswürdiges BCI zu taugen. Ich wage die Vorhersage, dass fMRT-basierte BCIs (leider) wohl auch in Zukunft auf Forschungsarbeiten mit wenigen Probanden – wie auch in dieser Studie – beschränkt bleiben werden.“

Dr. Christoph Reichert

Leiter der Arbeitsgruppe Brain-Machine Interface, Leibniz-Institut für Neurobiologie (LIN), Magdeburg

„Ein Unterschied dieses nicht-invasiven Sprachdecoders zu invasiven Decodern ist, dass nicht die Worte, Silben oder Buchstaben direkt aus der Hirnaktivität rekonstruiert werden, sondern mithilfe eines Sprachmodells basierend auf künstlichen neuronalen Netzen (hier GPT, ein vortrainiertes Modell, das auf ähnliche Geschichten getuned wurde, wie im Experiment verwendet) Sätze erstellt werden, deren Generierung von der gemessenen Hirnaktivierung beeinflusst wird. Einzelne Wörter zu dekodieren, ist mit fMRT nicht möglich, da das gemessene Signal sehr träge ist (laut Autoren circa zehn Sekunden für einen neuronalen Impuls, was dazu führt, dass ein einzelnes fMRT-Bild dem Einfluss von 20 gesprochenen Wörtern unterliegt) und gewöhnlich nur jede zweite Sekunde ein neues Bild aufgenommen werden kann. Die invasiven Techniken können dagegen mikrosekundenschnelle Änderungen und sogar einzelne Spikes erfassen, was eine Rekonstruktion des Spektrums eines Audiosignals erlaubt [1]. Die fMRT kann aber wiederum das ganze Gehirn gleichzeitig erfassen, was die Erfassung von vernetzter Aktivität über verschiedene Hirnareale ermöglicht, wohingegen implantierte Elektroden nur kleine gezielte Bereiche erfassen können, dafür aber sehr viel besser räumlich und zeitlich aufgelöst. Der hier vorgestellte Sprachdecoder versucht, Sätze zu bilden, die semantisch mit den präsentierten/vorgestellten/visuell wahrgenommenen ähnlich sind. Der ultimative Vorteil des fMRT ist die Unversehrtheit des Nutzers, ohne die Risiken einer OP einzugehen (Entzündungen, Abstoßen, Fehlplatzierung, Langzeitfunktionalität des Implantats).“

„Die Autoren benutzen in erster Linie ein Sprachmodell, wie wir es aus modernen KI-Anwendungen kennen. Das Modell sagt vorher, wie ein gegebener Text fortgesetzt werden könnte. Aus verschiedenen Vorschlägen bestimmt ein Algorithmus die wahrscheinlichste Variante, was anhand des Musters der gemessenen Hirnaktivierung erfolgt. Die Autoren nennen diese fMRT-Muster kortikale semantische Repräsentation. Wie erfolgreich der Decoder war, lässt sich schwer in Worte fassen. Die Autoren betrachten vier verschiedene Ähnlichkeitsmaße und zeigen für verschiedenste Bedingungen, dass der rekonstruierte Text signifikant mehr mit dem Original übereinstimmt als ein zufällig generierter Text (mit dem gleichen Sprachmodell aber ohne fMRT-Daten). Tabelle 1 zeigt, dass der rekonstruierte Text für alle Ähnlichkeitsmaße deutlich näher am Null-Level ist (Zufallstext) als an dem Level, das man erreichen würde, wenn man einen von einem Menschen von Englisch in Mandarin übersetzten Text von einem KI-Übersetzer zurück ins Englische übersetzen lässt. Das Ähnlichkeitsmaß, dass am besten semantische Übereinstimmung berücksichtigt, hat laut Tabellenbeschreibung 20 Prozent des Levels des Übersetzers erreicht.“

„Die Autoren haben gezeigt, dass das Sprachmodell auch signifikant semantisch sinnvollere Texte generiert als ohne fMRT, wenn die Teilnehmer sich den Text nur vorstellen oder einen Stummfilm anschauen. Bei dem vorgestellten Text hat die Ähnlichkeit immerhin ausgereicht, bei allen Teilnehmern die fünf verschiedenen sich vorgestellten Geschichten anhand der fMRT-Daten richtig zuzuordnen. Wenn man sich die gezeigten Beispiele des präsentierten und rekonstruierten Textes ansieht, wird schnell klar, dass diese Technik noch weit davon entfernt ist, einen ,gedachten‘ Text zuverlässig aus Gehirndaten zu generieren. Trotzdem deutet diese Studie an, was möglich werden kann, wenn sich die Messtechniken verbessern. Eine denkbare Anwendung dieser Technologie wäre die Kommunikation mit Menschen, die aufgrund einer kompletten Lähmung (Locked-In-Syndrom) nicht mehr kommunizieren können.“

„Die Autoren argumentieren, dass die Technologie nicht funktioniert, wenn das Modell bei anderen Menschen trainiert wurde oder wenn die Teilnehmer aktiv die Präsentation manipulieren (durch andere kognitive Prozesse). Sollte es tatsächlich einmal dazu kommen, dass sich Menschen Chips implantieren lassen, um Texte in ihr Smartphone zu diktieren, ist diese Argumentation nicht mehr ausreichend. So wie heute Gespräche mitgehört werden können, könnte man wahrscheinlich auch die Gedanken mitlesen. Meiner Meinung nach ist dieses Szenario jedoch nicht in greifbarer Zukunft, da sowohl die Messtechnik als auch die Methoden nicht hinreichend gut sind und Implantate in gesunden Menschen ohnehin keine Option sein sollten.“

Angaben zu möglichen Interessenkonflikten

Alle: Keine Angaben erhalten.

Primärquelle

Tang J et al. (2023): Semantic reconstruction of continuous language from non-invasive brain recordings. Nature Neuroscience: DOI: 10.1038/s41593-023-01304-9.

Literaturstellen, die von den Experten zitiert wurden

[1] Pasley BN et al. (2012): Reconstructing Speech from Human Auditory Cortex. Plos Biology. DOI: 10.1371/journal.pbio.1001251.