Zum Hauptinhalt springen
11.07.2022

KI lernt „intuitives“ Verständnis von Physik

     

  • KI lernt Grundlagen der Physik durch Videos
  •  

  • Autoren: Schritt zu KI mit intuitivem Verständnis der Welt?
  •  

  • Fachleute finden die Studie wichtig, sind bei den Implikationen aber zurückhaltender
  •  

Eine künstliche Intelligenz (KI) soll auf Basis von Videos, die das physikalische Verhalten von Objekten zeigen, ein intuitives Verständnis für Grundlagen der Physik entwickelt haben. Das entsprechende Modell „Plato“ stellen Forscher der britischen KI-Schmiede DeepMind – einer Tochter der Google Holding Alphabet – in einer Studie vor, die am 11.07.2022 im Fachjournal „Nature Human Behaviour“ erschienen ist (siehe Primärquelle).

Gerade bei den großen Sprachmodellen, wie GPT-3 und Lamda, die in den vergangenen Jahren immer wieder in den Schlagzeilen standen, merkten Kritiker an, dass diese Modelle kein grundsätzliches Verständnis der Welt aufweisen. In der vorliegenden Studie haben die Forscher versucht, einer KI eine gewisse, wenn auch sehr beschränkte, Art eines solchen Verständnisses beizubringen. Dazu haben sie auch Ansätze aus der Entwicklungspsychologie angewandt.

Beim Trainieren des Modells haben die Forscher Plato Videos aus einem selbst erstellten Datensatz gezeigt, in denen das physikalische Verhalten von Objekten zu sehen war: Bälle rollten und hüpften, kollidierten mit anderen Objekten, waren zum Teil zeitweise durch andere Objekte verdeckt, Objekte prallten auf den Boden auf. Dadurch sollte Plato fünf physikalische Grundkonzepte kennenlernen, die die Forscher als Objektpermanenz, Solidität, Kontinuität, Unveränderlichkeit und direktionale Trägheit bezeichnen. Danach haben sie frei nach dem violation-of-expectation Paradigma aus der Entwicklungspsychologie überprüft, ob das Modell erkennt, wenn diese Konzepte verletzt werden – ein rollender Ball beispielsweise hinter einem anderen Objekt verschwindet, aber nicht wieder auftaucht. Dieser Ansatz wird auch bei Kleinkindern verwendet, um aus ihren Reaktionen abzuleiten, ob ein Ereignis eingetreten ist, wie erwartet, oder sie davon überrascht sind.

Plato stellte sich als gut darin heraus, zu erkennen, wenn Objekte sich nicht gemäß physikalischer Regeln bewegen – auch bei Objekten oder Ereignissen, die in dieser Form nicht in den Trainingsdaten vorhanden waren. Laut den Autoren könnte das ein Schritt auf dem Weg sein, einer KI ein allgemeineres Verständnis der Welt zu vermitteln. Außerdem diskutieren die Autoren, inwiefern ihre Arbeit und ähnliche KI-Forschung auch neue Erkenntnisse für die Entwicklungspsychologie liefern kann.

Um die Implikationen für die KI-Forschung, aber auch die Entwicklungspsychologie einschätzen zu können, haben wir Expertinnen und Experten aus den jeweiligen Feldern um ein Statement gebeten.

Übersicht

     

  • Martin Schrimpf, Ph.D., Research Scientist, The Center for Brains, Minds, and Machines, Massachusetts Institute of Technology, Cambridge, Vereinigte Staaten
  •  

  • Prof. Dr. Stefanie Höhl, Universitätsprofessorin für Entwicklungspsychologie, Universität Wien, Österreich
  •  

  • Prof. Dr. Diedrich Wolter, Professor für Angewandte Informatik, insbesondere Smart Environments, Otto-Friedrich-Universität Bamberg
  •  

  • Prof. Dr. Matthias Bethge, Professor für Computational Neuroscience und Machine Learning, Eberhard Karls Universität Tübingen und Direktor des Tübingen AI Centers
  •  

Statements

Martin Schrimpf, Ph.D.

Research Scientist, The Center for Brains, Minds, and Machines, Massachusetts Institute of Technology, Cambridge, Vereinigte Staaten

„Forschung in künstlicher und natürlicher Intelligenz hat eine lange gemeinsame Historie, in der Erkenntnisse in einem Feld im anderen Feld umgesetzt und getestet wurden. Die ersten künstlichen neuronalen Netzwerke wurden etwa von McCulloch und Pitts im Gebiet der Neurowissenschaften entwickelt (siehe [1] für eine Sammlung an Forschungsergebnissen in denen natürliche Intelligenz die künstliche Intelligenz nachwirkend beeinflusst hat). Insbesondere in Bereichen wie Weltwissen, in denen unsere aktuellen KI-Modelle noch deutliche Schwachstellen aufweisen, ist es daher nachvollziehbar, sich an einem System zu orientieren, das viele dieser Probleme gelöst hat – dem menschlichen Gehirn.“

„Es ist jedoch auch denkbar, dass wir immer bessere KI-Modelle entwickeln können, ohne uns stark an natürlicher Intelligenz zu orientieren. Neue Ergebnisse in Modellen, die Bilder oder Text generieren, deuten an, dass schon Skalierung allein – zu größeren Modellen mit mehr und mehr Daten – beeindruckende Ergebnisse liefert, ohne auf die menschliche Intuition beim Bau dieser Modelle angewiesen zu sein. Das Wettrennen, welcher Ansatz die nächste Generation an KI-Modellen mit Weltwissen am schnellsten entwickelt, ist bereits im Gange.“

„Heutige KI-Modelle sind Menschen gegenüber in vielerlei Hinsicht unterlegen: logische Argumentation, Lernen aus wenigen Beispielen, Kombinatorik, robustes Verhalten trotz Veränderungen im sensorischen Input, Generalisierung zu neuen Konzepten – es gibt viele weitere Beispiele. Aber diese Liste ist in den letzten Jahren immer kürzer geworden – künstliche neuronale Netzwerke verhalten sich mehr und mehr wie Menschen und lösen Probleme in beispielsweise der Bilderkennung ähnlich wie unser Primatengehirn. Ich bin insofern optimistisch, dass wir solche Fortschritte weiterführen können und Modelle entwickeln, die uns mit zunehmender Genauigkeit erklären können, wie das Gehirn menschliche Intelligenz umsetzt.“

„Selbst Dinge wie genetische Prädispositionen rücken langsam in den Fokus der KI-Forscher: Kürzlich wurde festgestellt, dass bereits ein kleiner Teil der anderweitig sehr großen Modelle eine vergleichbare Performance zu den ursprünglichen Modellen erreichen kann [2]. Ansätze, um die Modelle ähnlich zum Geburtszustand des Gehirns zu initialisieren [3] könnte KI somit von ‚Geburt‘ an die richtigen Grundlagen wie in natürlicher Intelligenz geben [4].“

„Das PLATO-Modell in diesem Paper ist auch ein Schritt in diese Richtung, KI-Modelle ähnlicher zu natürlicher Intelligenz zu gestalten: Das Modell orientiert sich an der Kognitionswissenschaft und repräsentiert Objekte explizit – anstatt Teile des Bild-Inputs zu Objekten zu kombinieren –, wodurch das Modell in der Lage ist, Elemente der Physik zu erlernen. Die Forscher zeigen, dass das Modell ohne diese menschlich inspirierte Repräsentation von Objekten nicht in der Lage ist, physische Komponenten zu erlernen.“

Auf die Frage, inwiefern solche Ansätze der künstlichen Intelligenz auch wichtige Fragen aus der Entwicklungspsychologie beantworten könnten:
„In den letzten Jahren wurden Neuro- und Kognitionswissenschaften durch Deep Learning revolutioniert. In den Bereichen visueller und akustischer Sensorik sowie in der Sprachverarbeitung erklären KI-Modelle die neuronale Aktivität im Gehirn und menschliches Verhalten mit höherer Genauigkeit als je zuvor [5] [6] [7]. Der Großteil dieser Studien hat jedoch Modelle mit erwachsenen Probanden verglichen – das aktuelle Paper von Piloto et al. geht in eine spannende neue Richtung, indem es Eigenschaften von Menschen während ihrer Entwicklung mit KI-Modellen vergleicht, die mit einem begrenzten Datensatz trainiert werden. Können wir diese Modelle nutzen, um die menschliche Entwicklung genauer zu untersuchen und in Zukunft womöglich sogar zu verbessern, beispielsweise durch individualisierte Lernkonzepte? Ich bin optimistisch.“

„PLATO ist ein Baustein in diesem Forschungsansatz, die menschliche Entwicklung mit künstlichen neuronalen Netzwerken zu erklären, und es gibt eine Menge offener Fragen, die zukünftige Modelle adressieren können: Sind Mensch und Maschine von den gleichen Verletzungen der Physik überrascht, und im gleichen Ausmaß? Ist unsere Fähigkeit, uns in einer Vielzahl von neuen Situationen zurechtzufinden, erlernt oder ist eine bestimmte Gehirnstruktur dafür notwendig? Was passiert während der kritischen Periode in der Kindesentwicklung? KI-Modelle sind ein machtvolles Werkzeug, um diese Fragen zu beantworten.“

Prof. Dr. Stefanie Höhl

Universitätsprofessorin für Entwicklungspsychologie, Universität Wien, Österreich

„Die Studie bezieht sich auf entwicklungspsychologische Forschung zu physikalischem ‚Kernwissen‘ in der frühen Kindheit. Bereits wenige Monate alte Babys schauen länger auf eine physikalisch unmögliche Szene. Beispielsweise wenn ein Ball augenscheinlich durch eine Tischplatte hindurch fällt oder von der Tischplatte rollt und dann in der Luft stehenbleibt, statt auf den Boden zu fallen. Es gibt schon seit Jahrzehnten eine lebhafte Debatte darüber, ob Babys ein rudimentäres Verständnis für einige physikalische Grundregeln haben oder ob sie dieses Verständnis basierend auf Regelmäßigkeiten in ihrem täglichen Erleben und Beobachten sehr schnell erwerben.“

„Piloto et al. sind in der Interpretation ihrer Ergebnisse in dieser Hinsicht angemessen vorsichtig. Ihre Ergebnisse sprechen dafür, dass ein System diese physikalischen Gesetzmäßigkeiten aus visuellem Input relativ schnell lernen kann. Eingebaut hatten sie in ihr Modell kein Kernwissen im engeren Sinn, aber die Fähigkeit, einzelne Objekte aus dem visuellen Input heraus zu segmentieren und zu tracken, also perzeptuelle Fähigkeiten, die Babys auch schon sehr früh zeigen. Die Autoren bemerken dazu, dass auch diese Fähigkeiten prinzipiell gelernt werden können. Insofern wundere ich mich mehr über die Schlussfolgerung im dazugehörigen Kommentar zur Studie von Hespos und Shivaram [8], dass ‚built-in knowledge‘ – also eingebautes Wissen – für den Lernprozess erforderlich sei. Das geht aus dem Originalpapier für mich nicht hervor.“

Auf die Frage, ob es aus Sicht der Kognitionswissenschaften Aspekte der kindlichen Entwicklung gibt, die nicht durch KI beziehungsweise Deep Learning abgebildet werden können:
„Babys lernen nicht durch reine, passive Beobachtung wie das Modell in der Studie. Sie werden nicht mit visuellem Input ‚gefüttert‘. Babys sind aktive Lernende, die sich, geleitet durch ihre intrinsische Neugier, selbst aussuchen, worauf sie ihre Aufmerksamkeit lenken. Dabei werden sie zudem von den Menschen in ihrem Umfeld beeinflusst. Wenn Mama oder Papa erstaunt etwas anschauen, dann erhöht das die Wahrscheinlichkeit, dass auch ihr Baby das entsprechende Ereignis aufmerksam betrachtet. Diese sozialen Einflüsse fehlen im Modell von Piloto et al. Sobald Babys motorisch kompetenter und mobiler werden, lernen sie zudem durch aktive Exploration. Beispielsweise haben frühere Studien gezeigt, dass Babys Objekte, die sich augenscheinlich physikalisch unmöglich verhalten, später aktiv testen. Fiel der Ball zuvor scheinbar durch den Tisch, wird er hinterher fest auf den Tisch geklopft, ganz so als wollte das Baby eine Hypothese testen.“

Auf die Frage, inwiefern Erkenntnisse aus solchen Ansätzen der künstlichen Intelligenz auch wichtige Fragen aus der Entwicklungspsychologie beantworten könnten:
„Das Deep Learning System in der Studie von Piloto und Kollegen lernt wie gesagt ganz anders als ein Baby im echten Leben. Insofern ist die Übertragbarkeit der Ergebnisse auf die menschliche Entwicklung begrenzt. Es ist vielmehr ein stark vereinfachtes Modell, das uns etwas über die minimalen Voraussetzungen sagt, die erfüllt sein müssen, damit ein System dieselben Vorhersagen macht – und Vorhersagefehler, wenn etwas unmögliches passiert – wie ein kleines Baby. Insofern ist diese Forschung durchaus spannend aus entwicklungspsychologischer Perspektive, aber ich bin skeptisch, ob sich daraus wegweisende neue Erkenntnisse zur frühen menschlichen Entwicklung gewinnen lassen. Umgekehrt freue ich mich aber, dass entwicklungspsychologische Erkenntnisse zur Entwicklung von Deep Learning Systemen herangezogen werden. Die Studie zeigt sehr eindrucksvoll, dass dies ein sinnvoller Ansatz ist.“

Prof. Dr. Diedrich Wolter

Professor für Angewandte Informatik, insbesondere Smart Environments, Otto-Friedrich-Universität Bamberg

„Methodisch ist die Studie meines Erachtens sauber durchgeführt, sollte jedoch nicht überinterpretiert werden — der Titel des Kommentars von Susan Hespos und Apoorva Shivaram, ‚Can a computer think like a baby?‘ [8], ist missverständlich, da diese Frage nicht direkt adressiert wird. Bei der Darstellung der Studie sind die gemachten, teilweise gravierenden, Vereinfachungen zu beachten: Es wird mit graphisch stark vereinfachten Bildsequenzen gearbeitet, in denen nur jeweils ein einzelner Effekt zu beobachten ist. Überdies wird Wissen über die relevanten Objekte in den Bildsequenzen vorgegeben, das Lernen findet also nicht alleine anhand der visuellen Information statt.“

„Die Studie ist primär als ein Beitrag zur Psychologie zu sehen, die gezeigten Lernleistungen einzelner Phänomene sind durch KI-Systeme auf Basis unterschiedlicher Techniken – mit oder ohne Lernen – leicht zu erreichen. Die Grenze des für KI Machbaren ist jedoch bei Alltagsproblemen sehr schnell erreicht. Beispielsweise legen Menschen Objekte intuitiv auf schrägen Oberflächen ab, ganz ohne Wissen um physikalische Parameter wie Reibung. Aktuelle Roboter benötigen hingegen ein exaktes Modell ihrer Umgebung, welches in den seltensten Fällen verfügbar ist. Die Wichtigkeit der Beherrschung naiver Physik wurde bereits 1979 vom britischen KI-Forscher Pat Hayes in seinem ‚Naive Physics Manifesto‘ angemahnt, Fortschritte erweisen sich jedoch als schwierig.“

„Die Relevanz der Studie für KI ist, nahezulegen, dass ein objektzentrierter Ansatz sowie Vorwissen zum Erlernen naiver Physik kognitiv plausibel und erfolgversprechend sind, um das für ein zielstrebiges Handeln in der echten Welt notwendige Wissen aufzubauen. Damit liefert die Studie Motivation und Begründung für schon seit frühen Zeiten der KI verfolgte Ansätze, die Verständnis physikalischer Alltagsphänomene modellieren und wissensbasierte Prozesse mit Wahrnehmung und Lerntechniken integrieren (‚hybride KI‘). Die Studie untermauert die Kritik an der Hypothese und dem oft gezeichneten Bild aktueller KI, dass sich jegliches intelligente Verhalten direkt erlernen ließe (‚end-to-end learning‘); sie motiviert vielmehr, dass KI-Techniken jenseits maschinellen Lernens nach wie vor wichtig sind.“

Prof. Dr. Matthias Bethge

Professor für Computational Neuroscience und Machine Learning, Eberhard Karls Universität Tübingen und Direktor des Tübingen AI Centers

„Beim Menschen kennen wir unterschiedliche Formen des Lernens. Es gibt das Einpauken von reflexartigen Assoziationen, so wie wir zum Beispiel das ‚kleine Einmaleins‘ trainieren. Die Standardmethoden des Maschinellen Lernens sind am ehesten mit dieser Form des Lernens vergleichbar. Für den größten Teil unseres Lebens ist diese Form des Lernens aber gar nicht anwendbar. Die meisten Entscheidungen müssen wir ohne spezielles Training treffen. Dafür entwickelt unser Gehirn kontinuierlich kognitive Modelle von der Umwelt und ist darin unglaublich effizient und erfolgreich. Beim Nachahmen dieser Fähigkeit steht die künstliche Intelligenz noch ganz am Anfang. Doch es gibt eine kleine, aber wachsende Gruppe von Forscher:innen, die es genau darauf anlegen, diese natürlichen Formen des Lernens besser zu verstehen, wie zum Beispiel die ELLIS Fellows unseres ‚Natural Intelligence‘ Programms, dem auch Matt Botvinik, der Senior-Autor der Studie, angehört.“

„Ich kenne die Studie bisher nur aus der Doktorarbeit von Luis Piloto. Inspiriert durch Methoden der Entwicklungspsychologie wird dort eine neue Methode vorgeschlagen, um Lernalgorithmen zu vergleichen. Dazu haben sie spezielle Filme entwickelt, für die es jeweils zwei zwillingsähnliche Varianten gibt, bei der aber nur die eine Variante mit den Gesetzen der Physik übereinstimmt und die zweite nicht. Die Autoren finden dann, dass die Vorhersagequalität eines ‚objektzentrierten‘ Algorithmus stärker von der Übereinstimmung mit den physikalischen Gesetzen abhängt als der eines üblichen Faltungsnetzes (ein künstliches neuronales Netz, ein Konzept des maschinellen Lernens; Anm. d. Red.). Das spricht dafür, dass objektzentrierte Algorithmen besser geeignet sind, um physikalische Gesetzmäßigkeiten für die Vorhersage zu nutzen.“

„Es gibt aber natürlich noch viele andere Kriterien, die zur Bewertung eines Lernalgorithmus wichtig sind und auch schon diverse Varianten von objektzentrierten Algorithmen, die bei anderen Tests erfolgreich waren. Die Tragweite der Publikation wird daher am Ende vor allem davon abhängen, wie nützlich sich die neue Vergleichsmethode in der Zukunft erweisen kann, um bessere objektzentrierte Algorithmen zu entwickeln. Die größte Herausforderung besteht darin, dass das maschinelle Lernen irgendwann wie beim Menschen auch ganz ohne Betreuung oder Hilfestellung funktionieren sollte – also zum Beispiel ohne die Segmentierungsmasken (eine noch vor dem Training der KI meist durch Menschen angelegte Klassifizierung, die jedem Pixel eine Klasse zuweist, damit die KI beim Training erkennen kann, welcher Teil eines Bildes was abbildet; Anm. d. Red.), die hier noch von außen bereitgestellt wurden. Ich bin sehr gespannt, ob uns das bald gelingen wird.“

Angaben zu möglichen Interessenkonflikten

Univ.-Prof. Dr. Stefanie Höhl: „Ich habe keine Interessenkonflikte.“

Alle anderen: Keine Angaben erhalten.

Primärquelle

Piloto LS et al. (2022): Intuitive physics learning in a deep-learning model inspired by developmental psychology. Nature Human Behaviour. DOI: 10.1038/s41562-022-01394-8.

Literaturstellen, die von den Experten zitiert wurden

[1] Hassabis D et al. (2017): Neuroscience-Inspired Artificial Intelligence. Neuron. DOI: 10.1016/j.neuron.2017.06.011.

[2] Frankle J et al. (2018): The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks. arXiv. DOI: 10.48550/arXiv.1803.03635.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.

[3] Geiger F et al. (2020): Wiring Up Vision: Minimizing Supervised Synaptic Updates Needed to Produce a Primate Ventral Stream. OpenReview.

[4] Zador AM (2019): A critique of pure learning and what artificial neural networks can learn from animal brains. Nature Communications. DOI: 10.1038/s41467-019-11786-6.

[5] Yamins DLK et al. (2014): Performance-optimized hierarchical models predict neural responses in higher visual cortex. PNAS. DOI: 10.1073/pnas.1403112111.

[6] Kell AJE et al. (2018): A Task-Optimized Neural Network Replicates Human Auditory Behavior, Predicts Brain Responses, and Reveals a Cortical Processing Hierarchy. Neuron. DOI: 10.1016/j.neuron.2018.03.044.

[7] Schrimpf M et al. (2021): The neural architecture of language: Integrative modeling converges on predictive processing. PNAS. DOI: 10.1073/pnas.2105646118.

[8] Hespos S et al. (2022): Can a computer think like a baby? News & Views. Nature Human Behaviour. DOI: 10.1038/s41562-022-01395-7.