Zum Hauptinhalt springen
24.02.2021

KI bricht Rekorde in Atari-Spielen

Anlass

Ein neu vorgestelltes KI-System erkundet seine Umgebung nicht rein zufällig, sondern merkt sich, welche Wege es in der Vergangenheit schon ausprobiert hat und ob diese es seinem Ziel nähergebracht haben. Die Entwickler von OpenAI und Uber schreiben, ihr System namens Go-Explore schneide auf diese Weise besser in den ikonischen Atari-Spielen, wie zum Beispiel Montezuma’s Revenge oder Pitfall, ab als Menschen und andere Algorithmen. Die Studie ist am 24.02.2021 im Fachjournal „Nature“ erschienen (siehe Primärquelle).

Spiele werden in der Forschung zu Künstlicher Intelligenz oft verwendet, um neue Algorithmen auszuprobieren und ihre Fähigkeiten miteinander zu vergleichen. Für die Methode des Reinforcement Learning, das auch bei Go-Explore angewendet wird, eignen sich Spiele mit ihren klar definierten Regeln und Erfolgsbedingungen in der Regel sehr gut. Beim Reinforcement Learning lernt ein System durch Versuch und Irrtum, welche Schritte belohnt werden – zum Beispiel in Form von Punktgewinn – und welche bestraft werden – zum Beispiel durch Punktabzug.

Allerdings sind die in dieser Studie verwendeten Spiele nach Angabe des Autorenteams schwierig für auf Reinforcement Learning basierende Algorithmen, da Belohnungen oder Punktgewinne selten und oft irreführend sind. Dank der neuen Herangehensweise jedoch spielte Go-Explore im Spiel Pitfall zum Beispiel etwas besser als der menschliche Durchschnitt, obwohl andere Algorithmen bisher Probleme hatten, überhaupt Punkte zu sammeln. Indem das System Vorwissen zum Spiel miteinbezog, konnte es in Montezuma’s Revenge sogar den Weltrekord schlagen, obwohl Algorithmen in diesem Spiel bisher immer schlechter abschnitten als durchschnittliche menschliche Spieler.

Die Studienautoren bezeichnen diese Erfolge daher als Durchbruch und fügen hinzu, die in der Studie vorgestellten Erkenntnisse könnten auch Einfluss auf andere Bereiche nehmen. Dabei erwähnen sie explizit mögliche Fortschritte in der Robotik.

Übersicht

     

  • Prof. Ph.D. Jan Peters, Professor für Intelligente Autonome Systeme, Technische Universität Darmstadt, und Max-Planck-Institut für Intelligente Systeme
  •  

  • Dr. Claus Horn, Dozent am Institut für Angewandte Simulation, Zürcher Hochschule für Angewandte Wissenschaften (ZHAW), Zürich, Schweiz
  •  

Statements

Prof. Ph.D. Jan Peters

Professor für Intelligente Autonome Systeme, Technische Universität Darmstadt, und Max-Planck-Institut für Intelligente Systeme

„Weder die Prämisse der Studie – das heißt, seltene Lösungen oder Rewards machen Suchprobleme schwerer – noch die Lösung – das heißt, die Wiederverwendung von erfolgreichen Teiltrajektorien – überraschen. Die Studie ist methodisch inkrementell und doch ein Durchbruch: Menschliche Experten in so vielen Problemen zu schlagen, ist ein eindrucksvoller Erfolg!“

„Die größte Überraschung des Artikels steckt aber in den Details: Wenn ‚Domain Knowledge‘ (das heißt: menschliches Vorwissen) einbezogen wird, kann Go-Explore den menschlichen Weltrekord schlagen. Sollte diese Aussage sich als verallgemeinerbar herausstellen, dann kann dies ein Zeitenwechsel in der KI sein, wo die beiden KI-Familien der statistisch-neuronalen Verfahren und des ‚Domain Knowledge‘-Engineering sich endlich vereinen. Für viele KI-Forscher wäre dies ein fast 70 Jahre alter Traum!“

„Persönlich vermute ich, dass eine derartige Kombination von statistisch-neuronalen Verfahren und des ‚Domain Knowledge‘-Engineering der KI den Durchbruch in der Medizin, im autonomen Fahren und in anderen sicherheitskritischen Anwendungen ermöglichen wird. Daher ist dieser potentielle Zeitenwechsel von sehr großer Bedeutung.“

„Einen Mehrwert für die Robotik sehe ich an den Haaren herbeigezogen. In der Robotik ist die Beschreibung der Situation meist das größte Problem. Wenn wir gute Simulatoren haben und sowohl Problem als auch Situation klar definieren können, ist das Problem in der Robotik meist einfach lösbar.“

„Go-Explore verlangt entweder gute Simulatoren und Problembeschreibungen oder unbezahlbar viele Versuche auf dem gleichen echten System. Genau deswegen ist die Übertragung der Durchbrüche von den Atari Games auf die anthropomorphe Robotik so schwer.“

Dr. Claus Horn

Dozent am Institut für Angewandte Simulation, Zürcher Hochschule für Angewandte Wissenschaften (ZHAW), Zürich, Schweiz

„Es ist wenig überraschend, dass sich die Performance erhöht, wenn sich der RL Agent (Reinforcement Learning Agent; Anm. d. Red.) seine besten erreichten Zustände merkt und dann ab dieser Position weiter erkundet. Es ist bekannt, dass aktuelle Systeme speicherlimitiert sind, ‚Speicher-erweitertes‘ deep learning wurde bereits in vielfältiger Weise erforscht. Die Anwendung im Bereich des Verstärkenden Lernens (= Reinforcement Learning; Anm. d. Red.) ist eher neu und wegweisend. Entscheidend für den Erfolg und die Anwendbarkeit auf andere Probleme ist, wie effektiv sich Zustände komprimiert darstellen lassen. Ein Bereich, wo gerade viel Fortschritt gemacht wird.“

Auf die Frage, inwiefern die Forschungsergebnisse einen Durchbruch darstellen:
„Das ist sicherlich ein wichtiger Schritt vorwärts. So wie es ihn circa alle 6 Monate gibt. (Nicht etwa so wie AlphaZero: alle 10 Jahre).“

„Es wird uns ermöglichen, komplexere Probleme zu lösen, die eine längere Reihenfolge von Entscheidungen bis zur Lösung verlangen. Algorithmen, die auf dem Verstärkenden Lernen beruhen, haben ein enormes, weitgehend unerforschtes Anwendungspotential für alle Arten von Entscheidungsproblemen in der Industrie. Ein Hauptgrund ist die oft noch geringe Effizienz dieser Algorithmen. Der Lösung dieses Problems sind wir dank Go-Explore wieder einen Schritt nähergekommen.“

Auf die Frage, welche Rolle Domain Knowledge für KI spielen wird:
„Wir wissen aufgrund von grundlegenden Überlegungen, dass der Einbau von Domain-Wissen im Prinzip immer zu besserer Performance führt. Allerdings liegen das Ziel und die Herausforderung der KI-Forschung gerade darin, immer Domain-unabhängigere Algorithmen zu entwickeln. Der Grund ist, dass die Akquise von explizitem Domain-Wissen oft sehr kostspielig oder technisch extrem schwierig ist. Im Gegensatz dazu sind generell-intelligente Systeme (wie unser Gehirn) in der Lage, sich solches Wissen implizit selbst anzueignen und damit eine viel größere Bandbreite von Problemen zu lösen.“

Angaben zu möglichen Interessenkonflikten

Alle: Keine Angaben erhalten.

Primärquelle

Ecoffet A et al. (2021): First return, then explore. Nature. DOI: 10.1038/s41586-020-03157-9.

Weitere Recherchequellen

Science Media Center (2018): Künstliche Intelligenz – was ist der Kern der Revolution? Fact Sheet. Stand: 16.05.2018.