KI bricht Rekorde in Atari-Spielen
Ein neu vorgestelltes KI-System erkundet seine Umgebung nicht rein zufällig, sondern merkt sich, welche Wege es in der Vergangenheit schon ausprobiert hat und ob diese es seinem Ziel nähergebracht haben. Die Entwickler von OpenAI und Uber schreiben, ihr System namens Go-Explore schneide auf diese Weise besser in den ikonischen Atari-Spielen, wie zum Beispiel Montezuma’s Revenge oder Pitfall, ab als Menschen und andere Algorithmen. Die Studie ist am 24.02.2021 im Fachjournal „Nature“ erschienen (siehe Primärquelle).
Professor für Intelligente Autonome Systeme, Technische Universität Darmstadt, und Max-Planck-Institut für Intelligente Systeme
„Weder die Prämisse der Studie – das heißt, seltene Lösungen oder Rewards machen Suchprobleme schwerer – noch die Lösung – das heißt, die Wiederverwendung von erfolgreichen Teiltrajektorien – überraschen. Die Studie ist methodisch inkrementell und doch ein Durchbruch: Menschliche Experten in so vielen Problemen zu schlagen, ist ein eindrucksvoller Erfolg!“
„Die größte Überraschung des Artikels steckt aber in den Details: Wenn ‚Domain Knowledge‘ (das heißt: menschliches Vorwissen) einbezogen wird, kann Go-Explore den menschlichen Weltrekord schlagen. Sollte diese Aussage sich als verallgemeinerbar herausstellen, dann kann dies ein Zeitenwechsel in der KI sein, wo die beiden KI-Familien der statistisch-neuronalen Verfahren und des ‚Domain Knowledge‘-Engineering sich endlich vereinen. Für viele KI-Forscher wäre dies ein fast 70 Jahre alter Traum!“
„Persönlich vermute ich, dass eine derartige Kombination von statistisch-neuronalen Verfahren und des ‚Domain Knowledge‘-Engineering der KI den Durchbruch in der Medizin, im autonomen Fahren und in anderen sicherheitskritischen Anwendungen ermöglichen wird. Daher ist dieser potentielle Zeitenwechsel von sehr großer Bedeutung.“
„Einen Mehrwert für die Robotik sehe ich an den Haaren herbeigezogen. In der Robotik ist die Beschreibung der Situation meist das größte Problem. Wenn wir gute Simulatoren haben und sowohl Problem als auch Situation klar definieren können, ist das Problem in der Robotik meist einfach lösbar.“
„Go-Explore verlangt entweder gute Simulatoren und Problembeschreibungen oder unbezahlbar viele Versuche auf dem gleichen echten System. Genau deswegen ist die Übertragung der Durchbrüche von den Atari Games auf die anthropomorphe Robotik so schwer.“
Dozent am Institut für Angewandte Simulation, Zürcher Hochschule für Angewandte Wissenschaften (ZHAW), Zürich, Schweiz
„Es ist wenig überraschend, dass sich die Performance erhöht, wenn sich der RL Agent (Reinforcement Learning Agent; Anm. d. Red.) seine besten erreichten Zustände merkt und dann ab dieser Position weiter erkundet. Es ist bekannt, dass aktuelle Systeme speicherlimitiert sind, ‚Speicher-erweitertes‘ deep learning wurde bereits in vielfältiger Weise erforscht. Die Anwendung im Bereich des Verstärkenden Lernens (= Reinforcement Learning; Anm. d. Red.) ist eher neu und wegweisend. Entscheidend für den Erfolg und die Anwendbarkeit auf andere Probleme ist, wie effektiv sich Zustände komprimiert darstellen lassen. Ein Bereich, wo gerade viel Fortschritt gemacht wird.“
Auf die Frage, inwiefern die Forschungsergebnisse einen Durchbruch darstellen:
„Das ist sicherlich ein wichtiger Schritt vorwärts. So wie es ihn circa alle 6 Monate gibt. (Nicht etwa so wie AlphaZero: alle 10 Jahre).“
„Es wird uns ermöglichen, komplexere Probleme zu lösen, die eine längere Reihenfolge von Entscheidungen bis zur Lösung verlangen. Algorithmen, die auf dem Verstärkenden Lernen beruhen, haben ein enormes, weitgehend unerforschtes Anwendungspotential für alle Arten von Entscheidungsproblemen in der Industrie. Ein Hauptgrund ist die oft noch geringe Effizienz dieser Algorithmen. Der Lösung dieses Problems sind wir dank Go-Explore wieder einen Schritt nähergekommen.“
Auf die Frage, welche Rolle Domain Knowledge für KI spielen wird:
„Wir wissen aufgrund von grundlegenden Überlegungen, dass der Einbau von Domain-Wissen im Prinzip immer zu besserer Performance führt. Allerdings liegen das Ziel und die Herausforderung der KI-Forschung gerade darin, immer Domain-unabhängigere Algorithmen zu entwickeln. Der Grund ist, dass die Akquise von explizitem Domain-Wissen oft sehr kostspielig oder technisch extrem schwierig ist. Im Gegensatz dazu sind generell-intelligente Systeme (wie unser Gehirn) in der Lage, sich solches Wissen implizit selbst anzueignen und damit eine viel größere Bandbreite von Problemen zu lösen.“
Alle: Keine Angaben erhalten.
Primärquelle
Ecoffet A et al. (2021): First return, then explore. Nature. DOI: 10.1038/s41586-020-03157-9.
Weiterführende Recherchequellen
Science Media Center (2018): Künstliche Intelligenz – was ist der Kern der Revolution? Fact Sheet. Stand: 16.05.2018.
Prof. Ph.D. Jan Peters
Professor für Intelligente Autonome Systeme, Technische Universität Darmstadt, und Max-Planck-Institut für Intelligente Systeme
Dr. Claus Horn
Dozent am Institut für Angewandte Simulation, Zürcher Hochschule für Angewandte Wissenschaften (ZHAW), Zürich, Schweiz