DeepMinds AlphaZero lernt durch Spiel gegen sich selbst
Googles KI-Schmiede DeepMind stellt eine neue Version von AlphaZero vor, die die Spiele Schach, Go und Shogi nur durch Spiel gegen sich selbst lernt. Frühere Versionen des KI-Systems schlugen in der Vergangenheit bereits Weltmeister, mussten jedoch sehr aufwändig trainiert werden. Die neue Selbstlern-Methode haben die Forscher bereits im vergangenen Jahr anhand des Vorgängersystems AlphaGo Zero demonstriert [a]; die neue Version, die am 07. Dezember im Fachjournal „Science“ präsentiert wurde (siehe *Primärquelle), stellt also nur eine Verallgemeinerung dieses Ansatzes auf weitere Spiele dar.
Aus diesem Grund haben wir jene Experten, die die Studie im vergangenen Jahr für das SMC eingeordnet haben, gefragt, ob wir ihre damaligen Statements im Kontext dieser neuen Studie wiederverwenden dürfen – gegebenenfalls mit Ergänzungen oder Änderungen. In diesen Statements beziehen sich die Experten zum Teil auf einen Blogeintrag, den DeepMind gemeinsam mit der Studie publiziert hatte [b]. Die folgenden Statements veröffentlichen wir mit Zustimmung der Experten noch einmal.
Professor für Medieninformatik/Mustererkennung, Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme, Sankt Augustin
„Rein technisch gesehen ist das neue System gar nicht so innovativ. Was hier gemacht wurde, ist einfach eine besonders clevere Fortentwicklung der Ideen aus dem letzten Jahr, das heißt eine elegante neue Kombination von neuronalen Netzen und Algorithmen zur sogenannten stochastischen Exploration möglicher Spielzüge. Das Besondere ist, dass das neue System auf diese Art und Weise keine Beispiele menschlicher Go-Spiele mehr brauchte, um gute Strategien zu lernen. Wenn man so möchte, konnte es unvoreingenommen lernen, wie Go gespielt werden sollte.“
„Die einzige Voraussetzung für das neue DeepMind-System ist, dass die Spielregeln einprogrammiert sind. Das lässt sich natürlich auch für andere Spiele realisieren. Die Übertragbarkeit auf Szenarien außerhalb der Spielewelt wird dadurch natürlich schwieriger, denn in welcher Situation in der echten Welt kennen wir schon alle Regeln?“
Auf die Frage, inwiefern die Charakterisierung der Leistung von Alpha Go Zero als „superhuman performance" zutreffend ist:
„Diese Charakterisierung erscheint tatsächlich angemessen. Denn schon das erste AlphaGo System war zuletzt so gut, dass Menschen keine Chance mehr hatten. AlphaGo Zero hat das originale AlphaGo nun in einem Turnier 100:0 geschlagen, menschliche Go-Großmeister könnten das sicher nicht.“
Prof. Dr. Bauckhage weist darauf hin, dass seine Einschätzung zur Frage nach „superhuman performance“ auch für das neue System gilt.
Leiter der MindGarage, Technische Universität Kaiserslautern, und Chair of the Machine Learning Group, Lulea University of Technology, Schweden
„In dem Nature-Papier beschreiben die Autoren von Google DeepMind eine neue Variante von AlphaGo, die – bis auf das übliche Regel- und Punktesystem – ohne Expertenwissen das Spiel Go meistert.“
„Die wesentlichen algorithmischen Fortschritte von AlphaGo Zero sind zum einen die Kombination von Policy- und Value-Network in eine Netzwerkarchitektur und zum anderen die Verwendung der Residual Connections (Residual Networks sind eine besonders leistungsstarke Form von neuronalen Netzen; Anm. d. Red.). Beide Fortschritte sind keine Neuerfindungen, machen AlphaGo jedoch besser. Durch diese algorithmischen Neuerungen gelingt es nun erstmals ohne Verwendung menschlichen Expertenwissens ein hohes Spielniveau zu erreichen. Es ist zu beachten, dass die Idee, neuronale Netze gegen sich selbst spielen zu lassen, nicht neu ist. AlphaGo Zero ist also prinzipiell eine Weiterentwicklung von AlphaGo, die noch viel mehr existierende Techniken miteinander kombiniert und somit erstmals ein hohes Spielniveau erreicht.“
„Die Leistungen des Programms sind durchaus auf andere Problemstellungen übertragbar, bei denen der Rahmen klar definiert und die Bewertung eindeutig messbar ist. Dabei spielt es keine Rolle, ob es sich um ein Spiel mit einem oder mehreren Spielern handelt oder um asymmetrische Probleme, bei denen das System nicht gegen sich selbst spielen kann. Es ist wichtig, dass das System Millionen von Tests durchführen kann und die Bewertung klar und eindeutig definierbar ist. Das ist in vielen praktischen Problemen jedoch nicht der Fall.“
„Der letzte Absatz im Blogbeitrag [b] ist eher etwas kritisch zu betrachten, da nicht nachvollziehbar ist, welche Neuerungen in dem Nature-Artikel tatsächlich Probleme, wie den steigenden Energieverbrauch lösen können – vor allem, wenn man beachtet, dass die Veröffentlichung selbst ja keine fundamentalen algorithmischen Neuerungen vorstellt, sondern hauptsächlich existierende Verfahren clever kombiniert.“
„Der Begriff ‚superhuman performance’ wird in letzter Zeit fast inflationär verwendet. Wann immer ein System bessere Resultate erzielt als menschliche Experten, wird er gerne als Aushängeschild benutzt, um einen höheren Impact zu erzielen. Bereits 2011 gab es ‚superhuman performance’ in der Mustererkennung [1] und inzwischen wird er bereits in tausenden von Computer Vision Papieren erwähnt – oft sogar im Titel.“
„Tatsächlich ist es so, dass AlphaGo Zero in der beschränkten Go-Welt besser spielt als alle seine AlphaGo -Vorgänger. Es ist auch zu erwarten, dass AlphaGo Zero gegen die besten menschlichen Experten gewinnt – was im Papier jedoch nicht verifiziert wird und eventuell eine Hypothese ist, die widerlegt werden könnte. Ich würde diesem Umstand jedoch keine so große Bedeutung beimessen, schließlich hat sich AlphaGo Zero sein eigenes Expertenwissen aus Millionen von Spielen selbst erarbeitet – eine Leistung, die ein einziger Mensch rein zeitlich nicht schaffen könnte. Ich würde es mit der Entwicklung der ersten Taschenrechner vergleichen, die vor über 50 Jahren die Menschheit mit ihren ‚superhuman’ Fähigkeiten beeindruckten und heute als ganz normal wirken.“
„Die im Blog verwendete Formulierung ‘The system starts off with a neural network that knows nothing about the game of Go’ ist de-facto falsch. Die Spielregeln sowie das Bewertungssystem sind dem Neuronalen Netz sehr wohl bekannt. Letzteres ist besonders wichtig zum Lernen der optimalen Spielzüge.“
„Im Gegensatz zu der prominent hervorgehobenen ‚superhuman performance’ würde ich vielmehr folgende zwei Gesichtspunkte besonderen Wert geben: 1. In Abbildung 3 des Artikels sieht man, dass AlphaGo Zero menschliche Züge nicht gut vorhersehen kann, aber am Ende besser spielt als frühere Versionen, die menschliche Züge besser vorhersehen können. Menschliche Experten haben sich aufgrund natürlich gegebener Kapazitätsgrenzen auf einer Einbahnstraße des Spielwissens befunden, während das Neuronale Netz durch ein vielfaches Ausprobieren von Spielvarianten tatsächlich mehr ‚Expertenwissen’ lernen konnte. 2. Abbildung 6 b) des Artikels kann man sehr gut entnehmen, dass die Simulation von tausenden möglichen, zukünftigen Spielverläufen eine erhebliche Rolle spielt. Ein Neuronales Netz, das direkt entscheiden muss, kommt ‚nur’ auf einen Elo (Ein Maß, das ursprünglich die Fähigkeiten von Schachspielern beschreibt, aber auch auf KI-Systeme angewandt wird; Anm. d. Red.) von circa 3000. Dass die Simulationsmöglichkeiten des Computers die Möglichkeiten eines Menschen übertreffen, ist nicht überraschend.“
Fachgebietsleiter Softwaretechnik und Theoretische Informatik / Maschinelles Lernen, Technische Universität Berlin
„Ich bin begeistert von der neuen Entwicklung AlphaZero, die das DeepMind-Team präsentiert. Es wird wie in einer Vorgängerarbeit vom letzten Jahr in Nature [a] gezeigt, dass eine Lernmaschine besser werden kann nur dadurch, dass sie gegen sich selbst spielt. Das Ganze geschieht in der aktuellen Publikation sogar ohne extensives Vorwissen oder Spezialwissen über die Spiele (Go, Schach und Shogi); trotzdem kannn AlphaZero konsistent gewinnen.“
„Besonders interessant und beeindruckend erscheint mir, dass nur ein Typus Reinforcement-Lernalgorithmus alle diese komplexen Strategiespiele im Selbstspiel hervorragend meistert. Dies ist ein wichtiger erster Schritt hin zu einer universellen strategischen Lernmaschine. Wichtig ist mir auch zu betonen, dass alle der untersuchten Spiele jedoch immer ein kontrolliertes Umfeld darstellen. Eine universelle strategische Lernmaschine jenseits des Spieleumfeldes wird sicher noch viele Jahre der intensiven Forschung brauchen, aber ein erster wichtiger Schritt ist gemacht.“
Wissenschaftlicher Direktor Agenten und Simulierte Realität, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI), Saarbrücken
„Die Leistung der neuen Version von AlphaGo ist sehr beeindruckend – vor allem, wenn man sieht, wie viel einfacher und schneller als bisher das Training von Verhalten erfolgen kann. Insbesondere zeigt dieser neue Ansatz, dass man mittels Künstlicher Intelligenz durch einfache Simulation einer Umgebung (hier des Spiels Go) und ohne spezielle Vorgaben schon sinnvolles Verhalten und neue Strategien erlernen kann.“
„Für solche Ergebnisse wird gerne der Begriff ‚superhuman’ benutzt, der aber hier (und nicht nur hier!) sehr problematisch ist: Zwar spielt dieses System besser Go als jeder Mensch, aber diese Fähigkeit ist nur ein minimaler Aspekt aller menschlichen Fähigkeiten. Die menschlichen Fähigkeiten sind offensichtlich dramatisch viel breiter, allgemeiner und flexibler als es jeder Computer auf absehbare Zeit sein wird.“
„Viel wichtiger ist aber doch die Tatsache, dass der wissenschaftliche Ansatz es uns Menschen wieder mal erlaubt hat, ein neues Werkzeug zu bauen und damit wertvolle Einsichten über unsere Welt – hier erst mal ‚nur’ das Spiel Go – zu gewinnen. Mit entsprechenden Simulationen von anderen Umgebungen sollte man auch sinnvolles Verhalten und gute Strategien für andere, wichtigere Anwendungsbereiche erlernen können.“
„So arbeiten wir am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) zum Beispiel an ähnlichen Ansätzen, um das Verhalten von Autonomen Fahrzeugen möglichst sicher zu machen. Die Simulation solcher realen Umgebungen ist allerdings ungleich aufwändiger und komplexer als bei einem Spiel wie Go. Vor allem müssen wir hier zuerst die ‚Spielregeln’ unserer Umwelt erlernen, um dann daraus ein sinnvolles Verhalten von Fahrzeugen in dieser Welt ableiten zu können.“
„Vielleicht können wir Menschen dann aus den Ergebnissen solcher Studien ja auch noch einiges für uns selbst lernen – nicht nur für das Go-Spielen.“
Alle: Keine Angaben erhalten.
Primärquelle
Silver D et al. (2018): A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science. DOI: 10.1126/science.aar6404.
Weiterführende Recherchequellen
Science Media Center Germany (2017): Künstliche Intelligenz – was ist der Kern der Revolution? Fact Sheet. Stand: 16.05.2018.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Homepage von Jürgen Schmidhuber (o. A.): 2011: First Superhuman Visual Pattern Recognition.
[a] Silver D et al. (2017): Mastering the game of Go without human knowledge. Nature. DOI: 10.1038/nature24270.
[b] Hassabis D et al. (2017): AlphaGo Zero: Learning from scratch.
Prof. Dr. Christian Bauckhage
Professor für Medieninformatik/Mustererkennung, Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme, Sankt Augustin
Prof. Dr. habil Marcus Liwicki
Leiter der MindGarage, Technische Universität Kaiserslautern, und Chair of the Machine Learning Group, Lulea University of Technology, Schweden
Prof. Dr. Klaus-Robert Müller
Fachgebietsleiter Softwaretechnik und Theoretische Informatik / Maschinelles Lernen, Technische Universität Berlin
Prof. Dr. Philipp Slusallek
Wissenschaftlicher Direktor Agenten und Simulierte Realität, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI), Saarbrücken