Künstliche Intelligenz lernt nur durch Spiele gegen sich selbst
AlphaGo Zero, eine neue Version der Go-spielenden Künstlichen Intelligenz aus Googles KI-Schmiede Deepmind, greift erstmals nicht auf menschliches Expertenwissen zurück. Das neue System startete nur mit den Spielregeln, dem Brett und den Steinen als Input. Beim sogenannten Reinforcement-Learning trainierte es, indem es gegen sich selbst spielte und dabei für gewonnene Spiele durch ein Punktesystem "belohnt" wurde. Dabei kommt es mit weniger Hardware aus und lernte in kürzerer Zeit besser zu spielen als seine Vorgänger. Die Entwickler präsentieren AlphaGo Zero im Fachblatt Nature (*Primärquelle) und einem beigefügten Blogeintrag (siehe weitere Recherchequellen [a]) und sprechen von „superhuman performance“ – also einer übermenschlichen Leistung. Die früheren Versionen hatten im Oktober 2015 den Europameister Fan Hui und im März 2016 den internationalen Champion Lee Sedol geschlagen.
Fachgebietsleiter Softwaretechnik und Theoretische Informatik / Maschinelles Lernen, Technische Universität Berlin
„Wieder einmal ist den Kollegen bei Deepmind ein echter und großartiger Coup gelungen, denn sie konnten zeigen, dass ein intelligentes Go-Programm, das gegen sich selbst spielt, lernt, noch besser zu werden als wenn es aus Spielen von Menschen lernt. Das klingt, als ob man Wissen aus dem Nichts schöpfen könnte, sozusagen ein Münchhausen Trick der Künstlichen Intelligenz.“
„Das Go-Spiel eignet sich besonders gut als Test, denn es ist sehr komplex und hat doch vergleichsweise einfache Regeln. Damit wäre meiner Meinung nach die Strategie übertragbar auf andere Spiele vergleichbarer Bauart.“
„Bereits AlphaGo hatte superhuman Performance, seine Zero-Variante ist noch einmal besser. Für mich bleibt nach wie vor die Frage nach dem Verständnis der von AlphaGo Zero verwandten Strategie. Eigentlich gibt es seit zwei Jahren Möglichkeiten, auch einige von uns selbst vorgeschlagen, dass solch komplexe maschinelle Lernmodelle wie AlphaGo Zero für den Menschen interpretierbar werden. Vielleicht können wir dann bald nicht nur durch KI-Systeme neue Erkenntnisse für die Wissenschaften erlangen, sondern uns auch an neuartigen Go-Strategien erfreuen.“
Wissenschaftlicher Direktor Agenten und Simulierte Realität, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI), Saarbrücken
„Die Leistung der neuen Version von AlphaGo ist sehr beeindruckend – vor allem, wenn man sieht, wie viel einfacher und schneller als bisher das Training von Verhalten erfolgen kann. Insbesondere zeigt dieser neue Ansatz, dass man mittels Künstlicher Intelligenz durch einfache Simulation einer Umgebung (hier des Spiels Go) und ohne spezielle Vorgaben schon sinnvolles Verhalten und neue Strategien erlernen kann.“
„Für solche Ergebnisse wird gerne der Begriff ‚superhuman’ benutzt, der aber hier (und nicht nur hier!) sehr problematisch ist: Zwar spielt dieses System besser Go als jeder Mensch, aber diese Fähigkeit ist nur ein minimaler Aspekt aller menschlichen Fähigkeiten. Die menschlichen Fähigkeiten sind offensichtlich dramatisch viel breiter, allgemeiner und flexibler als es jeder Computer auf absehbare Zeit sein wird.“
„Viel wichtiger ist aber doch die Tatsache, dass der wissenschaftliche Ansatz es uns Menschen wieder mal erlaubt hat, ein neues Werkzeug zu bauen und damit wertvolle Einsichten über unsere Welt – hier erst mal ‚nur’ das Spiel Go – zu gewinnen. Mit entsprechenden Simulationen von anderen Umgebungen sollte man auch sinnvolles Verhalten und gute Strategien für andere, wichtigere Anwendungsbereiche erlernen können.“
„So arbeiten wir am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) zum Beispiel an ähnlichen Ansätzen, um das Verhalten von Autonomen Fahrzeugen möglichst sicher zu machen. Die Simulation solcher realen Umgebungen ist allerdings ungleich aufwendiger und komplexer als bei einem Spiel wie Go. Vor allem müssen wir hier zuerst die ‚Spielregeln’ unserer Umwelt erlernen, um dann daraus ein sinnvolles Verhalten von Fahrzeugen in dieser Welt ableiten zu können.“
„Vielleicht können wir Menschen dann aus den Ergebnissen solcher Studien ja auch noch einiges für uns selbst lernen – nicht nur für das Go-Spielen.“
Leiter der MindGarage, Technische Universität Kaiserslautern
„In dem Nature-Papier beschreiben die Autoren von Google DeepMind eine neue Variante von AlphaGo, die – bis auf das übliche Regel- und Punktesystem – ohne Expertenwissen das Spiel Go meistert.“
„Die wesentlichen algorithmischen Fortschritte von AlphaGo Zero sind zum einen die Kombination von Policy- und Value-Network in eine Netzwerkarchitektur und zum anderen die Verwendung der Residual Connections (Residual Networks sind eine besonders leistungsstarke Form von neuronalen Netzen; Anm. d. Red.). Beide Fortschritte sind keine Neuerfindungen, machen AlphaGo jedoch besser. Durch diese algorithmischen Neuerungen gelingt es nun erstmals ohne Verwendung menschlichen Expertenwissens ein hohes Spielniveau zu erreichen. Es ist zu beachten, dass die Idee, neuronale Netze gegen sich selbst spielen zu lassen, nicht neu ist. AlphaGo Zero ist also prinzipiell eine Weiterentwicklung von AlphaGo, die noch viel mehr existierende Techniken miteinander kombiniert und somit erstmals ein hohes Spielniveau erreicht.“
„Die Leistungen des Programms sind durchaus auf andere Problemstellungen übertragbar, bei denen der Rahmen klar definiert und die Bewertung eindeutig messbar ist. Dabei spielt es keine Rolle, ob es sich um ein Spiel mit einem oder mehreren Spielern handelt oder um asymmetrische Probleme, bei denen das System nicht gegen sich selbst spielen kann. Es ist wichtig, dass das System Millionen von Tests durchführen kann und die Bewertung klar und eindeutig definierbar ist. Das ist in vielen praktischen Problemen jedoch nicht der Fall.“
„Der letzte Absatz im Blogbeitrag ist eher etwas kritisch zu betrachten, da nicht nachvollziehbar ist, welche Neuerungen in dem Nature-Artikel tatsächlich Probleme, wie den steigenden Energieverbrauch lösen können – vor allem, wenn man beachtet, dass die Veröffentlichung selbst ja keine fundamentalen algorithmischen Neuerungen vorstellt, sondern hauptsächlich existierende Verfahren clever kombiniert.“
„Der Begriff ‚superhuman performance’ wird in letzter Zeit fast inflationär verwendet. Wann immer ein System bessere Resultate erzielt als menschliche Experten, wird er gerne als Aushängeschild benutzt, um einen höheren Impact zu erzielen. Bereits 2011 gab es ‚superhuman performance’ in der Mustererkennung [1] und inzwischen wird er bereits in tausenden von Computer Vision Papieren erwähnt – oft sogar im Titel.“
„Tatsächlich ist es so, dass AlphaGo Zero in der beschränkten Go-Welt besser spielt als alle seine AlphaGo -Vorgänger. Es ist auch zu erwarten, dass AlphaGo Zero gegen die besten menschlichen Experten gewinnt – was im Papier jedoch nicht verifiziert wird und eventuell eine Hypothese ist, die widerlegt werden könnte. Ich würde diesem Umstand jedoch keine so große Bedeutung beimessen, schließlich hat sich AlphaGo Zero sein eigenes Expertenwissen aus Millionen von Spielen selbst erarbeitet – eine Leistung, die ein einziger Mensch rein zeitlich nicht schaffen könnte. Ich würde es mit der Entwicklung der ersten Taschenrechner vergleichen, die vor über 50 Jahren die Menschheit mit ihren ‚superhuman’ Fähigkeiten beeindruckten und heute als ganz normal wirken.“
„Die im Blog verwendete Formulierung ‘The system starts off with a neural network that knows nothing about the game of Go’ ist de-facto falsch. Die Spielregeln sowie das Bewertungssystem sind dem Neuronalen Netz sehr wohl bekannt. Letzteres ist besonders wichtig zum Lernen der optimalen Spielzüge.“
„Im Gegensatz zu der prominent hervorgehobenen ‚superhuman performance’ würde ich vielmehr folgende zwei Gesichtspunkte besonderen Wert geben:1. In Abbildung 3 des Artikels sieht man, dass AlphaGo Zero menschliche Züge nicht gut vorhersehen kann, aber am Ende besser spielt als frühere Versionen, die menschliche Züge besser vorhersehen können. Menschliche Experten haben sich aufgrund natürlich gegebener Kapazitätsgrenzen auf einer Einbahnstraße des Spielwissens befunden, während das Neuronale Netz durch ein vielfaches Ausprobieren von Spielvarianten tatsächlich mehr ‚Expertenwissen’ lernen konnte. 2. Abbildung 6 b) des Artikels kann man sehr gut entnehmen, dass die Simulation von tausenden möglichen, zukünftigen Spielverläufen eine erhebliche Rolle spielt. Ein Neuronales Netz, das direkt entscheiden muss, kommt ‚nur’ auf einen Elo (Ein Maß, das ursprünglich die Fähigkeiten von Schachspielern beschreibt, aber auch auf KI-Systeme angewandt wird; Anm. d. Red.) von circa 3000. Dass die Simulationsmöglichkeiten des Computers die Möglichkeiten eines Menschen übertreffen, ist nicht überraschend.“
Professor am Institut für Informatik und Leiter des Lehrstuhls Digitale Bildverarbeitung, Friedrich-Schiller-Universität Jena
„Ich möchte ein paar Punkte vorneweg schicken:1. AlphaGo basiert auf Reinforcement Learning, ein Bereich des maschinellen Lernens, den ich kenne und auch selber in der Forschung einsetze. Ein Experte in diesem Bereich bin ich aber nicht, sodass ich sicherlich nicht alle Details der Verbesserung genügend einordnen kann. 2. Das Spiel Go und seine Regeln sind mir leider nicht so gut bekannt, dass ich alle Aspekte des verwendeten Domänenwissens gut bewerten könnte. Die Autoren schreiben aber schon sehr konkret, welches Domänenwissen sie ausnutzen. Meinem Eindruck nach kann das so auf zum Beispiel Schach nicht in allen Belangen angewandt werden.”
„Der Fortschritt von AlphaGo Zero liegt unter anderem in der Verwendung eines neuen Lernalgorithmus im Reinforcement Learning, das heißt der Auswahl des jeweils nächsten Zuges. Durch diese Erweiterung wird es möglich, die Spielstärke ausschließlich über gegen sich selbst gespielte Partien zu erreichen. Ein naives Vorgehen beim Spielen gegen sich selbst, das keinen geschickten Optimierungsalgorithmus verwendet, würde viel zu viele Partien zum Lernen benötigen und unter Umständen gar nicht lernen. Objektiv betrachtet schlägt AlphaGo Zero die Vorgängerversion und andere Systeme und ist somit ein Fortschritt. Das Ergebnis zeigt aber vor allem eines: Die Partien von Menschen, die vorher als Trainingsmaterial dienten, sind fehlerbehaftet, was nicht überaus überrascht und so auch von den Autoren zu Beginn des Artikels implizit beschrieben wird. Die neue Version, AlphaGo Zero, ‚eignet’ sich also diese Fehler nicht an. Über die Größe des Fortschritts kann ich aus oben genannten Gründen keine Aussage treffen.”
„Der neue Lernalgorithmus ist sicherlich nicht ausschließlich auf Go beschränkt. Die Stärke beziehungsweise der Beitrag entstehen aus dem Spielen gegen sich selbst, womit keine menschlichen Partien als Eingabe im Training benötigt werden. Ein Problem bei dem ein System nicht gegen sich selbst spielen kann, liegt daher nicht im Fokus dieser Erweiterung.”
„Ich denke, dass der Begriff ‚superhuman performance’ in Anspielung auf die Vorgängervarianten AlphaGo erfolgt, die menschliche Leistung erreicht hatte. Da die neue Version über der alten liegt, passt der Begriff ‚superhuman’ im wörtlichen Sinn. Übermenschlich ist an diesem System aber natürlich nichts und schon gar nicht darf ‚superhuman’ auf den Begriff Intelligenz bezogen werden. AlphaGo Zero spielt ‚nur’ außerordentlich gut Go und hat gegen einen Menschen ja noch nicht gewonnen.”
Professor für Medieninformatik/Mustererkennung, Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme, Sankt Augustin
„Rein technisch gesehen, ist das neue System gar nicht so innovativ. Was hier gemacht wurde ist einfach eine besonders clevere Fortentwicklung der Ideen aus dem letzten Jahr, das heißt eine elegante neue Kombination von neuronalen Netzen und Algorithmen zur sogenannten stochastischen Exploration möglicher Spielzüge. Das Besondere ist, dass das neue System auf diese Art und Weise keine Beispiele menschlicher Go-Spiele mehr brauchte, um gute Strategien zu lernen. Wenn man so möchte konnte es unvoreingenommen lernen, wie Go gespielt werden sollte.“
„Die einzige Voraussetzung für das neue DeepMind-System ist, dass die Spielregeln einprogrammiert sind. Das lässt sich natürlich auch für andere Spiele realisieren. Die Übertragbarkeit auf Szenarien außerhalb der Spielewelt wird dadurch natürlich schwieriger, denn in welcher Situation in der echten Welt kennen wir schon alle Regeln?“
Auf die Frage, inwiefern die Charakterisierung der Leistung von Alpha Go Zero als „superhuman performance" zutreffend ist: „Diese Charakterisierung erscheint tatsächlich angemessen. Denn schon das erste AlphaGo System war zuletzt so gut, dass Menschen keine Chance mehr hatten. AlphaGo Zero hat das originale AlphaGo nun in einem Turnier 100:0 geschlagen, menschliche Go-Großmeister könnten das sicher nicht.“
Alle: Keine Angaben erhalten.
Primärquelle
Silver D et al. (2017): Mastering the game of Go without human knowledge. Nature. DOI: 10.1038/nature24270.
Weiterführende Recherchequellen
[a] Hassabis D et al. (2017): AlphaGo Zero: Learning from scratch.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Homepage von Jürgen Schmidhuber (o. A.): 2011: First Superhuman Visual Pattern Recognition
Prof. Dr. Klaus-Robert Müller
Fachgebietsleiter Softwaretechnik und Theoretische Informatik / Maschinelles Lernen, Technische Universität Berlin
Prof. Dr. Philipp Slusallek
Wissenschaftlicher Direktor Agenten und Simulierte Realität, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI), Saarbrücken
Prof. Dr. Marcus Liwicki
Leiter der MindGarage, Technische Universität Kaiserslautern
Prof. Dr. Joachim Denzler
Professor am Institut für Informatik und Leiter des Lehrstuhls Digitale Bildverarbeitung, Friedrich-Schiller-Universität Jena
Prof. Dr. Christian Bauckhage
Professor für Medieninformatik/Mustererkennung, Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme, Sankt Augustin