KI ist im Computerspiel StarCraft II besser als 99,8 Prozent der Spieler
Eine von DeepMind entwickelte Künstliche Intelligenz (KI) namens AlphaStar schlägt sich im Computerspiel StarCraft II besser als 99,8 Prozent der aktiven menschlichen Spieler. Die Autoren merken an, dass die angewandten Methoden theoretisch auch auf andere komplexe Bereiche anwendbar seien. Das geht aus einer Studie hervor, die im Journal „Nature“ erschienen ist (siehe Primärquelle).
Chair of the Machine Learning Group, Luleå University of Technology, Schweden
„In dem Nature Artikel ‚Grandmaster level in StarCraft II using multi-agent reinforcement learning‘ stellen Autoren von DeepMind und aus den Niederlanden Ergebnisse eines Experiments vor, in dem eine Reinforcement-Learning basierte KI im online Real-Time Strategiespiel StarCraft II sehr gute Ergebnisse erzielt: in 30 bis 60 bewerteten Spielen ein Rating von ungefähr 6, was einem Top Spieler entspricht (Top 1.5 Prozent der bewerteten Spieler).“
„Das Experiment ist generell sehr interessant und zeigt auf, dass maschinelles Lernen sinnvolle Züge lernen kann. Es ist jedoch zu beachten, dass es nicht die erste KI ist, die gegen Menschen gewinnt. Das interessante hier ist, dass die KI ‚selbst gelernt hat‘, gut zu spielen. Es ist jedoch zweifelhaft, ob die gegebenen Limits wirklich ‚fair‘ sind. Die Klickrate ist bei etwa 270 pro Minute. Das entspricht zwar einem Wert, den auch Profispieler erreichen, jedoch sind die meisten der Klicks Leerklicks, um aktiv zu bleiben. Es ist schwer vorstellbar, dass Menschen über die ganze Länge mehrerer Spiele ununterbrochen pro Sekunde mindestens vier sinnvolle Aktionen durchführen.“
„Wie bei bisherigen Artikeln müssen wir bedenken, dass es sich immer noch um einen inkrementellen Schritt handelt – wir sind immer noch in einer tausend Male wiederholbaren kontrollierten simulierten Umgebung. Es wird noch lange dauern, bis KI in realen Umgebungen mit unvorhersehbaren Wendungen intelligent reagiert.“
„Wie auch letztes Mal geschrieben (bei der Research in Context ‚Poker-KI Pluribus schlägt menschliche Profis im Texas Hold‘em mit sechs Spielern‘; Anm. d. Red.): Generell wird der Begriff ‚übermenschlich‘ derzeit inflationär verwendet, vor allem bei Artikeln von Firmen oder marketing-orientierten Forschungsinstituten, die solche Artikel auch zum Branding verwenden möchten. In der wissenschaftlichen Praxis sollte man als Leser aufpassen, von solchen Begriffen nicht geblendet zu werden – und als Autor sollte man deren Verwendung lieber vermeiden. Viele Maschinen in unserer Umgebung sind übermenschlich: Der Taschenrechner rechnet besser, das Auto fährt schneller, das Flugzeug kann fliegen… und in manchen Spielen ist die KI besser. Interessant wird es, wenn die KI tatsächlich in bisher unbekannten und uneingeschränkten Situationen schneller lernt, rational bessere Entscheidungen zu fällen.“
Auf die Frage, inwiefern es überraschend ist, dass die Autoren mit Reinforcement Learning viel bessere Ergebnisse erzielen, als mit Supervised Learning:
„Das ist nicht überraschend. Im Grunde ist Reinforcement Learning auch eine Art Supervised Learning. In meinen ersten Kursen zu AI (Anfang der 2000er Jahre) wurde es noch als Supervised Learning mit sehr wenig Supervision (am Ende des Spieles) angesehen. Wenn die KI supervised (vom Menschen) lernt, ahmt sie menschliche Spieler nach; mit Reinforcement Learning kann sie sich davon lösen und gegebenenfalls neue Strategien entwickeln. Es ist zu beachten (Abschnitt: Infrastructure) (Seite 9 der Studie; Anm. d. Red.), dass mehrere lernende Agenten parallel eine Strategie entwickeln (jeweils 16.000 Spiele) und am Ende nur die besten Strategien überleben. Es ist unmöglich, dass menschliche Spieler aus so vielen Spielen lernen können.“
Auf die Frage, ob man mit Reinforcement Learning gelernte Modelle mit vergleichsweise geringem Rechenaufwand auf andere Probleme übertragen kann:
„Nein. Diese Spiele dienen vor allem dem Erkenntnis-Gewinn. Eine Übertragung gelernter Modelle auf völlig andere Probleme ist eher schwierig realisierbar, da die Ein- und Ausgaben sehr unterschiedlich sind (bei Bild oder Sprachverarbeitung bleibt die Eingabe ein Bild oder ein gesprochener/geschriebener Text). Andererseits kann man sich vorstellen, dass, sobald die Erkenntnisse und besten Architekturen gelernt wurden, man die generellen Ideen mit viel weniger Rechenaufwand auf andere Probleme übertragen kann. Auch können trainierte Modelle sehr energieeffizient auf Hardware realisiert werden.“
Professor Intelligente Autonome Systeme, Technische Universität Darmstadt
„Spitzenspieler bei dem Computerspiel StarCraft II zu schlagen, ist eine sehr beeindruckende Leistung. Dieses Spiel hat einen sehr hohen dimensionalen Aktionsraum – viel höher als die Atari-Spiele, unter Umständen sogar als die maximalen 19*19 Aktionen von Go. Leider wurden die manuell entwickelten Vereinfachungen (noch?) nicht veröffentlicht – daher kann man die Leistung relativ zu Go noch nicht bewerten.“
„Aber die größte Herausforderung bei dem Computerspiel StarCraft II ist die partielle Beobachtbarkeit des Problems. Solche sogenannten POMDP (partially observable Markov decision processes: Entscheidungsprozesse, bei denen den Akteuren nicht alle Informationen zur Verfügung stehen; Anm. d. Red.) gehören zu den schwersten Problemen der KI. Man muss aktiv Informationen über Gegner und Karte sammeln, was wiederum mit Kosten verbunden ist. Dieses Problem wurde nicht angegangen. Es gewann die meisten seiner Spiele mit übermenschlicher Reaktionszeit und Kontrolle – das menschliche sensormotorische System ist weder so schnell noch so genau wie ein Computer. Das System zeigte hingegen keine Anzeichen von ‚Intelligenz‘. Die Gesamtstrategie der KI scheint vorausgeplant zu sein, mit wenig Anpassung an den Gegner. Ein Spitzenspieler bemerkte im letzten Spiel, das er gegen die KI spielte, dass die KI nicht ‚scouted‘, das heißt Einheiten schickte, um Informationen über den Gegner zu sammeln. Der Spitzenspieler nutzte dies aus, indem er die Armee im toten Winkel aufbaute, und die KI verlor auf dumme Weise und machte Fehler, die selbst Zwischenspieler nicht machen würden.“
„Leider wird über die Methodik selbst nur viel zu wenig veröffentlicht. Sicher lässt sich nur sagen, dass die LSTM Netze (Long short-term memory, eine Technik aus dem Bereich der KI, die durch den Einsatz von neuronalen Netzen eine Art längeres Kurzzeitgedächtnis schafft, das die Effizienz von neuronalen Netzen steigern kann; Anm. d. Red.) verwendet wurden, um eine für POMDP nötige interne Zustandsrepräsentation zu ermöglichen, und dass ein Mix an bestehenden Reinforcement Learning Algorithmen verwendet wurde. Es ist daher meiner Meinung nach viel zu früh, um zu behaupten, dass StarCraft gelöst ist. Mehr kann man erst sagen, wenn DeepMind seine KI veröffentlicht hat und die Community sie analysieren durfte.“
Leiter des Fachgebiets Maschinelles Lernen, Fachbereich Informatik und Centre for Cognitive Science, Technische Universität Darmstadt
„Es ist faszinierend, dass ein KI-System ein so komplexes Echtzeit-Strategiespiel wie StarCraft II auf einem so hohen Niveau spielen kann. In einem Echtzeit-Strategiespiel führen alle Spieler ihre Aktionen interaktiv, simultan und in Echtzeit aus. Sie müssen zu jeder Zeit die aktuelle Situation und Handlungsalternativen bewerten und sich für die richtigen Handlungen entscheiden. Das ist nicht einfach für eine Maschine – für ein KI-System. Daher waren und sind Echtzeit-Strategiespiele ein beliebtes Testbett der KI-Forschung. AlphaStar folgt dieser Tradition, hebt es aber auf ein neues Niveau. Wie schon AlphaGo, AlphaZero, CrazyAra und viele andere Systeme zeigt AlphaStar, dass hybride KI-Systeme – Systeme, die verschiedene KI-Techniken wie beispielsweise symbolische Suche, verstärkendes Lernen und tiefes Lernen in einem einzelnen System verbinden – Inselbegabungen sehr gut erlernen können. Die Studie zu AlphaStar ist methodisch sehr gut aufgebaut und durchgeführt. Sie zeigt, dass hybride KI-Systeme komplexe Echtzeit-Strategiespiele meistern können. Vielleicht nicht alle, aber zumindest StarCraft II.“
„Der Traum, dass der Mensch Maschinen konstruiert, die auf irgendeine Art und Weise intelligentes Verhalten zeigen, ist nicht neu und definiert das Ziel der KI-Forschung. Allerdings ist die Frage immer die gleiche: Was ist die Messlatte für Intelligenz, ob nun menschliche oder maschinelle Intelligenz? Eine der Antworten: Spiele wie Schach und eben auch StarCraft II. Anfangs wurden ‚einfachere‘ Spiele betrachtet und auch gelöst. Jetzt sehen wir durch AlphaStar, dass sich Maschinen auch beibringen können, ein komplexes Echtzeit-Strategiespiel auf hohem Niveau zu spielen. Das ist ein Meilenstein der KI-Forschung. Der Einsatz von Reinforcement Learning ist dabei nicht überraschend. Das ist eine übliche Herangehensweise. Was spannend bei AlphaStar ist: Es zeigt das Potenzial von hybriden KI-Systemen. Allerdings bleibt noch sehr viel zu tun. Zukünftige KI-Systeme werden sich auf neue Situationen einstellen können. Sie lernen, denken, sehen und planen und verwenden natürliche Sprache. Sie verstehen uns und passen sich an uns und unsere Probleme an. Sie werden zu Partnern der Menschen. Das ist die ‚dritte Welle‘ (third wave) der Künstlichen Intelligenz – nach der ersten Welle der KI, der Programmierung aller Eventualitäten (1980) und der aktuellen Welle, dem Maschinellen Lernen (2010). AlphaStar macht hierfür Mut. Es wird die Kreativität der KI-ForscherInnen und -EntwicklerInnen befeuern. Verständnis, das uns Menschen kommuniziert werden kann, fehlt AlphaStar noch. Hier ist der Mensch der Maschine klar überlegen. Auch zeigt sich immer wieder, dass KI-Systeme aus dem Labor in die echte Welt zu führen schwieriger ist, als man denkt. Aber ja, AlphaStar ist ein wichtiger Schritt, der erste Schritt eines Marathons, der vor uns liegt.“
Auf die Frage, inwiefern es überraschend ist, dass die Autoren mit Reinforcement Learning viel bessere Ergebnisse erzielen, als mit Supervised Learning:
„Es ist nicht überraschend. Reinforcement Learning, also verstärkendes Lernen, ist ein klassisches Themengebiet der KI-Forschung. Würden wir Supervised Learning (überwachtes Lernen) StarCraft II benutzen, bräuchten wir einen Lehrer, der jeden unserer Aktionen in StarCraft II zu jeder Zeit bewertet: Die Aktion war gut, die war schlecht. So würden wir zu Hause ja auch nicht lernen, StarCraft II zu spielen. Stattdessen spielen wir das Spiel ohne Lehrmeisterin. Wenn wir am Ende gewonnen oder verloren haben, ist das für uns eine Belohnung, die positiv oder negativ sein kann. Wir wissen aber nicht, welche der vielen Aktionen zu Erfolg geführt haben und welche nicht. Dieses Dilemma löst das Reinforcement Learning. Es lernt mit der Zeit, welche Aktionen wann zum Erfolg führen – also die gesamte Belohnung maximieren. Das hat man auch schon für andere Spiele benutzt wie Backgammon und Schach. AlphaStar zeigt jetzt, dass man damit auch lernen kann, StarCraft II auf sehr hohem Niveau zu spielen.“
Auf die Frage nach den hohen Energiekosten, die für das Trainieren solcher Modelle anfallen, und ob man mit Reinforcement Learning gelernte Modelle mit vergleichsweise geringem Rechenaufwand auf andere Probleme übertragen kann:
„Ja, leider ist das Trainieren einiger aber nicht aller tiefen Modelle energieintensiv. Daher arbeiten viele Forschungsgruppen daran, tiefes Lernen weniger energiehungrig zu gestalten. Andere Hardware, neue Modelle und Lernverfahren. All das wird untersucht. Wenn wir ein mit Reinforcement Learning gelerntes Modell haben, dann kann man tatsächlich auch versuchen, das mit vergleichsweise geringem Rechenaufwand auf andere Probleme zu übertragen. Das nennt man Transfer Learning und ist auch beim Reinforcement Learning bekannt. Allerdings ist es nicht ganz so einfach wie bei der Bilderkennung. Bildlich gesprochen müssen wir einerseits die Welt in StarCraft II explorieren (Situationen, Orte und Aktionen), andererseits müssen wir bereits gesammelte Erfahrungen aus vergangenen Situationen nutzen. Das ist wie bei uns Menschen. Um zu wissen, dass Pasta wirklich unser Lieblingsgericht ist, müssten wir eigentlich alle Gerichte der Welt ausprobieren. Das kann man aber nicht schaffen. Herangehensweisen, die nur auf Exploration oder Exploitation beruhen, führen zu oft suboptimalen Lösungen. Daher ist ein Transfer etwas schwieriger aber sehr wohl möglich. Und im Zweifelsfalle auch energiegünstiger.“
Alle: Keine Angaben erhalten.
Primärquelle
Vinyals O et al. (2019): Gandmaster level in StarCraft II using multi-agent reinrforcement learning. Nature. DOI: 10.1038/s41586-019-1724-z.
Prof. Dr. Marcus Liwicki
Chair of the Machine Learning Group, Luleå University of Technology, Schweden
Prof., Ph.D. Jan Peters
Professor Intelligente Autonome Systeme, Technische Universität Darmstadt
Prof. Dr. Kristian Kersting
Leiter des Fachgebiets Maschinelles Lernen, Fachbereich Informatik und Centre for Cognitive Science, Technische Universität Darmstadt