Zum Hauptinhalt springen
11.07.2019

Poker-KI Pluribus schlägt menschliche Profis im Texas Hold‘em mit sechs Spielern

Anlass

Eine Poker-KI namens Pluribus schneidet im No-Limit Texas Hold‘em Poker mit sechs Spielern besser ab als erfolgreiche menschliche Profispieler. Das behauptet eine Studie des Informatikprofessors Tuomas Sandholm und des bei Facebook angestellten Forschers Noam Brown. Die Studie wurde in Science veröffentlicht (siehe Primärquelle).

Das Besondere daran: Pluribus kann sich in einem Spiel mit insgesamt sechs Spielern behaupten. Die 2017 vorgestellten Poker-Programme Libratus (ebenfalls von Sandholm und Brown) [a] und DeepStack [b] konnten zwar erstmals menschliche Profispieler in Situationen mit asymmetrischer Information besiegen, das allerdings nur im Heads Up, dem eins gegen eins. In der Studie selbst wird dieser Fortschritt von Pluribus als Meilenstein in diesem Bereich der KI-Forschung bezeichnet.

Dazu lernte Pluribus ausschließlich durch Spiel gegen sich selbst. Neu ist auch, dass die KI beim Spielen im Vergleich zu Programmen wie Libratus, DeepStack, AlphaGo oder auch Deep Blue viel weniger CPU-Leistung benötigt. 

Übersicht

  • Prof. Dr. Marcus Liwicki, Chair of the Machine Learning Group, Luleå University of Technology, Schweden
  • Prof. Dr. Johannes Fürnkranz, Professor für Knowledge Engineering, Technische Universität Darmstadt
  • Prof. Dr.  Kristian Kersting, Leiter des Fachgebietes Maschinelles Lernen, Fachbereich Informatik und Centre for Cognitive Science, Technische Universität Darmstadt
  • Prof. Dr. Andreas Holzinger, Institut für Medizinische Informatik/Statistik, Medizinsche Universität Graz, Österreich, derzeit Gastprofessor für explainable AI an der University of Edmonton, Kanada

Statements

Prof. Dr. Marcus Liwicki

Chair of the Machine Learning Group, Luleå University of Technology, Schweden

„In dem Science Artikel ‚Superhuman AI for multiplayer poker‘ stellen die Autoren diverser Firmen in Pittsburgh und Facebook in New York ein neues Programm namens Pluribus vor, welches im ‚Texas Hold’em‘ Poker öfter gewinnt, als menschliche Profi-Spieler. In dem Artikel werden zwar keine bahnbrechenden neuen Forschungsmethoden vorgestellt, die Kombination existierender Methoden ist jedoch sehr gut und erzielt gute Ergebnisse. Das interessante hierbei ist, dass Pluribus zum Trainieren nur gegen sich selbst gespielt hatte und nicht mit menschlichen Spieldaten gefüttert wurde.“

Auf die Frage, inwiefern es sich um einen Meilenstein der KI-Forschung in diesem Bereich handelt, wie die Autoren sagen:
„In der Tat haben die Autoren hier ein System vorgestellt, was bessere Ergebnisse erzielt als andere Programme zuvor. Dass es sich jedoch um einen ‚anerkannten Meilenstein‘ (im Original: ‚a widely-recognized remaining main milestone‘) handelt, ist etwas hoch gegriffen. Der Durchbruch ist nur inkrementell, vom 2-Spieler Spiel vor einigen Jahren war es nur eine Frage der Zeit, bis Systeme auf mehrere Spieler erweitert werden.
Aktuelle Meilensteine in der KI sind eher in den Bereichen: governance, policy, politics, innate machinery, transparency, benefiting all.“

Auf die Frage nach der Methodik der Studie und ob die Leistung von Pluribus wirklich als ‚übermenschlich‘ zu bezeichnen ist:
„Technisch ist Pluribus eine sehr gute Ingenieursleistung, da viele verschiedene Komponenten sehr gut kombiniert wurden. Auch die Methode des Experiments und der Evaluation ist fair: Die menschlichen Spieler als auch das Programm bekamen die gleichen Informationen (Eindeutige ID jedes Spielers, jedoch keine Information, ob es sich um einen menschlichen Spieler oder ein Programm handelt); außerdem wurden genügend Spiele gespielt, um signifikante Ergebnisse zu erzielen. Es steht jedoch aus, das Experiment mit anderen Spielergruppen von einem unabhängigen Evaluationsteam zu bestätigen, um jeglichen Bias auszuschließen.“

„Generell wird der Begriff ‚übermenschlich‘ derzeit inflationär verwendet, vor allem bei Artikeln von Firmen oder marketing-orientierten Forschungsinstituten, die solche Artikel auch zum Branding verwenden möchten. In der wissenschaftlichen Praxis sollte man als Leser aufpassen, von solchen Begriffen nicht geblendet zu werden – und als Autor sollte man deren Verwendung lieber vermeiden. Viele Maschinen in unserer Umgebung sind übermenschlich: Der Taschenrechner rechnet besser, das Auto fährt schneller, das Flugzeug kann fliegen… und in manchen Spielen ist die KI besser. Interessant wird es, wenn die KI tatsächlich in bisher unbekannten und uneingeschränkten Situationen schneller lernt, rational bessere Entscheidungen zu fällen.“

Auf die Frage, inwiefern sich die Ergebnisse der Studie auf andere Anwendungsfelder übertragen lassen:
„Die Resultate aus diesem Artikel werden meines Erachtens keinen großen Einfluss auf andere Felder haben. Die zugrundeliegenden Methoden sind schon lange bekannt und werden teilweise schon bei anderen Feldern angewendet. Insbesondere beim Börsenhandel werden schon seit Jahrzehnten Algorithmen eingesetzt, die man auch als KI bezeichnen kann.“

Prof. Dr. Johannes Fürnkranz

Professor für Knowledge Engineering, Technische Universität Darmstadt

Auf die Frage, inwiefern es sich um einen Meilenstein der KI-Forschung in diesem Bereich handelt, wie die Autoren sagen:
„Der Gewinn eines Poker-Wettkampfs in einer No-Limit Mehr-Spieler Poker-Variante ist sicher ein Meilenstein in der KI-Forschung, jedoch meiner Einschätzung nach von der Wirkung her nicht ganz vergleichbar mit Resultaten wie TD-Gammon in Backgammon, Deep Blue in Schach, Watson in Jeopardy! oder AlphaGo für Go. Die Entwicklung von Poker-Programmen ist, getrieben durch die beiden auf diesem Gebiet führenden Gruppen an der Carnegie Mellon University um Tuomas Sandholm und an der Universität von Alberta um Michael Bowling, stetig vorangeschritten. Um die Jahrtausendwende hatte Jonathan Schaeffer mit seinem Team an der University of Alberta, der die weltstärkste KI für Dame entwickelt und das Spiel 2007 letztendlich vollständig gelöst hat, Poker in einem vielbeachteten Artikel als die neue Herausforderung in der KI ausgerufen. Zuerst hatte man in Heads-Up Limit Poker menschliche Performance erreicht und das Spiel dann vor einigen Jahren ebenfalls lösen können. Als nächstes fiel 2017 die Beschränkung, nur mit limitierten Geboten spielen zu können, und nunmehr auch die Einschränkung nur im Heads-Up (also in einem 2-Spieler Setting) mit menschlichen Experten mithalten zu können. Die zur Lösung angewandten Techniken haben sich sukzessive weiter entwickelt, die gleichen Methoden, mit denen man in einem 2-Player Setting optimal spielen kann, wurden nun auf 6 Spieler übertragen, wo sie zwar nicht mehr garantiert optimal, aber im Vergleich zu menschlichen Spielern noch ausreichend stark sind. Im Gegensatz zu, zum Beispiel Alpha Go, wo die Fachwelt dachte, dass es noch lange Zeit dauern würde, bis Go-Programme mit menschlichen Weltmeistern mithalten können werden, war dieser Erfolg nun schon abzusehen.“

Auf die Frage nach der Methodik der Studie und ob die Leistung von Pluribus wirklich als ‚übermenschlich‘ zu bezeichnen ist:
„Die Leistung ist ‚übermenschlich‘ im gleichen Sinne, wie sie das für alle anderen Spiel-Programme (und generell für die meisten erfolgreichen KI-Systeme) ist: Erfolgreiche Lösungsmethoden setzen auf die ‚übermenschlichen‘ Eigenschaften des Computers, eine große Zahl von Berechnungen durchführen zu können, sei es um zur Findung eines Zuges viele Varianten durchzuspielen (wie im Schach) oder aus einer großen Anzahl von Spielen gegen sich selbst Muster und Regelmäßigkeiten extrahieren zu können, die in AlphaGo – ebenfalls kombiniert mit einer Suche – zum Erfolg geführt haben. Die Vorgangsweise hier ist vielleicht am ehesten vergleichbar zu AlphaGo:
Es wird mit einer dummen, mehr oder weniger zufälligen Spielstrategie begonnen und diese durch eine große Anzahl von Spielen gegen sich selbst verbessert, in dem bei jedem Zug, den die Strategie gemacht hat, im Nachgang analysiert wird, ob dieser Zug (unter der Annahme, dass der Gegner der gleichen Strategie folgt) optimal war. Wenn man bessere Alternativen gehabt hätte, wird die Strategie dahingehend geändert, dass bei der nächsten Iteration diese Alternativen wahrscheinlicher werden. Aus einer großen Anzahl solcher Iterationen wird eine Art generischer Spieler gelernt, der im dynamischen Spiel noch verbessert wird, indem auch alternative (konservative und aggressivere) Strategien in Betracht gezogen werden. Letztendlich liegt also auch hier ein hoher Rechenaufwand zu Grunde (wenn auch vergleichsweise viel geringer als bei AlphaGo).“

„Die Leistung ist allerdings ‚untermenschlich‘ in dem Sinne, dass derartige Programme zwar das Spiel hervorragend spielen, man aus diesen Programmen nur wenige Erkenntnisse über das Spiel selbst ziehen kann oder über die menschliche Art, diese Spiele meistern zu können. Auch können diese Programme natürlich nur diese eine Aufgabe sehr gut.“

„Generell lässt sich künstliche Intelligenz nur sehr schwer mit menschlicher Intelligenz vergleichen, da sie immer auf einzelne Aufgaben beschränkt und in keinster Weise so umfassend wie menschliche Intelligenz ist.“

Auf die Frage, inwiefern sich die Ergebnisse der Studie auf andere Anwendungsfelder übertragen lassen:
„Ich denke, dass die KI im Allgemeinen und das maschinelle Lernen im Speziellen in Zukunft sehr vielfältige Einsatzmöglichkeiten finden werden. Die Erkenntnisse aus Pluribus werden dazu allerdings meiner Einschätzung nach recht wenig beitragen. Das zeigt nicht zuletzt auch die Erfahrung aus mit anderen Spielprogrammen wie Deep Blue oder AlphaGo, die zwar Meilensteine der KI-Geschichte sind, jedoch außerhalb der Spiel-Domäne wenig Impact hatten. IBM hat beispielsweise versucht, die enorme Popularität ihres Programms Watson, das die amerikanische Quiz-Show Jeopardy! gewinnen konnte, und damit für einen weiteren Meilenstein der KI-Geschichte gesorgt hat, direkt in ein kommerzielles Produkt im Bereich des medizinischen Expertenwissens fließen zu lassen, jedoch war dieses Vorhaben meiner Wahrnehmung nach bisher nur mäßig erfolgreich. Das soll jedoch die Wichtigkeit dieser Systeme keinesfalls reduzieren: Spiele sind seit jeher anerkannte Test-Domänen für die Künstliche Intelligenz und jeder Fortschritt auf diesem Gebiet ist von größtem Interesse für unsere Forschung, so auch der Erfolg von Pluribus.“

Prof. Dr. Kristian Kersting

Leiter des Fachgebietes Maschinelles Lernen, Fachbereich Informatik und Centre for Cognitive Science, Technische Universität Darmstadt

Auf die Frage, inwiefern es sich um einen Meilenstein der KI-Forschung in diesem Bereich handelt, wie die Autoren sagen:
„Einen No-Limit Poker-Wettkampf mit mehreren Spielern zu gewinnen, ist klar ein Meilenstein der KI-Forschung. Es gibt unzählige Spiele wie zum Beispiel Schach, die vermeintlich simpel erscheinen, da sie meist aus einfachem Spielmaterial und einer überschaubaren Menge an Spielregeln bestehen. Man merkt allerdings schnell, dass es doch deutlich schwieriger ist, diese Spiele zu meistern. Wer Schach spielen kann, muss also intelligent sein. Das haben auch die Gründungsväter der KI so gesehen. Der Traum, dass der Mensch eine Maschine konstruieren und bauen könnte, die auf irgendeine Art und Weise intelligentes Verhalten zeigt, ist alt. Allerdings ist die Frage immer die gleiche: Was ist die Messlatte für Intelligenz, ob nun menschliche oder maschinelle Intelligenz? Eine der Antworten: Spiele wie Schach und eben auch Poker. Anfangs wurden ‚einfachere‘ Poker-Varianten betrachtet und auch gelöst. Jetzt sehen wir durch Pluribus, dass sich Maschinen auch beibringen können, eine No-Limit Mehr-Spieler Poker-Variante auf Weltmeister-Niveau zu spielen. Das ist ein Meilenstein der KI-Forschung.“

Auf die Frage nach der Methodik der Studie und ob die Leistung von Pluribus wirklich als ‚übermenschlich‘ zu bezeichnen ist:
„Die reine Spielleistung könnte man vielleicht als ‚übermenschlich‘ bezeichnen. Ich würde das aber nicht tun. Es macht es zu einfach, Menschen auf eine Inselbegabung wie das Spielen von Poker zu reduzieren. Menschen können so viel mehr. Bleiben wir mal beim Poker. Sollte Pluribus überhaupt die menschlichen Eigenschaften von Pokerspielern haben? Sollte Pluribus fluchen, wenn ein anderer Spieler überraschend all-in geht, und den Zug als unlogisch beschimpfen, wenn der Gegner gewinnt? Und kann uns Pluribus überhaupt das Pokerspielen selbst beibringen? Menschen können das. Es ist auch nicht klar, ob uns Pluribus hilft, besser zu verstehen, wie Menschen Poker meistern. Daher finde ich den Begriff ‚übermenschlich‘ und den damit gezogenen Vergleich mit Menschen falsch und sogar gefährlich, da er Erwartungen weckt, die nicht erfüllt sind. Wir sollten einfach begeistert sein, dass Maschinen jetzt eine No-Limit Mehr-Spieler Poker-Variante gemeistert haben. Das ist eine herausragende Leistung der Maschine und der Kollegen. Die Ergebnisse sind auch noch nicht von unabhängigen Dritten reproduziert, geprüft und validiert worden.“

Auf die Frage, inwiefern sich die Ergebnisse der Studie auf andere Anwendungsfelder übertragen lassen:
„Das ist die große Frage. Auch bei anderen Meilensteinen der Künstlichen Intelligenz – Deep Blue (Schach), Watson (Jeopardy), AlphaZero (Go, Shogi, Schach), Project Debater (Debatten) – war die Hoffnung, jetzt große Probleme der Menschheit zu lösen. Der tatsächliche Transfer gestaltete sich dann oft schwieriger. So ist das bei Künstlicher Intelligenz. Sie baut eben (noch) nicht einen einzelnen KI-Motor, sondern liefert die Blaupausen für viele KI-Motoren – Algorithmen und Computerprogramme –, die je nach Anwendung angepasst werden müssen. Diese Anpassungen sind oft eigene KI-Forschungsprojekte. Ein Mensch, der sehr gut Poker spielen kann, ist ja auch nicht gleich ein Börsengenie. Aber der Erfolg von Pluribus zeigt, was möglich ist. Er sollte und wird als Inspiration dienen, viele spannende Fragen anzugehen, zum Beispiel das Zusammenspiel von neuen Medikamenten mit tausenden möglicher Nebenwirkungen, Vermeidung illegaler Fischerei, Überwachung von Meeresverschmutzungen und der Kartierung sensibler Ökosysteme, intelligente Stromversorgung, verbesserte Aussagen über den Klimawandel, und vieles mehr.“

Prof. Dr. Andreas Holzinger

Institut für Medizinische Informatik/Statistik, Medizinsche Universität Graz, Österreich, derzeit Gastprofessor für explainable AI an der University of Edmonton, Kanada

Auf die Frage, inwiefern es sich um einen Meilenstein der KI-Forschung in diesem Bereich handelt, wie die Autoren sagen:
„Solche Erfolge werden oft als Meilensteine der KI angesehen und zweifellos ist diese Arbeit ein ganz großer Erfolg. Vor allem, was die benötigte Rechenleistung und Rechenzeit betrifft, ist es eindrucksvoll. Jedoch ist der Erfolg wieder in einer sehr eng begrenzten Spezialaufgabe und auf Seite eins steht wörtlich: ‚Pluribus plays a fixed strategy that does not adapt to the observed tendencies of the opponents‘.“

Auf die Frage nach der Methodik der Studie und ob die Leistung von Pluribus wirklich als ‚übermenschlich‘ zu bezeichnen ist:
„Die Arbeit ist solide und die Leistungen sind technisch sehr beeindruckend – vor allem, was die Rechenleistung und die Rechenzeit betrifft. Aber es bringt wieder die Frage auf, ob ‚Künstliche Intelligenz‘ tatsächlich mit menschlicher Intelligenz überhaupt vergleichbar ist oder sein kann und ob es gut ist, überhaupt von ‚superhuman‘ zu sprechen. Menschliche Intelligenz hat vielfältige Qualitäten – eben nicht nur in einer eng begrenzten Aufgabenstellung.“

Auf die Frage, inwiefern sich die Ergebnisse der Studie auf andere Anwendungsfelder übertragen lassen:
„Solche Erfolge werden stets in sehr spezifischen Aufgabenstellungen erreicht. In den letzten zwei Jahrzehnten wurden sehr viele beeindruckende Erfolge erzielt, um nur drei zu nennen: 1) IBM Deep Blue besiegte 1997 den Schachweltmeister Garry Kasparov, 2) den Erfolg von IBM Watson im Jahr 2011 gegen die Jeopardy-Spieler Brad Rutter und Ken Jennings oder 3) die Sensation von DeepMind's AlphaGo gegen Go Meister Fan Hui im Jahr 2015 und Lee Sedol im Jahr 2016. Auch wenn das alles generell zu den Erfolgen und vor allem der Popularität der KI beiträgt, lassen sich diese sehr spezifischen Szenarien nicht so leicht in andere Anwendungsgebiete übertragen – was übrigens als transfer learning ein Gegenstand der Forschung ist. Vor allem ist zum Beispiel in der Medizin (das ist meine Anwendungsdomäne) ein riesengroßes Thema die Kausalität und damit eine ‚erklärbare künstliche Intelligenz‘, die es einem Menschen nach Bedarf erlaubt nachzuvollziehen und zu verstehen wie maschinelle Entscheidungen getroffen wurden. Dieses Thema ist sehr eng mit ethischen Maßstäben verbunden.“

Angaben zu möglichen Interessenkonflikten

Alle: Keine angegeben.

Primärquelle

Sandholm T et al. (2019): Superhuman AI for multiplayer poker. Science. DOI: 10.1126/science.aay2400. 

Literaturstellen, die von den Experten zitiert wurden

[a] Sandholm T et al. (2017): Libratus: The Superhuman AI for No-Limit Poker (Demonstration). IJCAI 2017. 

[b] Moravčík M et al. (2017): Deep Stack: Expert-level artificial intelligence in heads-up no limit poker. Science. DOI: 10.1126/science.aam6960. 

Weitere Recherchequellen

Science Media Center Germany (2017): Künstliche Intelligenz entwickelt siegreiche Pokerstrategie. Research in Context zu den Poker-KIs Libratus und DeepStack. Stand: 02.03.2017.