Künstliche Intelligenz entwickelt siegreiche Pokerstrategie

Anlass

„Künstliche Intelligenz“ kann derzeit vor allem für Probleme eingesetzt werden, bei denen sich Wege zur Lösung vorausberechnen lassen, in Spielsituationen zum Beispiel bei Schach oder Go. In Entscheidungssituationen, in denen große Unsicherheiten auftreten, die sich nicht berechnen lassen – wie etwa auch beim Pokerspiel – ging das bis jetzt nicht. Seit Anfang des Jahres haben nun gleich zwei Forschergruppen aus den USA, Kanada und Tschechien verschiedene Lösungswege programmiert und in Pokerturnieren eingesetzt. Die beiden Systeme „DeepStack“ aus Alberta und Prag sowie „Libratus“ der Carnegie Mellon University (und der Universität Alberta) haben dabei gegen menschliche Kartenspieler gesiegt, und damit in den Augen der Forscherteams den Nachweis geführt, dass Künstliche Intelligenz mit verschiedenen Ansätzen in Situationen „asymmetrischer Information“ (ein Spieler verfügt über mehr Informationen als ein anderer) zurechtkommen kann. Das könnte ein wesentlicher Schritt in der Entwicklung Künstlicher Intelligenz sein. „DeepStack“ wurde im Fachblatt „Science“ vorgestellt, „Libratus“ auf „arXiv“.

Statements

Prof. Dr. Christian Bauckhage

Professor für Medieninformatik / Musterekennung, Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme, Sankt Augustin

„Programme, die Poker spielen können sind natürlich nicht neu; Algorithmen, die klassische Methoden der bedingten Wahrscheinlichkeitsrechnung benutzen, existieren seit Jahrzehnten und funktionieren ganz gut.“

„Die völlig neuartige und bahnbrechende Leistung der DeepStack Software besteht aber darin, dass die dort verwendeten neuronalen Netze es so etwas wie ‚Intuition´ entwickelt haben. DeepStack kann somit z.B. überzeugend bluffen und ist in seiner Spielweise nicht mehr von Menschen zu unterscheiden. Man kann also sagen, dass DeepStack den Turing Test bestehen würde, wenn das, was getestet wird, die Fähigkeit ist, Poker zu spielen.“

„Von Situationen asymmetrischer Information sprechen wir dann, wenn nicht alle Beteiligten, das gleiche Wissen haben. Poker ist eine Situation mit asymmetrischer Information, denn jeder Spieler kennt nur die Karten auf dem Tisch und die in seiner Hand, die der anderen Spieler kann man höchstens erahnen. Spiele wie GO, das im vergangenen Jahr für Aufsehen sorgte, als ein Google DeepMind Programm den Weltmeister schlug, sind hingegen Spiele mit perfekter Information, denn alle Spieler sehen alles, was auf dem Spielbrett passiert.“

„Die Tatsache, dass es nun Programme gibt, die auch unter Bedingungen asymmetrischer Information vernünftige Entscheidungen treffen können, um z.B. gegen Poker Profis zu gewinnen, ist nicht zu unterschätzen. Dies ist ein weiterer Schritt nach vorne und eröffnet neue Anwendungsmöglichkeiten für Methoden der künstlichen Intelligenz.“

„Algorithmen, die in Situationen asymmetrischer Information sinnvolle Ergebnisse liefern, lassen sich in vielen Bereichen einsetzten, nicht nur im Poker. Denkbar sind Systeme, die strategische Planungen anstellen, etwa im Geschäftsleben. Genauso gut könnten solche Verfahren aber auch in der Medizin verwendet werden, wo Behandlungen oder Therapien selbst dann geplant werden müssen, wenn Daten oder Befunde unvollständig oder vorläufig sind.“

„Man sollte allerdings nicht vorschnell zu euphorisch sein, denn, um gut zu funktionieren, brauchen Systeme wie DeepStack sehr viele Trainingsdaten, die in der Praxis oft nicht vorhanden sind. DeepStack hat z.B. anhand von 10 Millionen automatisch generierten Pokerpartien gelernt, Poker zu spielen. Wenn wir davon ausgehen, dass eine Pokerpartie im echten Leben 5 Minuten dauert, bräuchte ein Mensch etwa 95 Jahre, um 10 Millionen Partien zu spielen. Das bedeutet aber im Umkehrschluss, dass das menschliche Gehirn selbst dann mit asymmetrischer Information umgehen kann, wenn es nur wenige Beispiele kennt. So gesehen lernen wir immer noch besser als unsere Maschinen.“

Prof. Dr. Klaus-Robert Müller

Fachgebietsleiter Softwaretechnik und Theoretische Informatik / Maschinelles Lernen, Technische Universität Berlin

„Global würde ich sagen: Eine außerordentlich faszinierende Arbeit mit beeindruckenden Ergebnissen in dem extrem komplexen Spiel Poker, in dem es vor allem menschelt. Durch den menschlichen Gegner, der bluffen kann oder auch ein wirklich gutes Blatt haben könnte, hat der maschinelle Lernalgorithmus keine perfekte Information wie sonst häufig in anderen Anwendungen sondern der Lernalgorithmus muss trotz fehlender Information entscheiden können um zu gewinnen.“

„DeepStack kombiniert zwei bekannte Methoden der Künstlichen Intelligenz - Counterfactual Regret Minimization (CFR) (besonderer Algorithmus der Künstlichen Intelligenz, Anm. d. Red.) und tiefe, neuronale Netze - auf neuartige Weise. Entscheidend für den Erfolg von tiefen, neuronalen Netzen ist, dass die Architektur des Netzes auf die vorliegende Problemstellung maßgeschneidert wird. Dies ist den Wissenschaftlern hier für Poker gelungen, so dass das neuronale Netz eine Intuition für gute Spielzüge entwickeln kann.“

„DeepStack bietet sich mit seiner Kombination aus CFR und einem tiefen Netz als Ansatzpunkt zur automatischen Entwicklung von Strategien bei asymmetrischen Informationen an. Durch eine Anpassung des neuronalen Netzes, ist die Lösung einer Vielzahl von Anwendungsfällen denkbar.“

„Mit den vorliegenden Algorithmen können Strategien für weitere Spiele mit unvollständiger Information entwickelt werden. Darüber hinaus ist eine Anwendung auf ökonomisch Problemstellungen, oder generelle Strategische Entscheidungsszenarien denkbar.“

Zu Publikation über Libratus [3]: „Kroer et al beschreiben einen neuartigen Algorithmus, der in ihren Experimenten effizienter als CFR ist. Wie sich das in einem realen Pokerspiel auswirkt, wurde nicht überprüft. “

Dr. Damian Borth

Direktor Deep Learning Competence Center, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI), Kaiserslautern

„Beim dem vorgestellten System Libratus [3] handelt es sich um einen wichtigen weiteren Schritt in der Entwicklung der Künstlichen Intelligenz. Obwohl Libratus kein Deep Learning System darstellt, sondern Methoden aus der Spieltheorie anwendet, hat es im Bereich des Reinforcement Learnings – also des selbstständigen Lernens von Computerprogrammen durch Belohnungen – einen beachtlichen Erfolg zu vermelden. Dies gründet sich in den besonderen Konditionen des Poker Spieles bei dem ein KI System keine vollständige Information über das Spiel erlangen kann. Hier muss das KI System mit einer ‚uncertainty´ über die noch herauszugebenen Karten bzw. Karten des Gegenspielers umgehen können. Beim Menschen würden wir von Intuition sprechen, bei einer KI von ausgerechneten Wahrscheinlichkeiten. Eine solche KI kann aufgrund des beschriebenen Szenarios sehr schön auf andere Anwendungsbereich übertragen werden wie zum Beispiel die Finanzwelt bei dem die Teilnehmer auch keine vollständige Information über das zugrundeliegende System haben.“

Angaben zu möglichen Interessenkonflikten

Alle: Keine Angaben erhalten.

Quellen

Primärquelle

[1] Moravičík M et al. (2017): Deep Stack: Expert-level artificial intelligence in heads-up no limit poker. Science. DOI: 10.1126/science.aam6960.

Weiterführende Recherchequellen

[2] Moravičík M et al. (2017): Deep Stack: Expert-level artificial intelligence in heads-up no limit poker. arXiv:1701.01724v2 [cs.AI] 10. Jan 2017

[3] Kroer C et al. (2017): Theoretical and Practical Advances on Smoothing for Extensive-Form Games. arXiv:1702.04849v1 [cs.GT] 16. Feb 2017

Prof. Dr. Christian Bauckhage

Professor für Medieninformatik / Musterekennung, Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme, Sankt Augustin

Mehr Informationen

Prof. Dr. Klaus-Robert Müller

Fachgebietsleiter Softwaretechnik und Theoretische Informatik / Maschinelles Lernen, Technische Universität Berlin

Mehr Informationen

Dr. Damian Borth

Direktor Deep Learning Competence Center, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI), Kaiserslautern

Mehr Informationen

Expert:innen

Literatur