Besiegt Google nach Go nun auch die Pokerwelt?
Das Go-Spiel musste gegen die künstliche Intelligenz schon einige Niederlagen hinnehmen. Folgt nun auch Poker? (Quelle: https://deepmind.com/alpha-go.html)
Schon im Jahr 1996 schlug die künstliche Intelligenz Deep Blue den Schachweltmeister Garry Kasparov und war damals erstmals besser als einer der besten menschlichen Schachspieler. Bis zum Jahr 2015 galt das chinesische Brettspiel Go als von Computern unschlagbar. Doch der Sieg des Google-Programmes AlphaGo zuerst gegen den amtierenden Europameister Fan Hui und dann gegen den südkoreanischen Großmeister Lee Seedol beendete die Unbesiegbarkeit des chinesischen Brettspiels. Kann nun Google auch die Poker-Welt erobern?
Das Spiel Go stammt aus China und wird von zwei Spielern auf einem 19×19-Brett gespielt. Es gehört zu den ältesten bekannten Strategiespielen der Welt und soll im 4. Jahrhundert vor Christus schon in China gespielt worden sein. Seit dem 20. Jahrhundert findet das Spiel auch weltweit immer mehr Fans. So sollen schon im Jahr 2000 weltweit rund 27 Millionen Menschen Go gespielt haben, wovon allein 22 Millionen in Asien lebten. Die International Go Federation bezifferte 2011 die Zahl der Go-Spieler weltweit auf rund 40 Millionen. Die britische Go Association gab 2013 die Zahl der weltweiten Spieler mit 60 Millionen an.
Google entwickelt Software mit dem Namen AlphaGo
Die Entwicklung go-spielender Computerprogramme erwies sich als erheblich schwieriger als beim Schach. Bis zum Jahr 2015 gab es keine Software, die es mit einem starken Amateur aufnehmen konnte. Das Spiel galt lange Zeit als unschlagbar für Computer. Zu komplex, zu viele mögliche Spielzustände, zu viele Variablen. Bis Google kam. Die Tochter von Google, DeepMind, die sich auf die Programmierung von künstlichen Intelligenzen spezialisiert hat, entwickelte eine Software mit dem Namen AlphaGo. Dieses Programm kann ausschließlich das Brettspiel Go spielen. Im Oktober 2015 konnte AlphaGo den mehrfachen Europameister Fan Hui besiegen. Es war damit das erste Programm, welches unter Turnierbedingungen einen professionellen Go-Spieler schlagen konnte.
Im März 2016 trat AlphaGo dann zum nächsten Wettkampf gegen den südkoreanischen Profi Lee Seedol an. Seedol galt von 2007 bis 2011 als stärkster Go-Spieler der Welt und hat mit dem 9. Dan den höchstmöglichen Dan-Ring beim Go inne. Seedol war zu dem Zeitpunkt des Matches gegen die Künstliche Intelligenz Weltranglisten-Vierter. Vor dem Spiel zeigte er sich siegessicher und erwartete, haushoch zu gewinnen. Die beiden sollten fünf Partien spielen. Die ersten drei gingen nach Aufgabe von Seedol an AlphaGo. Das vierte Spiel gewann Lee, das fünfte wieder AlphaGo.
AlphaGo hatte unkonventionell gespielt – Das Spiel wirkte „schwach und fehlerhaft“
Nach seiner Niederlage erklärte Seedol, er sei vom Spiel des Computers geschockt gewesen und habe sich nach den ersten beiden verlorenen Spielen stark unter Druck gefühlt. Für ihn sei das verlorene Spiel aber keine Niederlage für den Menschen gewesen. AlphaGo hatte den Profi mit einer unkonventionellen Spielweise überrascht, die auf den ersten Blick zunächst schwach und fehlerhaft aussah. Trotz seiner Niederlage würde Lee nach eigener Aussage ein zweites Mal gegen den Computer antreten.
Der Kern von Alpha-Go ist ein riesiges neuronales Netz, welches an tausenden bereits gespielten professionellen Go-Partien trainiert wurde. Der Bot verfeinerte seine Spielweise, indem er immer wieder gegen sich selbst spielte und erfolgreiche Strategien besser bewertete und häufiger spielte.
Auch beim Poker spielen Bots seit einigen Jahren eine große Rolle. Auch hier versuchen Wissenschaftler Programme zu schaffen, die dem Menschen überlegen sind. Die Entwickler stehen aber noch vor einigen Herausforderungen. Eine ist die Unberechenbarkeit des Menschen. Auch hat die künstliche Intelligenz beim Poker noch Probleme mit dem Erhöhen der Einsätze. Die Unberechenbarkeit des menschlichen Wettverhaltens macht der Software die Interpretation des Spiels schwer. Der Computer kann kaum vorhersehen, welche Auswirkungen die Karten auf der Hand eines Gegners auf das Spiel haben könnten. Somit könnten professionelle Pokerspieler leicht erkennen, wann das Computerprogramm mit einer schwachen Hand blufft.
Universität London stellt Poker-Algorithmus vor
Wissenschaftler des University College London (UCL) haben nun einen Algorithmus vorgestellt, mit denen künstliche Intelligenzen Texas Hold’em und einfaches Leduc Poker spielen können. Die künstliche Intelligenz kann sich das Spielen mit der Methode des „Sich selbst verstärkenden Lernens“ („Reinforcement Learning“) über fiktive Wettkämpfe selbst beibringen. Dazu braucht sie nicht mal Strategiekenntnisse. Die Software kann aus eigenen Fehlern Konsequenzen ziehen und unter Einbezug neuraler Netzwerke Wege finden, Spiele zu gewinnen. Das Modell könne das Nash Equilibrium für Leduc Poker simulieren. Ein Durchbruch für Texas Hold’em stehe auch kurz bevor.
Der Forschungsstudent des UCL, Johannes Heinrich und UCL-Dozent David Silver, der auch bei DeepMind arbeitet und Hauptprogrammierer von AlphaGo war, stellten den Algorithmus vor. Die einfache Poker-Variante Leduc, die nur mit einem Deck von sechs Karten gespielt wird, gilt von der künstlichen Intelligenz schon als gelöst. Nun soll auch bald Texas Hold’em gelöst werden.
Auch auf andere Alltagsprobleme strategischer Natur anwendbar
Im Interview mit dem Guardian sagte Heinrich:
„Der Schlüssel-Aspekt unseres Ergebnisses ist, dass der Algorithmus sehr allgemein gehalten ist. Er hat das Pokerspiel von Grund auf gelernt ohne jegliche Vorkenntnisse. Somit wäre es denkbar, dass diese Methode auch auf andere Alltagsprobleme strategischer Natur anwendbar wäre. (…) Spiele mit unvollständigen Informationen wie Go oder Poker, stellen das Reinforcement Learning vor eine große Herausforderung.“
Im vergangenen Jahr gab es schon einen Wettkampf zwischen einer Software und Pokerspielern. Die Carnegie Mellon Universität schickte ihren Poker-Bot „Claudico“ in einen Texas Hold’em Wettkampf gegen vier Poker-Profis. Gespielt wurden 80.000 Hände No-Limit Hold’em Heads-Up. Am Ende setzten sich die Menschen recht deutlich gegen Claudico durch und erspielten 7.327 Big Blinds. Informatikprofessor und Claudico-Entwickler Dr. Toumas Sandholm sprach am Ende aber trotzdem von einem statistischen Unentschieden. Grund hierfür war, dass die vier Poker-Profis 9,15 BB/100 Hände Gewinn gemacht hatten, aufgrund der hohen Varianz jedoch nur mit 92 Prozent Zuversicht von einem Sieg gesprochen werden konnte.