Grając w pokera blefuje, jak nikt. Ma 64-rdzeniowy serwer i mniej niż 512 GB pamięci RAM. A jego trening kosztował tylko 150 dolarów. To Pluribus, automatyczny gracz, który wygrał z profesjonalistami
Procesorom Pluribusa osiągnięcie poziomu mistrzowskiego zajęło osiem dni. To nieporównywalnie krócej i taniej, niż w przypadku innych sztucznie inteligentnych graczy w Go, szachy czy StarCrafta.
Przed dwoma laty inny sztuczny pokerzysta Libratus ograł czterech profesjonalnych graczy. Każdego z osobna. Teraz ulepszony system Pluribus zasiadł przy sześcioosobowych stolikach.
Nadludzki poziom gry
W pokerze dla dwóch graczy, tak jak w szachach, boty mogą obecnie łatwo znaleźć długofalową strategię, prowadzącą do wygranej. Ogranie pięciu rywali i ich zakryte karty w niewiadomych kombinacjach to inna bajka – to większa liczba ukrytych zmiennych i informacji.
„Można śmiało powiedzieć, że jesteśmy na poziomie nadludzkim” – powiedział w wywiadzie dla zachodniej prasy Noam Brown, naukowiec z Facebook SI Research i współtwórca Pluribusa oraz doktorant Tuomasa Sandholma wynalazcy Libratusa. Systemami wspomagającymi grę w pokera interesuje się od kilkunastu lat.
Przy zielonym stole
Pluribus stworzony w kooperacji laboratorium SI Facebooka i naukowców z Uniwersytetu Carnegie Mellon w ciągu 12 dni rozegrał 10 tysięcy rozdań przeciwko 12 profesjonalnym graczom pokera przy sześcioosobowych, wirtualnych stołach.
Założono dwa scenariusze: Pluribus przeciwko pięciu ludzkim graczom lub pięć wersji SI przeciwko jednemu ludzkiemu graczowi. Pluribus zasiadł przy zielonym stole kilkanaście dni temu i ograł wszystkich w odmianie pokera zwanej Texas Hold’em.
Doskonale naśladował profesjonalistów. Zachowywał się przy tym nie jak maszyna. Pluribus blefuje, jak nikt, a przecież wcześniej było to wyłącznie ludzkie zachowanie. I ciężko go na tym złapać. Dzięki umiejętności wyczekiwania i blefów, maszyna tworzy kombinację nieprzewidywalności i śmiałych ruchów.
Gra Texas Hold’em to najpopularniejsza na świecie odmiana pokera. Podstawowe jej zasady są stosunkowo proste i można je opanować dość szybko, jednak osiągniecie w niej mistrzostwa może zająć długie lata.
Krótkoterminowe strategie gry
Podobnie jak Libratus, Pluribus nie używa algorytmów specyficznych dla pokera. Po prostu nauczył się zasad gry, a następnie grał przeciwko sobie, aby opracować własną strategię zwycięstwa. Algorytmy SI zostały zainfekowane, aby operacje w procesie wzmocnionego uczenia system przeprowadził biliony razy. Sam odkrył, że najlepiej jest opracować mieszaną strategię gry i być nieprzewidywalnym.
Jego przewaga polega na tym, że zakłada z góry tylko dwa lub trzy ruchy, planując krótkoterminowe strategie, które zmienia, co jest zupełnie zaskakujące i nieprzejrzyste dla ludzkich pokerzystów.
Na bakterie?
Aplikacja nie będzie udostępniona komercyjnie, ani używana do szkolenia pokerzystów. Brown wierzy, że zdolność bota do rejestrowania ukrytych informacji i typowania licznych możliwych wyników może znaleźć rzeczywiste zastosowanie dla dobra ludzkości. Ten typ sztucznej inteligencji mógłby wspomóc projektowanie leków na bakterie oporne na antybiotyki lub poprawiać bezpieczeństwo cybernetyczne.
Słownik wybranych pojęć pokerowych
All in – stawiasz całą swoją pulę żetonów
Blindy – kiedy obowiązkowo musisz postawić w ciemno
Big blind to dwukrotność małego blindy
Bet – pierwszy zakład wniesiony w trakcie licytacji
Call – sprawdzam
Check – przeczekanie kolejki w danym rozdaniu
Dealer – to osoba, która rozdaje karty, krupier
Floop – trzy karty wspólne w odmianie pokera Texas Hold’em
Fold – spasowanie kart
Kareta – Four of Kind, full – Full House, Flush – kolor. Jeśli wszyscy w grze posiadają co najwyżej „high card”, wówczas wygrywa gracz z najwyższą, która nazywa się kicker
Raise – podbicie stawki przeciwnika
Poker tells – zbiór zachowań, które mogą świadczyć o sile lub słabości posiadanego układu kart
Poker face – twarz bez żadnej ekspresji, nie pokazującą żadnych emocji