Badacze z DeepMind stworzyli boty grające w Quake’a III. Szybko się okazało, że nawet profesjonalni gracze nie mają z nimi szans
Ostatnio coraz częściej słyszymy o sztucznej inteligencji, która świetnie radzi sobie na polu gier komputerowych. Boty pobiły profesjonalnych graczy między innymi w Dota II czy StarCraft II. Lista niedawno powiększyła się o kolejną pozycję.
Eksperci ze związanego z Google’em DeepMind, odpowiedzialni za wygraną SI w StarCrafta II, nie spoczywają na laurach. Ich nowy cel to Quake III: Arena – dynamiczna pierwszoosobowa strzelanka. A dokładniej – tryb capture the flag.
O co w tym chodzi? Dwie drużyny startują z baz na przeciwnych krańcach mapy. Ich zadaniem jest uprowadzenie flagi z bazy przeciwnika do własnej, a równocześnie chronienie własnej flagi. Oczywiście łatwiej tego dokonać, kiedy ustrzeli się przeciwnika, co skutkuje chwilowym wyłączeniem z rozgrywki. Drużyna, która w określonym czasie zdobędzie więcej punktów za przejęcie flagi, wygrywa.
We wcześniejszych całkiem udanych próbach opanowania gier wideo algorytmy często miały do dyspozycji sporo dodatkowych informacji – szczegółową mapę, informacje o lokalizacji sojuszników i przeciwników. Często też uczyły się, obserwując grę ludzi.
Tym razem nie było taryfy ulgowej. Sieci neuronowe były szkolone tylko na dwóch typach informacji: pikselach reprezentujących obraz widziany z perspektywy pierwszoosobowej oraz punktacji. Każdy bot działał samodzielnie i bez porozumienia z pozostałymi. Sam musiał opanować grę od zera, nauczyć się w niej poruszać, współpracować z kolegami z drużyny, postępować zgodnie ze strategią i… wygrywać.
Właśnie aspekt współpracy jest w przypadku rozwiązania DeepMind nowatorski. Wcześniej, na przykład w przypadku Dota 2, jedna sztuczna inteligencja kierowała wieloma postaciami w grze. W przypadku Quake’a III za każdego wirtualnego gracza odpowiadała osobna, samodzielna SI.
Choć czas reakcji i celność wirtualnych zawodników zostały sztucznie obniżone do „ludzkiego” poziomu, a żywi gracze mieli za sobą 12 godzin wspólnego treningu i mogli się ze sobą porozumiewać, ludziom udało się wygrać tylko w 25 procentach meczów
Zaprojektowane przez badaczy boty uczyły się, rozgrywając mecze ze sobą nawzajem. Dużo meczów. W sumie około 450 tysięcy. Oczywiście były to odpowiednio przyspieszone symulacje sieciowych rozgrywek. Twórcy zastosowali metodę reinforcement learning. To znaczy, że algorytmy uczyły się właściwie metodą prób i błędów, a system nagradzał je lub karał w zależności od wyników.
Żeby sprawdzić skuteczność treningu, w jego trakcie rozgrywano mecze, w których wirtualni gracze stawali przeciwko drużynom złożonych z ludzi. Po około 100 tysiącach rozegranych meczów algorytm był na poziomie przeciętnego gracza. W okolicach 180 tysięcy radził sobie już z mocnymi ludzkimi przeciwnikami. Wkrótce potem okazało się, że homo sapiens nie mają większych szans.
Boty nauczyły się stosować złożone i skuteczne strategie, jak eskorta sojusznika niosącego flagę, obrona własnej bazy czy camping, czyli czekanie w bazie przeciwnika, aż pojawi się tam flaga.
Po zakończeniu szkolenia przeprowadzono osobny turniej, w którym boty stanęły przeciwko profesjonalnym testerom gier. Nawet mimo tego, że czas reakcji i celność wirtualnych zawodników zostały sztucznie obniżone, do „ludzkiego” poziomu, a żywi gracze mieli za sobą 12 godzin wspólnego treningu i mogli się ze sobą porozumiewać, ludziom udało się wygrać tylko w 25 procentach meczów.
„Nasza praca łączy różne techniki, by trenować boty, które potrafią nie gorzej niż ludzie wykonywać zadania, wcześniej pozostające poza ich możliwościami. W odpowiednio bogatym, pełnym innych graczy środowisku boty zaczęły przejawiać złożone i zaskakująco inteligentne zachowania” – czytamy w podsumowaniu pracy opublikowanym na łamach czasopisma „Science”.