Metaalgorytm stworzony w DeepMind wymyśla nowe algorytmy uczenia ze wzmocnieniem. Jak daleko badacze zajadą na LPG?

Uczenie ze wzmocnieniem (reinforcement learning) odpowiada za najbardziej efektowne przejawy działania sztucznej inteligencji. To jemu model AlphaGo zawdzięcza spektakularne zwycięstwo w go nad Lee Sedolem. To dzięki niemu OpenAI Five ogrywa zawodowych graczy w Dota 2, a AlphaStar nie daje dwunożnym ssakom szans w StarCrafcie II.

Koncepcja uczenia ze wzmocnieniem zasadza się na idei agenta. Agent jest w istocie modelem uczenia maszynowego, składającym się z wirtualnych neuronów i połączeń między nimi, zwanych parametrami.

Agent ma możliwość uczenia się, postrzegania i działania w jakimś wirtualnym środowisku (environment). Przykładem takiego środowiska jest trójwymiarowa gra wideo. Agent otrzymuje sygnały ze środowiska (np. sekwencję obrazów), w oparciu o które próbuje przewidzieć, jakie działanie będzie dla niego najbardziej korzystne.

Za swoje działania agent otrzymuje nagrodę (reward) – pozytywną, negatywną (czyli raczej karę) lub zerową. W przypadku gry wideo może to być np. punktacja. Na podstawie informacji o nagrodach algorytm zmienia parametry agenta (modelu). W ten sposób agent uczy się coraz lepiej przewidywać optymalne działania.

Zmiana parametrów modelu w oparciu o informację o nagrodzie odbywa się według jednej lub kilku reguł. Te reguły to efekt całych lat pracy ekspertów od uczenia maszynowego.

Mocną stroną zastosowania metaalgorytmu jest generalizacja: reguły stworzone przez niego sprawdzają się w wielu środowiskach

Badacze z DeepMind zadali sobie pytanie: a co by było, gdyby spróbować zautomatyzować proces tworzenia tych reguł? Odpowiedzią na to pytanie jest praca „Discovering Reinforcement Learning Algorithms” i opisany w niej metaalgorytm o nazwie LPG (Learned Policy Gradient).

„Nasza praca przedstawia nowe rozwiązanie oparte o metauczenie, które poprzez interakcje z wieloma środowiskami pozwala odkryć nowe reguły. Określają one zarówno, ‘co przewidywać?’, jak i ‘jak się na podstawie tego uczyć?’” – czytamy w pracy.

Metaalgorytm uczył się, wchodząc w interakcję z wieloma agentami działającymi w różnych, prostych środowiskach (zawierające kilkadziesiąt pól labirynty, w których dotarcie do niektórych pól gwarantowało pozytywną nagrodę, a do innych – negatywną). Na tej podstawie stworzył własne reguły zmiany parametrów agentów. Okazało się, że z im większą liczbą środowisk metaalgorytm miał do czynienia, tym skuteczniejsze reguły wymyślał i tym skuteczniej działali agenci będący pod jego wpływem.

Jeszcze ciekawiej zrobiło się, kiedy metaalgorytm wyuczony na opisanych powyżej prostych środowiskach-labiryntach rzucono na głęboką wodę i kazano mu określić reguły działania agentów próbujących swoich sił w grach na Atari, jak Tutankham czy Breakout. Okazało się, że trenowani pod okiem jednego metaalgorytmu LPG agenci zdołali osiągnąć „ponadludzką” biegłość w 14 różnych grach Atari.

Ta technologia może się okazać przełomem w szkoleniu algorytmów uczenia ze wzmocnieniem. Teraz, zamiast żmudnie opracowywać zestawy reguł uczenia na potrzeby konkretnych środowisk, eksperci od uczenia maszynowego mogą odwrócić ten proces: pokazać metaalgorytmowi zestaw różnorodnych środowisk i zlecić mu stworzenie reguł dla agentów.

Autorzy pracy przyznają, że agenci szkoleni pod okiem LPG ustępowali pod względem skuteczności niektórym zaawansowanym, stworzonym „ręcznie” modelom, ale mocną stroną zastosowania metaalgorytmu jest generalizacja, tzn. reguły stworzone przez niego sprawdzają się w wielu środowiskach. Eksperci DeepMind sugerują, że jeśli wyszkolić LPG na odpowiedniej liczbie różnorodnych środowisk, będzie możliwe stworzenie algorytmu uczenia ze wzmocnieniem ogólnego zastosowania, czyli takiego, który skutecznie działałby w wielu bardzo różnorodnych środowiskach.