Przeciw entropii, czyli nowa SI – Sztuczna Inteligencja

Czytam tezy Fristona i mam przeczucie, że to są podstawowe prawa rządzące światem – mówi Wojciech Ozimek* w rozmowie z Moniką Redzisz

Monika Redzisz: Skoro wszechświat dąży do rozpadu, to dlaczego nie rozpadamy się na milion kawałków?

Wojciech Ozimek: Bo żyjemy. Wszechświat podlega entropii. Wszystko automatycznie przechodzi od stanu bardziej uporządkowanego stanu do mniej uporządkowanego, a z czasem się rozpada.

Z jednym wyjątkiem. Są nim organizmy żywe – od bakterii poczynając, a na społeczeństwach kończąc. Organizmy żywe z entropią walczą – skupiają się, porządkują. Taka jest definicja życia według Karla Fristona. To niesamowity ewenement, że istnieje jakiś kawałek wszechświata, który aktywnie opiera się entropii.

Skąd wywodzi się teoria Fristona? Z biologii, neurobiologii, psychologii?

Głównie z matematyki. Karl Friston jest najczęściej dziś cytowanym neurobiologiem na świecie. W 1990 roku wynalazł metodę mapowania mózgu – statystyczną technikę obliczeniową, która pomaga porównywać te same obszary w różnych mózgach. To właśnie ta technika pozwoliła na słynne badanie, które wykazało, że u londyńskich taksówkarzy tylna ściana hipokampu [części mózgu odpowiadającej za pamięć długotrwałą i przestrzenną – red.] jest większa niż u innych ludzi. Friston zastosował więc w neurobiologii matematykę.

Jego podstawowa idea to tzw. zasada wolnej energii, teoria matematyczna wynikająca z rachunku prawdopodobieństwa – kontynuacja wnioskowania bayesowskiego [jedna z metod wnioskowania statystycznego – red.]. Metoda ta przez wieki pozostawała w cieniu klasycznej statystyki, bazującej na obserwacji zdarzeń. Problem w tym, że taka statystyka nie potrafi odpowiedzieć na wiele pytań. Kiedy na niebie pojawiły się samoloty z bombami nuklearnymi na pokładzie, zadano sobie pytanie, jakie jest prawdopodobieństwo, że taki samolot spadnie, a bomba wybuchnie. Statystycy nie byli w stanie tego policzyć, ponieważ coś takiego nigdy się jeszcze nie wydarzyło. We wnioskowaniu bayesowskim mówimy inaczej: o ile zdarzy się X, sądzimy, że prawdopodobieństwo będzie Y.

Na jakiej podstawie?

Na podstawie naszej hipotezy. Tak zwanego priora – czegoś, co sobie zakładamy, czegoś, co wynika z obecnego stanu naszej wiedzy.

A więc takie wnioskowanie musi być bardzo niepewne.

Tak, ale z czasem staje się coraz pewniejsze, ponieważ rozkładamy zdarzenie na mniejsze elementy. Przykład: jakie jest średnie prawdopodobieństwo awarii samolotu? To jest punkt wyjścia, dopiero potem – skoro samoloty spadają z taką a taką częstotliwością – ustalamy, jakie jest prawdopodobieństwo, że spadnie akurat ten z bombą atomową. W polskim programie studiów to się nazywa prawdopodobieństwo warunkowe.

SI oparta o teorię Fristona jest jeszcze w planach. Nie ma gotowych elementów, by ją zbudować, tak jak w klasycznej SI

Podstawy tej teorii stworzył angielski matematyk Thomas Bayes w XVIII wieku. Przez wieki była krytykowana, dopóki nie okazało się, że, po pierwsze, w dzisiejszych czasach musimy jakoś radzić sobie z olbrzymią liczbą niewiadomych, a po drugie, że prawdopodobnie właśnie tak działa nasz mózg. Od tego wyszedł Karl Friston.

To jak działa mózg? Stawiając hipotezy a priori?

Tak. To uwarunkowane ewolucyjnie. Powiedzmy, że idziemy sobie przez dżunglę. Nagle słyszymy niepokojący szelest w gęstwinie. Musimy podjąć szybką decyzję, bo od tego może zależeć nasze życie. Jeśli w zaroślach czai się tygrys, to nie możemy sobie pozwolić na empiryczne sprawdzanie, przeszukiwanie krzaka po krzaku. Zakładamy, że to tygrys, i uciekamy. Albo zakładamy, że nie – i zostajemy. W tej sytuacji jeśli rzeczywiście to był tygrys, jest po nas. Ale jeśli tygrysa nie było, aktualizujemy swoją wiedzę o świecie.

Tak czy inaczej, żeby przeżyć, musimy działać szybko, na podstawie naprędce powziętej hipotezy. Z pierwszych, bardzo niepewnych założeń połączonych z doświadczeniem uzyskujemy coraz pewniejszą wiedzę. Wytwarza się ciąg przybliżeń. Na tym polega nauka: zakładamy coś, obserwujemy świat, aktualizujemy swoje wstępne założenie.

Więc najpierw oczekujemy czegoś od świata, a dopiero potem mówimy: „sprawdzam!”? Najpierw tworzymy teorię, a potem szukamy doświadczeń, które ją potwierdzają? To by wiele wyjaśniało… Ale co w tym kontekście oznacza zasada wolnej energii? Czym jest wolna energia?

Zasadę wolnej energii dobrze wyjaśnia pojęcie niespodzianki. Niespodzianka to różnica pomiędzy tym, co sobie wyobrażaliśmy, a tym, co dostaliśmy. Powiedzmy, że wybieram lody w kolorze różowym. Spodziewam się, że będą truskawkowe, jednak mój zmysł smaku podpowiada mi, że wcale nie są truskawkowe, tylko arbuzowe. Jestem zaskoczony, ale następnym razem będę już pamiętał, że nie wszystkie różowe lody muszą być truskawkowe. Uniknę przykrej niespodzianki.

Friston twierdzi, że wszystkie organizmy żywe unikają niespodzianek. Robią to na dwa sposoby: pozostając w strefie komfortu, jak byśmy dzisiaj powiedzieli, czyli unikając wszelkiego ryzyka – lub próbując sprawnie przewidywać to, co się może wydarzyć. Tę drugą strategię nazywa aktywną inferencją. Im bardziej zaawansowany ewolucyjnie organizm, tym sprawniej używa aktywnej inferencji, czyli przewidywania.

Friston uważa, że jego teoria wolnej energii odnosi się również do sztucznej inteligencji. W jaki sposób? Czy tak rozumiane działanie naszego mózgu może przełożyć się na inną zasadę działania sztucznych sieci neuronowych?

Tak. Algorytmy uczenia ze wzmocnieniem działają tak, że za dobry wynik dostają nagrodę. Na przykład uczymy naszego agenta grać w ping ponga. Paletki jeżdżą po ekranie, piłeczka się odbija. Na początku agent porusza się zupełnie chaotycznie, ale po kilku tysiącach zagrań uczy się, które są najlepsze. Wszystko polega na gigantycznej liczbie powtórzeń. Kiedy nieco zmienimy reguły gry, na przykład wielkość paletki, algorytm musi uczyć się od zera.

Natomiast kiedy nasz agent działa zgodnie z zasadą aktywnej inferencji, nagrodą dla niego jest bonus od minimalizacji niespodzianki – czyli jakaś wartość liczbowa, która określa, jaka jest różnica pomiędzy tym, czego się spodziewaliśmy, a tym, co się zdarzyło. Nagradzamy algorytm za to, że był w stanie przewidywać lepiej.

Jak to robi? Losowo?

Tak. Podobnie jak nasz mózg, tworzy modele świata i jest nagradzany o tyle, o ile uda mu się przewidzieć sytuację. Na początku uczy się wolniej, ale potem jest bardziej odporny na zmiany: kiedy coś w tym świecie zmienimy, nie musi uczyć się od nowa. To analogiczne do naszych doświadczeń. Świat, w którym żyjemy, cały czas się zmienia, a my musimy się w nim odnajdywać.

Ale też ku temu zmierzają wysiłki specjalistów od klasycznej SI. Na przykład zespół OpenAI trenował robotyczną rękę, która układała kostkę Rubika. Stosowali uczenie ze wzmocnieniem. Specjalnie wciąż utrudniali ręce zadanie, zmieniając różne parametry, by nauczyła się możliwie największej liczby możliwości i była przygotowana na wszelkie zmiany.

Tak, ale musieli sami zaprojektować wszystkie przeszkody. Co by było, gdyby zdarzyła się rzecz, której nie przewidzieli? Sztuczna inteligencja zbudowana według teorii Fristona nie będzie miała z tym problemu.

To realna wizja czy tylko postulat? Wiele zespołów chce uczynić sztuczną inteligencję bardziej inteligentną, ale i tak to wciąż metoda bazująca na ogromnej ilości danych, a nie na wnioskowaniu.

Ta wizja jest realna, powstają już modele oparte na teorii Fristona. Stosuje się je wszędzie tam, gdzie wnioskowanie bayesowskie, na przykład do poszukiwań rozbitków na morzu. Zmiennych jest tu tyle, że trudno sprawdzić wszystko po kolei, więc teren dzieli się na kwadraty. W oparciu o trasę rejsu, siłę wiatru, kierunek prądów morskich stawia się pewną hipotezę. Przeszukuje się konkretne obszary, co chwilę aktualizując pierwotną hipotezę w oparciu o napływające dane, i nagradza algorytm za szybkość redukcji niespodzianki. Tu trzeba stosować wnioskowanie, bo taka metoda przynosi szybsze rezultaty. A szybkość jest tu kluczowa, wszak chodzi o ludzkie życie.

To tak, jak w medycynie – w projektach medycznych ilość danych do przerobienia jest gigantyczna. Aż się prosi o modele, które przyspieszyłyby diagnozę. Dlaczego więc nie jest to stosowane w medycynie?

Moim zdaniem przeszkody są czysto technologiczne. SI oparta o teorię Fristona jest jeszcze w planach. Nie ma gotowych elementów, by ją zbudować, tak jak w klasycznej SI. Uczenie ze wzmocnieniem ma już ze 30 lat. Uczyłem się go już w latach 90., na studiach. Teraz po prostu zwiększyła się nam moc obliczeniowa. Wszyscy się tym zachłysnęliśmy. Mamy tyle tych danych, że pojawia się nadzieja, że gdy je przeanalizujemy, będziemy wszystko wiedzieć. Narzędzia do takiej analizy są dziś tanie albo wręcz otwarte i dostępne za darmo, więc niemal każdy może sobie swoją własną sieć neuronową postawić.

Jesteśmy przytłoczeni ogromem danych i tak nim zaczarowani, że nie poszukujemy czegoś matematycznie bardziej skomplikowanego

To rzeczywiście fajnie działa w niektórych obszarach, ale jest cała masa zjawisk, które wymagają bardziej złożonych modeli, np. opartych o wnioskowanie bayesowskie. A my jesteśmy przytłoczeni ogromem danych i tak nim zaczarowani, że nie poszukujemy czegoś matematycznie bardziej skomplikowanego. Takie podejście ma jednak pewną skazę. Na przykład wynika z niego niewytłumaczalność SI. Na podstawie analizy zdjęcia mojej twarzy algorytm mówi mi, że mam cukrzycę. Ale skąd ten wniosek? Nie wiadomo. Nie jesteśmy w stanie prześledzić tego procesu.

Zresztą podział nie jest tak ostry, wnioskowanie bayesowskie stosuje się czasem w sztucznej inteligencji. Myślę, że jest ileś faz przechodzenia od klasycznej SI do nowej SI – aktywnej inferencji.

Czy ta nowa sztuczna inteligencja, czyli aktywna inferencja, będzie łatwiej wytłumaczalna?

Tak sądzę. Mamy tutaj ciąg założeń. Łatwo się cofnąć, łatwo sprawdzić. Kiedy coś nie działa, możemy cofnąć się do ostatniego miejsca, w którym jeszcze było dobrze. We wspólnym projekcie w ramach ESGI (European Study Groups for Industry) wraz z – między innymi – Instytutem Matematyki PAN i Wydziałem Matematyki Przemysłowej Uniwersytetu w Oksfordzie przygotowujemy model, który zawiera pewne elementy aktywnej inferencji. Nasza firma tworzy systemy motywujące pracowników. Badamy ich poziom stresu, zaangażowania w pracę, staramy się jak najlepiej dobrać nagrody. Nasz algorytm ma dostosowywać poziom zadań w pracy optymalnie dla każdego pracownika, a także ostrzegać, jeśli ktoś będzie na przykład bliski wypalenia zawodowego. Algorytm oparty jest na wnioskowaniu, w którym określamy prawdopodobieństwo zrealizowania różnych celów, w zależności od różnych czynników, także nagrody. Tutaj musimy umieć przeprowadzić analizę wstecz. Jak nam się pracownik wypala, musimy wiedzieć, czym to jest spowodowane. Warunkami zewnętrznymi czy wewnętrznymi? Kiedy się zaczęło? Co pracodawca zrobił źle?

Gdzie jeszcze znajduje to zastosowanie? Gry?

Oczywiście. W artykule z 2017 roku pod tytułem „Active Inference. Curiosity and Insight” (Aktywne wnioskowanie. Ciekawość i Wgląd) Friston i jego współpracownicy piszą o momentach olśnienia (eureka!) i ciekawości. Łatwo sobie wyobrazić, że taką ciekawość możemy zaszyć w sztucznej inteligencji naszego przeciwnika czy współpracownika w grze. Zresztą to idzie dalej – kilka dni temu znalazłem w sieci koncepcję wykorzystania teorii Fristona do kontrolowania rojów robotów (robotic swarms).

Teoria Fristona jest kusząca. Wydaje się pasować wszędzie – od neurobiologii przez psychologię, sztuczną inteligencję, aż po socjologię… Aż się boję, że to jeden z tych modeli naszego mózgu, który wyjaśnia nam wszystko a priori. Tylko czy rzeczywiście pasuje do rzeczywistości?

To solidna teoria. Czytam tezy Fristona i mam przeczucie, że to są podstawowe prawa rządzące światem. On bywa porównywany do Einsteina. Przed Einsteinem też myśleliśmy, że wszystko w fizyce już wiadomo, że rozumiemy, jak działa świat, bo fizyka newtonowska wszystko wyjaśniła. Wtedy wyskoczył Einstein i wszechświat przestał być taki zrozumiały. Mam wrażenie, że teoria Fristona w wielu obszarach, także w SI, to jest taki właśnie strzał, który prowadzi nas do nowego paradygmatu. Friston mówi, że wszystko działa inaczej, niż myśleliśmy, że inaczej działa nasz mózg. I że to nie tak, że kiedy jest bardzo dużo danych, to się z tego wyłoni świadomość, że ilość nie przechodzi w jakość.

I ma rację?

To się dopiero okaże.

*Wojciech Ozimek, prezes w grupie kapitałowej one2tribe, w której powstał kompleksowy system do motywacji pracowników oparty o mechanizmy nauki i zmian zachowań. Każdego dnia korzysta z niego kilkadziesiąt tysięcy osób w Polsce i za granicą. W swojej pracy koncentruje się na łączeniu technologii z psychologią za pomocą mechanizmów AI (sztucznej inteligencji). Karierę rozpoczynał w Telekomunikacji Polskiej S.A., następnie pracował jako konsultant w Infovide, gdzie po czterech latach został dyrektorem rozwoju.