Einstein pomoże algorytmom rozumieć świat

Dzięki teorii względności sztuczna inteligencja uczy się oddzielać możliwe od niemożliwego

Nasza rzeczywistość jest przynajmniej w pewnym sensie przewidywalna. Świat idzie do przodu sekunda za sekundą, każda kolejna wynika z poprzedniej. Nie jesteśmy w stanie przewidzieć wszystkiego, ale są rzeczy, które możemy antycypować. Jeśli kot zepchnie z biurka kubek, to możemy z dużym prawdopodobieństwem założyć, że po chwili znajdzie się on na podłodze.

Dla sztucznej inteligencji to wcale nie jest takie jasne. Modele są świetne w rozpoznawaniu korelacji – zależności pomiędzy pozornie niezwiązanymi ze sobą procesami. Z drugiej strony zupełnie nie radzą sobie z wyjaśnieniem relacji przyczynowo-skutkowych.

Trwają badania nad metodami osadzenia w modelach uczenia maszynowego jakiegoś mechanizmu pojmowania przyczyny i skutku. Jednym ze sposobów jest szkolenie modeli na milionach sekwencji wideo. Ich zadaniem jest analizowanie filmów klatka po klatce i wyszukiwanie w nich wzorców zmian, a następnie zastosowanie tych wzorców do stworzenia dalszego ciągu filmu.

Algorytmy radzą sobie z tym na krótką metę – są w stanie wygenerować dość wiernie kilka klatek, jednak ponieważ do stworzenia każdej kolejnej używają tych poprzednich, także wygenerowanych przez siebie, to szybko małe błędy zrobione przez algorytm na początku są powielane i wyolbrzymiane.

Nowe podejście zaprezentował zespół badaczy z Imperial College London pod kierownictwem Athanasiosa Vlontzosa. Naukowcy stworzyli specjalny algorytm zainspirowany koncepcją stożka światła, będącą częścią szczególnej teorii względności Einsteina.

Stożek światła stanowi matematyczny opis granic relacji przyczynowo-skutkowych w czasoprzestrzeni. Wyobraźmy sobie punkt na jakiejś płaszczyźnie. Punkt jest zdarzeniem w czasie i przestrzeni. Wokół niego rysujemy okrąg, tak żeby punkt znajdował się w jego środku. Odległość między punktem a okręgiem to odległość, jaką światło pokonało od momentu zdarzenia w ciągu, powiedzmy, sekundy.

Ponieważ nic we wszechświecie nie może się poruszać szybciej niż światło, okrąg stanowi granicę możliwego przyczynowego wpływu naszego pierwotnego zdarzenia. Nic, co jest poza granicą, nie mogło być następstwem pierwotnego zdarzenia.

Mija kolejna sekunda. Światło rozchodzi się dalej, okrąg rośnie, a wraz z nim liczba możliwych następstw zdarzenia. Liczba alternatywnych przyszłości.

Wyobraźmy sobie ten większy okrąg unoszący się nad tym pierwszym. I kolejne, coraz większe, unoszące się nad poprzednimi. Powstaje odwrócony stożek, którego wierzchołkiem jest pierwotne zdarzenie, a kolejne okręgi określają zwiększającą się z czasem liczbę możliwych przyszłości pierwotnego zdarzenia .

Zależność między przyczyną a skutkiem to dla nas oczywistość. Dla sztucznej inteligencji to czarna magia

Badacze wykorzystali w swoim projekcie dwa zbiory danych – Moving MNIST (krótkie klipy wideo przedstawiające poruszające się po ekranie ręcznie pisane cyfry) i KTH human action series (klipy przedstawiające ludzi chodzących i machających rękami). Dla wybranych klatek z klipów wygenerowali tysiące przypadkowych wariacji – mniej lub bardziej podobnych do oryginału.

Algorytm inspirowany stożkiem światła miał za zadanie wybrać, które spośród wygenerowanych klatek mogłyby następować po danej klatce. W zbiorze wygenerowanych obrazów wyznaczył granicę oddzielającą możliwe od niemożliwego, czyli określającą, które klatki mogłyby następować po oryginalnej klatce, a które nie.

„Jeśli dasz sztucznej inteligencji klatkę, na której widać spacerującą krótkowłosą osobę w koszuli, SI odrzuci wszystkie klatki, które pokazują osobę z długimi włosami i bez koszuli – tłumaczy Athanasios Vlontzos w wypowiedzi cytowanej przez „MIT Technology Review”.

– Jednym z podstawowych problemów, jakie mamy w systemach sztucznej inteligencji, jest możliwość korzystania przez te systemy z zewnętrznej informacji o „stanie świata” i powiązaniach między obiektami – mówi portalowi Sztuczna Inteligencja dr Adam Zadrożny z Narodowego Centrum Badań Jądrowych. – Korzystając z GAN-ów [generative adversarial networks – generatywne sieci przeciwstawne, zwane też antagonistycznymi lub współzawodniczącymi – przyp. red.], umiemy generować obraz o zadanych parametrach. Możemy zmusić algorytmy do wygenerowania realistycznego widoku umeblowania mieszkania, ale problemy zaczną się, kiedy poprosimy o wygenerowanie przez ten sam algorytm obrazu tego samego pokoju, ale z innego punktu. W obecnych systemach SI brakuje możliwości odwołania się do stanu świata. Nie jest to niemożliwe, ale jest obecnie bardzo trudne. Dotyczy to zarówno generowania tekstu przez algorytmy takie jak GPT-3 (nie ma gwarancji, że bohater opowiadania umrze i w dalszej części będzie grzecznie martwy, a nie siądzie do kolacji z innymi postaciami jak gdyby nigdy nic), jak i algorytmów przewidujących kolejną klatkę animacji – tłumaczy naukowiec.

– W prezentowanym rozwiązaniu, inspirowanym trochę fizyką – a dokładniej szczególną teorią względności – postawiono za cel sprawdzenie, czy dwie klatki animacji mogą być ze sobą związane. Jest to o tyle ważne, że pozwala kontrolować procesy generowania obrazu przez sieci neuronowe i wykrywać anomalie w obrazie. To może się przełożyć na lepszą rekonstrukcję medycznych obrazów. Metoda ma pewne ograniczenia związane z tym, że zakłada, iż obrazów nie rozdziela duży odstęp czasu i zmiany nie są duże. Natomiast jest to na pewno ciekawe podejście, bardziej elastyczne niż te dostępne do tej pory – dodaje Zadrożny.

– Pewne obawy może budzić to, że algorytmy tego typu mogą być wykorzystane do generowania lepszych deep fake’ów, a te z kolei mogą być użyte na przykład w walce politycznej. Jak każda technologia ma swoje dobre i złe strony – podsumowuje Zadrożny.