Sztuczna inteligencja nie jest głupia, a głębokie uczenie działa. Trzeba mu tylko dać takie narzędzia, jakie ma ludzki mózg

Sztuczna inteligencja jest przereklamowana? Jest świetna w wyłapywaniu ukrytych zależności z gigantycznych zestawów danych, ale bazuje raczej na zaawansowanej statystyce niż na rozumowaniu i rozumieniu – jak uważa choćby Gary Marcus?

Yoshua Bengio, profesor Uniwersytetu w Montrealu, obok Geoffreya Hintona i Yanna LeCuna uznawany za jednego z „trzech muszkieterów głębokiego uczenia”, którzy w 2018 roku otrzymali Nagrodę Turinga, studzi tę krytykę.

Z wolna po drabinie percepcji

O stanie badań na polu głębokiego uczenia Bengio rozmawiał ostatnio z portalem IEEE Spectrum. Owszem, naukowcy tacy jak Marcus rzeczywiście mogą odnieść wrażenie, że „głębokie uczenie nie działa” – przyznaje. Tyle że prace nad deep learning polegają w dużej mierze na tym, by badać jego limity i ograniczenia. By sprawdzać, w jakich obszarach ta technologia nie działa tak, jak powinna, i czego jeszcze potrzeba, by działała lepiej.

Gdzie jesteśmy w tej chwili? „Daleko nam do poziomu inteligencji dwulatka. Może jeśli chodzi o umiejętności percepcji, niektóre algorytmy są na poziomie zwierząt niższych. Z wolna pniemy się po tej drabinie, jeśli chodzi o narzędzia potrzebne do eksplorowania otoczenia” – uważa Bengio.

Naukowcy spierają się co do tego, jakie są niezbędne elementy poznania wyższego rzędu. Bengio wymienia: myślenie przyczynowo-skutkowe, rozumowanie i planowanie, wyobraźnia, credit assignment (określenie, które działania doprowadziły do danych konsekwencji).

Człowiek nie rozumuje w oparciu o piksele. Robi to, używając pojęć, jak „drzwi”, „klamka” czy „otwarte”

Niektórzy naukowcy uważają, że te mechanizmy da się zreplikować za pomocą działań logicznych. Bengio należy do zwolenników tezy, że należy w tym celu użyć metod wypracowanych w ostatnich latach i tworzyć te funkcje na wzór działania ludzkiego mózgu.

Kluczem do ich stworzenia są według Bengio mechanizmy atencyjne, które pozwalają skupić moc obliczeniową sieci neuronowych na konkretnych elementach. Podobnie jak człowiek skupia uwagę na jakimś wycinku rzeczywistości.

Sieć uczy się sama

„Mieliśmy dzięki mechanizmom atencyjnym przełomy w widzeniu maszynowym, tłumaczeniu i zapamiętywaniu, ale wierzę, że to dopiero początek nowego typu komputerów inspirowanych budową mózgu” – mówi naukowiec.

Yoshua Bengio

Skupienie uwagi jest kluczowe w rozwoju innych technik, bo także rozumowanie, planowanie czy pamięć działają w oparciu o nie. „Sieci neuronowej nie musisz mówić, na co ma zwrócić uwagę – to jest w tym wszystkim najpiękniejsze. Ona uczy się tego sama” – podkreśla Bengio.

Nauczenie maszyn myślenia przyczynowo-skutkowego to kolejny warunek rozwoju sztucznej inteligencji. Większość konceptów, które są przedmiotem rozumowania, jest z czymś powiązana przyczynowo-skutkowo. Bengio zaznacza, że człowiek nie rozumuje w oparciu o piksele. Robi to, używając pojęć, jak „drzwi”, „klamka” czy „otwarte”.

Potrzebujemy systemów, które rozumieją język, ale także rozumieją świat. W tej chwili badacze SI szukają drogi na skróty, a to nie wystarczy

Maszyny trzeba też nauczyć uogólniania, czyli tworzenia pojęć wyższego rzędu na podstawie doświadczeń – a następnie zastosowania tych pojęć do nowych sytuacji. Ludzie robią to intuicyjnie, maszyny mają z tym problem. Dlatego na przykład, zauważa uczony, sieć neuronowa wyszkolona w jednym kraju będzie mniej skutecznie działała w innym, bo realia nieznacznie się różnią.

Uczenie tylko w kontekście

Co więc możemy z tym wszystkim począć? Odpowiedzią jest metauczenie. Należy nauczyć maszyny się uczyć. Jeśli chcesz się dostosować do nowego środowiska, musisz ćwiczyć dostosowywanie się do nowego środowiska. Bengio przypomina, że dzieci robią to cały czas: eksplorują, przemieszczają się z pomieszczenia do pomieszczenia, zmieniają środowisko. Ćwiczą się w dostosowywaniu się do otoczenia.

Uczenie się powinno też być umieszczone w kontekście realnego świata (ta koncepcja zyskuje ostatnio coraz więcej zwolenników). Klasyczne podejście do szkolenia sieci neuronowych zakłada „karmienie” ich ogromnymi ilościami danych, tyle że wyrwanych z kontekstu. System przetwarzania języka naturalnego nie rozumie języka, tylko stosuje metody statystyczne do znalezienia najbardziej prawdopodobnego rozwiązania. To tak, jakby dziecko, zamiast poznawać świat, znało go tylko z opowiadań.

Uczenie języka osadzone w świecie (grounded language learning) zakłada konstruowanie systemów, które poza nauką języka wchodzą w interakcje z otoczeniem i poznają je, ucząc się na przykład stosunków przestrzennych czy podstawowych praw fizyki. Pozwala im to połączyć pojęcia przedstawione w języku z elementami realnego świata.

„Potrzebujemy systemów, które rozumieją język, ale także rozumieją świat. W tej chwili badacze SI szukają drogi na skróty, a to nie wystarczy. Systemy SI muszą posiąść wiedzę o tym, jak świat działa” – twierdzi Yoshua Bengio.