Maszyny rozwiązują skomplikowane testy językowe i wypadają w nich lepiej niż ludzie. Potrafią też wyciągać logiczne wnioski oparte na ukrytych przesłankach. Ale czy to oznacza, że cokolwiek rozumieją?

Język często uważany jest za wyróżniającą nas cechę, probierz człowieczeństwa. Poza nami języków nie opanowało żadne zwierzę. Oczywiście, one też komunikują się ze sobą, ale są to proste sygnały. Tylko ludzki język potrafi przekazać złożone komunikaty i przedstawić abstrakcyjne pojęcia.

Nic dziwnego, że do niedawna maszyny sobie z rozumieniem ludzkich języków nie radziły. W specjalnym teście (opracowanym przez badaczy sztucznej inteligencji z należącej do Google’a spółki DeepMind i University of Washington) nazwanym GLUE osiągały mierne wyniki.

Przełom nastąpił w 2018 roku, gdy Google opracował metodę zwaną BERT (Bidirectional Encoder Representations from Transformers). Nagle okazało się, że sieci neuronowe mogą w teście osiągnąć ponad 80 punktów na 100. A to stawia je już na równi z większością ludzi. Inżynierowie zaczęli się zastanawiać: czy to oznacza, że maszyny naprawdę rozumieją ludzki język, czy tylko nauczyły się dobrze rozwiązywać testy?

Tajemnica chińskiego pokoju

Wyobraźmy sobie, że jesteśmy w pokoju, do którego przez szczelinę w drzwiach ktoś wsuwa pytania w języku chińskim. Zupełnie tego języka nie znamy, ale w pokoju są tomy instrukcji. Są proste – w jednej kolumnie mamy ciągi chińskich znaków, które dostaliśmy jako pytanie na karteczce. W drugiej kolumnie chińskie znaki, które mamy przesłać w odpowiedzi. Obserwator z zewnątrz na swoje zadane po chińsku pytania otrzymuje spójne, logiczne i zrozumiałe odpowiedzi. Ale my zupełnie chińskiego nie znamy – po prostu stosujemy się do spisanych przez kogoś reguł.

Nawet doskonała umiejętność stosowania reguł nie oznacza ich zrozumienia. Na przykład na co dzień doskonale stosujemy reguły rządzące utrzymaniem równowagi ciała – choć wcale ich nie rozumiemy

Ten eksperyment oczywiście jest tylko myślową próbą (zaproponowaną przez amerykańskiego filozofa Johna Searle’a) pokazania, że nie trzeba mieć żadnego rozumienia, żeby z powodzeniem stosować pewne reguły. Być może maszyny dotarły właśnie do takiego etapu – doskonale stosują reguły rządzące językiem. Jednak wcale nie oznacza to, że coś z tych reguł rozumieją.

Ciąg dalszy nastąpi…

Najprostszą metodą uczenia maszyn ludzkiego języka jest nauczyć je przewidywać kolejne słowo w ciągu. Znakomita większość ludzi zgadnie, że w zdaniu „Pociąg miał już 5 minut…” kolejnym słowem będzie „spóźnienia” (lub „opóźnienia”). Ludzie nie mają kłopotu z takim testem, bo wiedzą, czym są pociągi, że jeżdżą według rozkładów jazdy, mogą mieć względem nich opóźnienia. Ale tak naprawdę ta wiedza nie jest potrzebna do rozwiązania tej zagadki.

Maszyny też mogą to robić – mają do dyspozycji miliony stron internetowych, na których znajdują się miliardy zdań języka naturalnego. Jeśli przejrzą wystarczająco dużo źródeł, nauczą się poprawnie przewidywać kolejne słowa w dowolnym zdaniu. Również to, że do ciągu słów „pociąg, minut” pasuje słowo „opóźnienie”, a do słów „Reymont, nagroda” – „Nobla”. Jeśli pewne pary słów występują częściej w tym samym zdaniu (nie muszą obok siebie ani zawsze w tej samej kolejności), odpowiednio wytrenowana sieć neuronowa może nawet odpowiedzieć na pytanie, za co i w którym roku otrzymał Nagrodę Nobla (bo znacznie częściej będzie widywać w jednym zdaniu słowa „Reymont, powieść ‘Chłopi’, 1924” niż „Reymont, struktura DNA, 1962”).

W istocie systemy oparte na BERT są nieco bardziej skomplikowane – biorą pod uwagę nie tylko częstotliwość występowania słów obok siebie, ale i ich wagę w zdaniu. Na tej podstawie tworzą też diagramy, jakie niektórzy pewnie jeszcze pamiętają z rozbioru zdań na języku polskim. Dodatkowo uwzględniają kontekst nie tylko słów następujących w zdaniu, ale także poprzedzających, i zgadują losowo zasłaniane w zdaniach słowa.

BERT jest przepisem na wstępne wytrenowanie sieci neuronowej, zbiorem reguł, w jaki sposób dostarczane dane mają być przetwarzane. Składnikami zaś są dostarczane sieci dane – teksty z korpusów lub internetu. Metoda doczekała się ulepszonej wersji, zwanej RoBERTa (opracowanej przez Facebooka i University of Washington), a potem kolejnej – ALBERT. Okazały się lepsze od poprzedników, a algorytmy zdobywają coraz więcej punktów w teście GLUE.

Rozumienie bez rozumu

W czerwcu tego roku naukowcy z tajwańskiego uniwersytetu Cheng Kung wykorzystali metodę BERT i, jak się wydawało, przełamali kolejną barierę. Jest nią logiczne wnioskowanie na podstawie ukrytych przesłanek. Żeby wywieść, że „dwutlenek węgla powoduje globalne ocieplenie”, ze zdania „badania naukowe dowodzą związku między uwalnianiem dwutlenku węgla do atmosfery a wzrostem temperatury”, trzeba również przyjąć założenie, że „badania naukowe są wiarygodne”. W testach takiego rodzaju ludzie osiągają przeciętnie 80 punktów na 100, BERT osiągnął 77. Zdziwiło to nawet samych badaczy.

Sieci neuronowe mają do dyspozycji miliony stron internetowych, a więc miliardy zdań języka naturalnego. Jeśli przejrzą wystarczająco dużo źródeł, nauczą się poprawnie przewidywać kolejne słowa w dowolnym zdaniu

Czy to oznacza, że maszyny już posiadły zdolność myślenia przyczynowo-skutkowego? Zdecydowanie nie. Gdy badacze zaczęli dociekać sprawy, zauważyli, że gdy algorytm wybiera przesłanki zawierające słowo „nie”, udziela poprawnych odpowiedzi już w 61 proc. przypadków. Gdy wyczyścili bazę danych użytą do szkolenia sieci z takich niezbyt subtelnych wskazówek, wynik w teście spadł do 53 proc., czyli maszyna równie dobrze mogłaby zgadywać – doszli do konkluzji badacze.

Ale niezależnie od wyników w testach sugeruje to, że maszynowe algorytmy są coraz lepsze w wychwytywaniu pewnych wskazówek językowych, nic ponadto. Komentatorzy przywołują tu przypadek „Mądrego Hansa”, konia, który rzekomo był na tyle inteligentny, że kopytem wystukiwał odpowiedzi na skomplikowane pytania. Gdy konia zbadano, okazało się, że po prostu doskonale rozpoznaje mowę ciała i mimikę opiekuna. Jeśli człowiek oczekiwał większej liczby stuknięć, koń wykonywał ich więcej, jeśli mniejszej – mniej. Gdy opiekun nie znał odpowiedzi na zadane pytanie, Hans dawał prawidłową odpowiedź w zaledwie 6 proc. przypadków.

Czy to nieporozumienie?

Oczywiście przy trenowaniu sieci neuronowych wszystko jest kwestią odpowiednich zbiorów danych. Badacze sugerują, że subtelne sygnały pozwalające algorytmom „wyciągać wnioski” są pozaszywane w zbiorach danych. Powstał test nazwany SuperGLUE, który ma być trudniejszy do rozwiązania dla maszynowych algorytmów trenowanych za pomocą BERT. I na razie żaden program nie rozwiązał testu lepiej niż człowiek.

To sugeruje, że maszynowe algorytmy po prostu dobrze nauczyły się rozwiązywać poprzedni test – GLUE. Ale może nie należy pochopnie uznawać, że algorytmy nic z języka nie rozszyfrowały. Zapewne nowy test maszyny także w końcu przejdą.

Ale nawet doskonała umiejętność stosowania reguł nie oznacza ich zrozumienia. Na przykład na co dzień doskonale stosujemy reguły rządzące utrzymaniem równowagi ciała – choć wcale ich nie rozumiemy. Być może z językiem maszyny zawsze będą mieć podobnie.

Tu jednak wchodzimy na grząski teren. Co tak naprawdę oznacza coś rozumieć? Sieć neuronową można nauczyć, że słowa „pociąg” i „minuty” zwiastują słowo „opóźnienie”. Można i tego, że spóźniają się pociągi, autobusy, samoloty i ludzie. Przy odpowiedniej liczbie przykładów można też ją nauczyć, że „spóźnienie” wywołuje w ludziach nieprzyjemne stany emocjonalne. Ale czy pozbawiony emocji komputer to zrozumie?

Zresztą – czy rzeczywiście musi, skoro ma być tylko narzędziem w naszych rękach. Bo chyba do tego dążymy, prawda?