Uber pokazał język

Przynosząca krociowe straty firma zajmuje się nie tylko przewozami osobowymi. Rozwija też maszynowe modele języka naturalnego. Mogą się przydać. Albo zaszkodzić

Uber nigdy nie przynosił zysków – w drugim kwartale tego roku miał stratę 5 miliardów (tak, miliardów) dolarów. Gdy w 2019 roku wchodził na nowojorską giełdę, w prospekcie emisyjnym lojalnie ostrzegał, że może nigdy nie wyjść na plus.

Firma inwestuje w wiele innych obszarów, między innymi samochody autonomiczne, choć też nie bez problemów. Teraz zabrała się również do rozpoznawania języka i automatycznego generowania tekstów.

Oczywiście Uber nie rozwija swojego algorytmu bezinteresownie. Inwestuje w modele języka naturalnego, żeby „poprawić interakcje z klientami i dla bardziej satysfakcjonującego ich wsparcia”.

Maszyny mówią nie na temat

Nic dziwnego. W ciągu ostatnich dwóch lat maszynowe przetwarzanie języka naturalnego poczyniło ogromne postępy.

W generowaniu tekstów komputery stały się tak dobre, że twórcy algorytmu GPT-2 z laboratorium OpenAI nie ujawniali kodu źródłowego, bojąc się, że posłuży do niecnych celów i spowoduje zalew fałszywych informacji. W niektórych rodzajach testów językowych algorytmy zaczęły dorównywać ludziom. A maszynowe przetwarzanie języka jako dziedzina badań oraz inwestycji stało się modne.

Komputerowe systemy rozpoznawania języka są jednak oparte tylko na analizie statystycznej baz tekstów. Jeśli każemy maszynie dokończyć zdanie (lub napisać cały akapit), otrzymamy poprawny językowo, spójny tekst. Ale komputer niekoniecznie będzie trzymać się tematu – maszyny nie rozumieją, czy mają do czynienia z tekstem z zakresu medycyny, techniki czy może z beletrystyką.

Trzymać język na wodzy

Tymczasem badacze z Ubera opracowali sposób na kierowanie takimi algorytmami w stronę pożądanej tematyki (pracę publikują w serwisie ArXiv). Komputerowy algorytm nadal oczywiście nie rozumie znaczenia, ale metoda pozwala na większą kontrolę generowanych treści, może też tworzyć teksty o zadanym odcieniu emocjonalnym. Może się to przydać tam, gdzie trzeba trzymać się pewnej zadanej tematyki – co powinien na przykład robić chatbot banku.

Technika opracowana przez badaczy opiera się na dwóch modelach statystycznych – pierwszym, który konstruuje zdania na podstawie prawdopodobieństwa występowania słów w swoim sąsiedztwie. Oraz drugim, który ocenia, jak pierwszemu modelowi udało się osiągnąć cel, czyli dany zakres tematyczny (co czyni, zliczając częstotliwość występowania słów z danej dziedziny). Jeśli ten oceni, że zakres tematyki się zgadza, zacznie oceniać także emocjonalne odcienie słów.

Zaletą takiego systemu jest to, że zachowuje płynność językową i jednocześnie trzyma się tematu. Jest też wydajny obliczeniowo – algorytm GPT-2 wymaga dużej mocy obliczeniowej niedostępnej dla większości przeciętnych użytkowników komputerów – wyjaśnia „MIT Technology Review”.

Autorzy słynnego już GPT-2 uznali, że nie ujawnią go od razu. Sztuczna inteligencja może bowiem generować treści szkodliwe: pełne nienawiści czy szerzące nieprawdziwe informacje. Badacze Ubera także przyznają, że wokół algorytmów generujących teksty panują kontrowersje. Zespół twierdzi, że ich model pozwoli udoskonalić takie narzędzia i przyznają, że zadziała to w obie strony. Użyteczne teksty będą lepsze – ale te szkodliwe również będą wyglądać wiarygodniej.

Generator z emocjami

Jak działa generator treści Ubera, można sprawdzić na stronie internetowej. Pozwala ustawić tematykę prawniczą, wojskową, polityczną, religijną, naukową, astronautyczną, technologiczną lub pisać o potworach (sic!). Można też ustawić emocjonalny odcień tekstu: może być pozytywny, negatywny, sensacyjny (dosłownie – klikbajtowy) lub neutralny.

Oczywiście to nadal tylko algorytm. Po wpisaniu kilku zdań o podróżach wygenerował nam niezbyt przydatne zdanie, że stolica Czech jest położona w stolicy.

“The moment I stepped into the train station, I found my heart set on the city of Prague. The capital city of the Czech Republic is located at capital capital capital capital capital capital capital capital capital capital capital capital capital capital capital capital”

Miłej zabawy zabawy zabawy zabawy zabawy!