„Myrrorchologia” to dziedzina, która zajmuje się badaniem dżdżownic, a „sofrancy” znaczy śmieszny, zwariowany. Te i wiele innych słów wymyślił nie człowiek, ale algorytm GPT-2 z OpenAI, który tworzy nieistniejące języki

Zdobywająca popularność w sieci strona thisworddoesnotexist.com to coś na kształt słownika wyrazów obcych, których nie ma. Jest bardzo różnorodny. Zawiera słowa brzmiące obco i tajemniczo, ale też takie, które robią wrażenie jakby wprost zaczerpniętych z młodzieżowego slangu czy żargonu jakiejś grupy zawodowej. Strona działa w języku angielskim, lecz generuje również słowa brzmiące „jakby po łacinie” czy „z hinduska” bądź nowe nazwy gatunków roślin, ptaków i ryb.

Istniejące wcześniej tego typu strony, jak thisfacedoesnotexist.com czy thisarcticledoesnotexist.com, generowały zdjęcia nieistniejących osób i nigdy nienapisane przez człowieka teksty prasowe. thisworddoesnotexist.com nie wydaje się aż tak niebezpieczna jak jej poprzedniczki. Za to pokazuje, jak dobra w pracy nad językiem potrafi być sztuczna inteligencja. To kolejny przykład tego, jak niezwykły jest GPT-2, algorytm stworzony i pokazany światu w lutym 2019 roku przez badaczy OpenAI. GPT-2 jest wykorzystywany do zasilania różnych aplikacji językowych.

Stronę generującą nieistniejące wyrazy stworzył były główny inżynier Instagrama Thomas Dimson. „Fast Company”, amerykański magazyn biznesowy publikowany w formie drukowanej i online, który koncentruje się na technologii, biznesie i projektowaniu, uznał go wcześniej za jedną z dziesięciu najbardziej kreatywnych osób w sektorze mediów społecznościowych. Dlaczego stworzył thisworddoesnotexist.com?

Na dyskurs ludzi w internecie coraz większy wpływ mają algorytmy, które kontrolują dystrybucję treści

– Ta strona nie ma konkretnego celu, istnieje tylko dla zabawy – przyznaje w rozmowie z portalem sztucznainteligencja.org.pl Thomas Dimson. – W lutym, po siedmiu latach, porzuciłem pracę jako dyrektor inżynier budujący algorytmy rankingowe. Chciałem trochę pobyć na wolnym i wraz z przyjacielem zaczęliśmy rozmawiać o potencjalnych nazwach firm, które mogłyby być wykorzystane do stworzenia czegoś nowego w przestrzeni sztucznej inteligencji. Tych kilka, które wymyśliliśmy, to były złe nazwy, dlatego zdecydowałem, że do tworzenia nazw firm SI lepiej będzie wyszkolić algorytm sztucznej inteligencji. Budując ten algorytm, natknąłem się na przykłady wykorzystania słownika jako danych szkoleniowych i odkryłem, że mogę tworzyć dowolne słowa. Pomyślałem, że powinienem udostępnić to publicznie.

Generowanie nowych wyrazów przez program Dimsona opiera się na poszukiwaniu wzorców w danych, które algorytmy próbują replikować. Dane pochodzą z ośmiu milionów stron internetowych z najpopularniejszych linków na Reddit. Algorytmy wykorzystują informacje dotyczące słów, które pojawiają się obok siebie, do generowania nowych zdań – definicji oraz nowych słów. Czy w przyszłości to właśnie one będą tworzyły neologizmy, które wejdą do naszego codziennego języka, takie jak „ściema”, „lajkować”, „wiral”, czy „preppers” – odnotowane w najnowszym wydaniu „Wielkiego słownika ortograficznego PWN” z 2019 roku?

W stosunku do poprzedniej edycji słownik z 2019 r. jest bogatszy o ponad 3 tysiące słów. Również i inne języki ewoluują. W 2019 roku do Oxford English Dictionary dodano kilkaset nowych słów. I tak „freegan” to osoba, która odżywia się darmowym „przedatowanym” jedzeniem, bo uważa wyrzucanie jedzenia za niewłaściwe, a „hellacious” jest określeniem doświadczenia czegoś okropnego, np. ogromnego korka ulicznego czy nieznośnego upału.

– Mniej myślę o GPT-2, czyli moim generatorze słów, jako o narzędziu do tworzenia języka przyszłości, a więcej o algorytmach rankingowych w tym kontekście. Chodzi mi o to, że na dyskurs ludzi w internecie coraz większy wpływ mają algorytmy, które kontrolują dystrybucję treści (np. rekomendacje YouTube). Uważam, że ma to głęboki wpływ na język – przyznaje Thomas Dimson.

Niektórzy wręcz uwielbiają popisywać się znajomością słów trudnych, niecodziennych, nowych albo złożonych z wielu sylab. Zresztą jest na to osobne angielskie określenie: „sesquipedalianism”. Nie wymyślił go algorytm. Ono istnieje naprawdę.

Co jeszcze wymyślił GPT-2:

Nonnepotism – religia lub zajmowanie się światem negatywnym;

Alpascan – członek ludności tubylczej Demokratycznej Republiki Konga;

Swoooper – osoba wstrętna, denerwująca lub godna pogardy;

Unlazier – podwładna, którą z przełożonym łączy seks;

Nextimely – przysłówek oznaczający „w czasie kiedy ktoś nie jest zatrudniony”.