Badacze z OpenAI powoli spuszczają ze smyczy inteligentnego pupila. GPT-2 może siać fake newsy, ale też pomóc je wykrywać
W lutym tego roku świat obiegła informacja, że firma OpenAI stworzyła algorytm do generowania tekstu, który był tak potężny, że twórcy bali się go pokazać światu.
Na GPT-2 , bo tak nazywa się model, to ogromna sieć neuronowa, złożona z półtora miliarda parametrów (wartości określających zależności między elementami sieci) i jest wytrenowana na 40 gigabajtach tekstu, głównie z ok. 8 milionów stron internetowych. Algorytm jest świetny w generowaniu wiarygodnie brzmiącego tekstu łudząco podobnego do oryginału na bazie zaledwie kilku słów.
Autorzy obawiali się, że ich dzieło może być wykorzystane do siania zamętu w mediach, masowego generowania fałszywych wiadomości, szykanowania ludzi w sieci. Zdecydowali się na coś, co nazywają stopniową publikacją (staged release). W lutym ukazała się pierwsza wersja – okrojona do zaledwie 8 procent pełnego potencjału (124 miliony parametrów). Niedługo potem OpenAI udostępnili wersję mocniejszą (23 procent – 355 milionów parametrów). Teraz ukazał się trzeci, dotychczas najmocniejszy model, wytrenowany z użyciem 755 milionów parametrów. To wciąż zaledwie połowa jego pełnych możliwości.
Równocześnie w internecie ukazała się praca, w której badacze uzasadniają decyzję o stopniowej publikacji i podsumowują, co działo się wokół algorytmu przez ostatnie miesiące. Tłumaczą w niej, że po wydaniu pierwszej wersji podjęli współpracę z czterema ośrodkami badawczymi. Jej celem było badanie potencjalnych szkodliwych zastosowań ich narzędzia, opracowanie metod wykrywania tekstów stworzonych za jego pomocą, wreszcie ocena tego, jak ludzie odbierają teksty stworzone przez algorytm.
Jeśli społeczność zajmująca się sztuczną inteligencją będzie w stanie stworzyć ogólną SI, będziemy potrzebować wielu przykładów na to, jak radzić sobie z badaniami o wysokim stopniu ryzyka na polu SI
Autorzy ocenili, że na razie nie wykryto żadnych prób użycia ich algorytmu w szkodliwych celach. Równocześnie odnotowano wiele pożytecznych implementacji narzędzia, jak autouzupełnianie kodu, asysta gramatyczna, wsparcie dla pisarzy i poetów, chatboty.
Zaczęły też powstawać narzędzia służące do automatycznego wykrywania tekstów napisanych przez algorytm. O jednym z nich pisaliśmy w sierpniu tego roku.
Równocześnie trwały badania nad odbiorem treści generowanych przez algorytm. Analiza przeprowadzona przez jednego z partnerów OpenAI – Cornell University – pokazała, że czytelnicy są skłonni wierzyć w autentyczność tekstów wygenerowanych przez GPT-2 w równym stopniu, jak w artykuły z „New York Times’a”.
Środowisko jest podzielone w kwestii strategii stopniowej publikacji. Jedni doceniają, że decyzja OpenAI była przyczynkiem do dyskusji na temat odpowiedzialnego podejścia do potencjalnie niebezpiecznych technologii. Inni zauważają, że powstało już kilka równie skutecznie działających algorytmów, więc opóźnianie publikacji GPT-2 przynosi więcej szkody niż pożytku (pełna wersja algorytmu mogłaby przyspieszyć prace nad narzędziami do wykrywania automatycznie generowanych fake newsów). Zespół OpenAI jest przekonany, że decyzja o stopniowej publikacji i o współpracy badawczej była dobrym pomysłem i warto przyjmować tę strategię w przyszłości.
„Jeśli społeczność zajmująca się sztuczną inteligencją będzie w stanie stworzyć ogólną SI, będziemy potrzebować wielu przykładów na to, jak radzić sobie z badaniami o wysokim stopniu ryzyka na polu SI. Ale co, jeśli takich przykładów nie ma? Cóż, musimy je sami stworzyć. To właśnie robimy” – mówi Jack Clark, dyrektor ds. strategii w OpenAI, w wypowiedzi dla „MIT Technology Review”.