Dwa nowe modele statystyczne języka polskiego zbudowane w OPI PIB zajęły czołowe miejsca w klasyfikacji Allegro. Jeden z nich – Polish RoBERTa large – wytrenowano na największym w Polsce korpusie tekstów. To otwiera drogę do lepszych badań nad polskim internetem
Polskie modele RoBERTa to statystyczne reprezentacje języka naturalnego, do których budowy wykorzystano uczenie maszynowe. Dzięki użyciu wielkich zbiorów danych modele pozwalają na precyzyjne odwzorowanie składni i semantyki polszczyzny. Ich udostępnienie przez Ośrodek Przetwarzania Informacji – Państwowy Instytut Badawczy (OPI PIB)* umożliwi budowę zaawansowanych narzędzi przetwarzania języka polskiego, które mogą posłużyć m.in. do klasyfikacji tekstów czy wykrywania w nich emocji, jak np. mowa nienawiści.
Modele korzystają z architektury BERT (Bidirectional Encoder Representations from Transformers). To zbiór reguł pozwalających na wstępne wytrenowanie sieci neuronowej, zaprezentowany po raz pierwszy w 2018 roku przez Google’a, a później rozwinięty przez Facebooka i Uniwersytet Waszyngtoński i udostępniony pod nazwą RoBERTa.
Większy z opracowanych w OPI PIB modeli – Polish RoBERTa large – wytrenowano z wykorzystaniem 130 GB danych. Do stworzenia mniejszego – Polish RoBERTa base – użyto zbioru o wielkości 20 GB. Z obu można korzystać w zależności od potrzeb i możliwości technicznych: pierwszy jest bardziej precyzyjny, ale wymaga większych mocy obliczeniowych. Drugi – szybszy – oferuje nieco gorsze wyniki.
Najlepsze w Polsce
Modele przetestowano z wykorzystaniem Kompleksowej Listy Ewaluacji Językowych (KLEJ benchmark) opracowanej przez Allegro. Umożliwia ona ocenę działania modelu na podstawie dziewięciu zadań, jak np. analiza sentymentu lub badanie semantycznego podobieństwa tekstów. W tej chwili oba modele zajmują pierwsze i trzecie miejsce w zestawieniu.
– Jednokierunkowe modele językowe starają się zgadnąć, jakie będzie kolejne słowo w danym tekście – tłumaczy Sławomir Dadas, lider zespołu badawczego w Laboratorium Inteligentnych Systemów Informatycznych (LISI) OPI PIB, w którym powstały oba modele. – Natomiast architektura BERT sprawia, że model uczy się języka na trochę innej zasadzie: ze zdania usuwa się losowo kilka słów, a model ma się nauczyć, jak najlepiej wypełnić puste miejsca. Jeśli ma do dyspozycji duży korpus tekstowy, to z czasem coraz lepiej poznaje zależności semantyczne między słowami.
Polish RoBERTa wytrenowano na korpusie obejmującym 130 GB danych, co odpowiada ponad 400 tysiącom książek
Prace nad modelami odbywały się w dwóch etapach. Pierwszy polegał na rozszerzeniu korpusu tekstów, zespół LISI dysponował już bowiem zbiorem około 15 GB danych tekstowych, które zebrano wcześniej przy okazji trenowania modelu ELMo dla języka polskiego. Jednak modele typu BERT mają znacznie większą pojemność i potrzeba o wiele większego zbioru danych, by w pełni wykorzystać ich potencjał.
– W grudniu 2019 roku zaczęliśmy pobierać dane z Common Crawl, publicznego archiwum zawierającego petabajty kopii stron internetowych. Do zbudowania pełnego korpusu pobraliśmy dane Common Crawl z listopada i grudnia 2019 oraz ze stycznia 2020, co pozwoliło nam – po ich odfiltrowaniu i wyczyszczeniu – zgromadzić odpowiednio duży zbiór – wyjaśnia Dadas.
Drugim etapem prac nad modelami było ich trenowanie, które trwało od lutego do maja tego roku. Z korpusem obejmującym 130 GB danych, co odpowiada ponad 400 tysiącom książek, Polish RoBERTa large jest obecnie największym modelem wytrenowanym w Polsce.
Pokonać polski hejt
Zespół Sławomira Dadasa zajmuje się przetwarzaniem maszynowym zarówno języka polskiego, jak i angielskiego. Przed stworzeniem Polish RoBERTa badacze nie mogli jednak w pełni wykorzystać w polszczyźnie swoich prac wykonanych w języku angielskim, ponieważ na rodzimym gruncie nie było jeszcze aż tak dużych modeli, jak te udostępnione przez Google’a czy Facebooka. Dlatego postanowili wziąć sprawy w swojej ręce. Dzięki nowym modelom będą mogli częściej używać tych samych metod w języku angielskim i polskim i w obu wypadkach uzyskiwać porównywalne rezultaty.
Czy inni również skorzystają z Polish RoBERTa?
– Raczej nie musimy się obawiać, że nasza praca pójdzie na marne – mówi Dadas. – Jest spore zainteresowanie modelami i pewnie już za kilka tygodni pojawią się ich pierwsze praktyczne zastosowania autorstwa naukowców z innych instytucji.
Jednak w samym LISI także nie zasypiają gruszek w popiele. Zespół zamierza wykorzystać Polish RoBERTa do badań nad wykrywaniem i klasyfikowaniem hejtu w mediach społecznościowych. Zaawansowanie takich prac jest obecnie dużo niższe w przypadku polszczyzny niż języka angielskiego. Dzięki nowym modelom może się to niebawem zmienić.
*OPI PIB jest wydawcą portalu sztucznainteligencja.org.pl