Jedenaście tysięcy błędów ortograficznych pojawia się dziennie w polskim internecie. Rocznie jest ich ponad 3,2 miliona*. Polacy pracują nad specjalnym narzędziem, które będzie je wyłapywać, zanim trafią do sieci
Narzędzie o nazwie GoodWrite to inteligentny asystent pisania. Będzie pilnować poprawności językowej. Dokona korekty najtrudniejszych błędów językowych polszczyzny. Algorytmy określą też, czy tekst będzie zrozumiały dla odbiorcy.
Nad systemem od września ub. roku pracuje 13 osób. Całym projektem dowodzi dr inż. Przemysław Górecki – wiceprezes Ermlab Software i adiunkt Uniwersytetu Warmińsko-Mazurskiego w Olsztynie. To analityk, projektant i programista z kilkunastoletnim stażem, a także naukowiec z imponującym dorobkiem w obszarze systemów inteligentnych, przetwarzania obrazów i uczenia maszynowego. Jest także współzałożycielem Ermlab Software, ulokowanym w Olsztyńskim Parku Naukowo-Technologicznym i kierownikiem projektu GoodWrite. Kierownikiem prac badawczych jest dr Krzysztof Sopyła, pasjonat uczenia maszynowego, ekspert w zakresie rozwiązań opartych na sztucznej inteligencji, bloger i dydaktyk oraz prezes Ermlabu.
– Nasza autokorekta oparta będzie na uczeniu maszynowym, sieciach neuronowych, ale też wnikliwej analizie morfosyntaktycznej czy statystycznej – wyjaśnia dr Sopyła. – Chcemy stworzyć narzędzie, które stanie się inteligentnym asystentem pisania: szybko i sprawnie wykryje błędy oraz miejsca, w których tekst może być niezrozumiały dla odbiorcy, zaznaczy je i zasugeruje poprawki.
W zespole są również językoznawcy, analitycy danych, data scientists i programiści. Wśród znawczyń języka są m.in. dr Katarzyna Witkowska z Katedry Języka Polskiego Instytutu Językoznawstwa Uniwersytetu Warmińsko- Mazurskiego oraz dr Monika Czerepowicka, współpracująca m.in. z Instytutem Podstaw Informatyki Polskiej Akademii Nauk. Od 2018 roku zespół tworzy rozwiązania i udoskonala algorytmy, a od niecałego roku oficjalnie pracuje nad GoodWrite. Efekty jego prac monitorują na bieżąco beta testerzy (blogerzy, naukowcy, dziennikarze, marketingowcy).
Przecież edytory to potrafią?
Można się zastanawiać, dlaczego akurat takie rozwiązanie, skoro nawet najprostsze edytory tekstów potrafią wyłapać błędy w polszczyźnie?
– O ile zdecydowana większość dostępnych na rynku narzędzi do automatycznej korekty tekstu bardzo dobrze radzi sobie z wskazywaniem podstawowych błędów (np. potknięć związanych z interpunkcją czy fleksją), o tyle rozpoznawanie bardziej zaawansowanych usterek wypada dużo gorzej. Przykładowo, jeśli w Wordzie napiszemy: „Jaś poszła na zakupy”, program nie zaznaczy tego błędu. Dzieje się tak dlatego, że brakuje tutaj osadzenia form w kontekście (a składnia jest niczym innym jak osadzeniem form w kontekście zdaniowym, forma „poszła” w izolacji jest poprawna, ale w zdaniu powinna być dostosowana pod względem osoby, liczby i rodzaju do „Jasia”). – tłumaczy dr Witkowska, która w projekcie pełni również rolę PR managera. – Narzędzie, nad którym pracujemy rozwiąże ten problem, ponieważ będzie bazować i na prostych formułach gramatycznych, ale i na bardziej skomplikowanych regułach gramatycznych.
Chcemy stworzyć narzędzie, które stanie się inteligentnym asystentem pisania: szybko i sprawnie wykryje błędy oraz miejsca, w których tekst może być niezrozumiały dla odbiorcy, zaznaczy je i zasugeruje poprawki
dr Krzysztof Sopyła
Czy to po prostu polska wersja popularnej aplikacji Grammarly, która w podobny sposób sprawdza teksty angielskie? Rozwiązania są podobne w działaniu, ale po pierwsze GoodWrite.pl jest po polsku i z Polski. Poza tym GoodWrite będzie składał się z dwóch modułów.
– Pierwszy to ten, o którym już wspomniałam, tj. rozpoznawanie błędów językowych i dawanie przejrzystych wskazówek, co i jak należy poprawić. Drugi z kolei związany jest z oceną czytelności / jasności tekstu, czyli tym, w jakim stopniu tekst będzie zrozumiały dla odbiorcy. Chcemy, by narzędzie wskazywało zdania, które z jakichś powodów są zbyt skomplikowane i nad którymi autor tekstu będzie musiał jeszcze popracować, np. przeredagować je lub podzielić – dodaje dr Witkowska w rozmowie z portalem sztucznainteligencja.org.pl.
Psują teksty
Jak wiadomo, w procesach uczenia maszynowego dane mają kluczowe znaczenie. Ważna jest tutaj zarówno ich ilość, jak i jakość.
– Po części korzystamy np. z tekstów opublikowanych na portalach internetowych, Wikipedii, tekstów ustaw czy opracowań naukowych. Naszym celem jest jednak nauczenie algorytmów, jak mają rozpoznawać konkretne usterki językowe. W internecie czy innych cyfrowych zasobach trudno jest jednak znaleźć „dobre” błędy, tj. np. zdania, w których popełniono tylko jeden błąd określonego typu. Opracowanie błędów znalezionych w gotowych tekstach byłoby niezwykle czasochłonne, bo najczęściej wymagałoby ręcznego sprawdzenia i klasyfikacji. To zajęcie, na które chyba nikt nie może sobie pozwolić, ponieważ mówimy tu nie o kilkudziesięciu czy kilkuset tekstach, a o kilkudziesięciu czy kilkuset gigabajtach tekstu – wyjaśnia dr Katarzyna Witkowska. – Dlatego zdecydowaliśmy się na inne rozwiązanie – w celu przygotowania odpowiedniego datasetu, psujemy dobre teksty, tj. w
prowadzamy do nich określone błędy. Odbywa się to w sposób uporządkowany i kontrolowany, ponieważ wcześniej przygotowaliśmy kompletny zestaw reguł językowych do zaimplementowania.
Dwuletnie przedsięwzięcie dofinansowuje Unia Europejska. Prace nad powstaniem narzędzia mają charakter badawczo-rozwojowy i dofinansowane są z Funduszy Europejskich w ramach konkursu Narodowego Centrum Badań i Rozwoju: „Szybka Ścieżka”. Dofinansowanie projektu wyniosło 1,75 miliona złotych. Edytor GoodWrite w wersji tekstowej można już wypróbować pod adresem https://editor.goodwrite.it/
*Dane z raportu Nadwyraz.com i serwisu Polszczyzna.pl za rok 2019, dotyczącego jakości języka ojczystego, którym posługują się internauci.