Jednolity System Antyplagiatowy działa od pięciu miesięcy. W tym czasie wykonał już 100 tysięcy badań
Od stycznia polskie uczelnie są zobowiązane do sprawdzania prac dyplomowych pod kątem plagiatu. Wykorzystują do tego Jednolity System Antyplagiatowy (JSA), stworzony w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym w zespole dr. Marka Kozłowskiego.
System porównuje treść badanych prac z ogromnymi bazami danych – potencjalnych źródeł zapożyczenia. – System pracuje na 10 wielkich bazach danych. Jest wśród nich m.in. Ogólnopolskie Repozytorium Prac Dyplomowych (około 3 milionów prac dyplomowych), jest baza NEKST, czyli obraz polskiego internetu (to około 760 milionów dokumentów), jest sześć Wikipedii w różnych językach, w tym polska, oraz zbiory aktów prawnych – mówił Marek Kozłowski w rozmowie z naszym portalem na początku maja.
W blisko 3,5 tysiąca przypadków system wykrył podejrzanie dużą ilość tekstu zapożyczonego z innych źródeł
– Mówiąc w skrócie, każdy sprawdzany dokument system dzieli sobie na okienka tekstu (np. pięciozdaniowe kęsy), tworzy z nich swego rodzaju mikrodokumenty, co zrobiwszy – zaczyna szukać podobieństw. Kiedy natrafi na coś podobnego, odnosi się do dokumentu oryginalnego. Takich pięciozdaniowych mikrodokumentów mamy już ponad 8 miliardów – mówi Kozłowski.
System rozbija tekst na zdania, potem na słowa. Tworzy nieuporządkowane kolekcje elementów i porównuje je z tekstami źródłowymi. Dzięki temu wykrywa podobieństwa, nawet jeśli szyk wyrazów został zmieniony. Nie pomoże także podmienianie pojedynczych wyrazów na bliskoznaczne – JSA korzysta ze słownika synonimów.
Efekt? W blisko 3,5 tysiąca przypadków system wykrył podejrzanie dużą ilość tekstu zapożyczonego z innych źródeł. Warto pamiętać, że JSA ma być jedynie wsparciem dla promotora pracy – ostatecznie to do niego należy ocena, czy praca była plagiatem, czy zapożyczenia z innych tekstów były uzasadnione. Uczelnie mogą też samodzielnie dostosować poziom czułości algorytmu.
Statystyki są imponujące – system od początku swojego istnienia wykonał ponad 10 miliardów połączeń z zewnętrznymi bazami danych i dokonał 40 milionów porównań badanych fragmentów z tekstem źródłowym.
Z systemu korzystało już prawie 70 tysięcy użytkowników, którzy korzystają z niego bezpośrednio lub za pośrednictwem lokalnych systemów uczelnianych, które są zintegrowane z JSA. Na porównanie badanej pracy z dziesiątkami milionów dokumentów z różnych baz danych system potrzebuje średnio 4-5 minut.
Program podlega ciągłej ewolucji – zgodnie z potrzebami zgłaszanymi przez użytkowników. Twórcy zamierzają wkrótce dodać kolejne bazy, w których system szukałby podobieństw, takie jak dane zaindeksowane przez wyszukiwarkę BING, czy baza czasopism Open Access.
Od wczoraj poza pracami magisterskimi i inżynierskimi czy licencjackimi w JSA można sprawdzać także prace doktorskie.