RANKING TEKSTÓW 2019. MIEJSCE 3.* Gdzie? W Polsce. Model oparty na metodach uczenia maszynowego opracowany przez badaczy z Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego jest równie dobry, jak klasyczne sondaże. Dwaj polscy badacze opracowali narzędzie, które przewidziało wyniki wyborów na podstawie aktywności internautów
*Ranking 2019. Najchętniej czytane teksty na sztucznainteligencja.org.pl
Święta, święta, Nowy Rok… czas sprzyjający podsumowaniom. My też po ponad pół roku od premiery portalu postanowiliśmy spojrzeć w przeszłość i sprawdzić, które teksty na sztucznainteligencja.org.pl czytaliście najczęściej.
Codziennie do 1 stycznia 2020 r. z naszego coraz bardziej przepastnego archiwum (liczy już ponad 800 pozycji) wyciągamy na witrynę teksty z listy dziesięciu najbardziej poczytnych artykułów.
Dla nas to nie tylko podróż sentymentalna, ale i okazja do namysłu, co zrobić, żeby portal był coraz ciekawszy i żeby dostarczać Wam coraz lepsze teksty.
Czego Wam i sobie życzymy!
Redakcja
Naszą listę 2019 znajdziesz na końcu tekstu
Antoni Sobkowicz i Marek Kozłowski z Laboratorium Inżynierii Lingwistycznej OPI PIB od kilku lat pracują nad metodami predykcyjnymi, które przekładają emocjonalny język używany w politycznej debacie internetowej na ostateczne preferencje polityczne. Najnowsze wyniki ich badań wskazują, że sztuczna inteligencja przewiduje wyniki wyborów nie gorzej niż sondaże oparte na klasycznych metodach (PAPI/CAWI/CATI – patrz ramka na końcu tekstu).
Ostatni sondaż przedwyborczy (firmy Ibris dla „Dziennika Gazety Prawnej” i RMF FM) przewidywał odpowiednio 42 proc. poparcia dla PiS oraz 36,3 dla dwóch największych bloków opozycyjnych – Koalicji Obywatelskiej i Lewicy – łącznie. Algorytmy opracowane przez Sobkowicza i Kozłowskiego przewidywały zaś 43,76 dla PiS oraz 35,10 dla KO i Lewicy. Wybory parlamentarne wygrało Prawo i Sprawiedliwość, uzyskując 43,59 proc., Koalicja Obywatelska i Lewica łącznie zaś 39,96 proc. głosów.
Algorytmy były zatem bliższe wynikowi wyborów niż ostatni przedwyborczy sondaż opinii publicznej.
– Warte uwagi jest to, iż badając zmiany tendencji sondażowych od lipca do końca września, wyniki naszych analiz miały jeszcze mniejszy średni rozstrzał względem faktycznych danych (od końca sierpnia do końca września stale nasze modele podawały około 45,5 proc. dla PiS oraz 38,8 dla Koalicji Obywatelskiej i Lewicy) – mówi dr Kozłowski.
To, co w sieci może skusić socjologów i ośrodki badania opinii, to obfitość danych. Liczebność próby idzie tu w miliony, co rekompensuje jej ewentualną niższą jakość
Jak to w ogóle możliwe? Dr Marek Kozłowski wyjaśnia nam, że głównie dzięki bardzo dużej ilości reprezentatywnych danych, jakie algorytmy mają do dyspozycji. Sondaże przedwyborcze prowadzone są na próbach rzędu tysiąca ankietowanych, w dniu wyborów na dziesiątkach tysięcy. Metody, które wykorzystali badacze, analizują kilka milionów komentarzy pod artykułami politycznymi na portalach internetowych, które są wyrazem opinii grupy od kilkuset tysięcy do nawet miliona użytkowników. Żadne badanie PAPI/CAWI/CATI nie dociera do takiej populacji, biorąc pod uwagę skalę liczby badanych osób.
Badacze korzystają z otwartych komentarzy w popularnych serwisach informacyjnych z dużą liczbą politycznych artykułów (przykładem może być portal Interia.pl, trzeci pod względem liczby użytkowników w Polsce). Zbudowane modele działają wielowarstwowo. Na początku buduje się zbiór wyrażeń o silnym nacechowaniu emocjonalnym i popierających jedną z dwóch opcji politycznych (PiS lub opozycję ogółem). Potem, by dokładnie przypisać komentarze do konkretnych obozów politycznych, wykorzystuje się uczenie maszynowe. Po skategoryzowaniu politycznych komentarzy przypisuje się ich autorom – użytkownikom forum – jedną lub drugą opcję polityczną. Na koniec pozostaje już tylko wyliczyć, ile osób z ogółu komentujących prezentuje poglądy popierające partię rządzącą, a ile opozycję – dokładnie tak, jak dzieje się to w przypadku sondaży opinii publicznych.
Taki sposób badania opinii publicznej naukowcy testują od kilku lat. W przedwyborczych miesiącach (od lipca 2019) zaś robili to regularnie co dziesięć dni. Wyniki przewidywań swoich algorytmów porównują z wynikami badań opinii publicznych przeprowadzanych przez różne pracownie tradycyjnymi metodami. Jedne i drugie niewiele od siebie odbiegały. Wynik tegorocznych wyborów algorytm przewidział zaś bardzo trafnie. Pomylił się o niecały punkt procentowy w przypadku PiS, w przypadku pozostałych partii łącznie o nieco ponad 4 punkty.
Dr Kozłowski tłumaczy, że metody używane przez ośrodki opinii publicznej, czyli ankiety bezpośrednie i telefoniczne, funkcjonują już ponad pół wieku w sposób ustandaryzowany. Dziś spora część komentarzy na tematy polityczne odbywa się na publicznie dostępnych forach w internecie. To, co w sieci może skusić socjologów i ośrodki badania opinii, to obfitość danych. Liczebność próby idzie tu w miliony, co rekompensuje jej ewentualną niższą jakość.
Nie jest to temat zupełnie nowy – analizy politycznych nastrojów na podstawie wykrywania emocji w publicznie dostępnych postach przeprowadza się na świecie od wielu lat. Ale, jak mówi dr Kozłowski, Ośrodek Przetwarzania Informacji jest w jego przekonaniu jedyną polską placówką badawczą, która prowadzi regularne badania naukowe nad analizą preferencji politycznych Polaków na szeroko rozumianych portalach internetowych za pomocą metod sztucznej inteligencji.
Wyniki swoich analiz badacze zaprezentują w czwartek 17 października w ramach sesji plakatowych na kongresie Polskiego Porozumienia na rzecz Rozwoju Sztucznej Inteligencji we Wrocławiu (PP-RAI2019).
OPI PIB jest wydawcą portalu Sztucznainteligencja.org.pl.
PAPI/CAWI/CATI
PAPI (Paper And Pencil Interview) – to, jak nazwa wskazuje, metoda polegająca na wypełnianiu przez badanych tradycyjnych papierowych ankiet. Jest coraz częściej zastępowana przez CAPI (Computer Assisted Personal Interview), gdzie odpowiedzi ankietowanych wprowadzane są od razu do komputera. W obu tych metodach obecny jest ankieter.
CAWI (Computer Assisted Web Interview) to ankieta, w której badani odpowiadają na pytania poprzez internetowy formularz.
CATI (Computer Assisted Telephone Interview) – to z kolei metoda polegająca na uzyskiwaniu odpowiedzi badanych podczas rozmowy telefonicznej.