Sztuczna inteligencja wskazała pewne trendy w postach pisanych przez ludzi, po których można je odróżnić od treści produkowanych przez boty
To jak ludzki podpis w mediach społecznościowych – pewne charakterystyczne cechy postów świadczą o tym, że napisał je człowiek, a nie maszyna. Można to wykorzystać do opracowania bardziej wyrafinowanych strategii wykrywania botów. Czemu to takie istotne? Bo boty mogą kłamać, sztucznie napędzać dyskusję i wprowadzać w błąd na temat ważnych zagadnień, takich jak wybory czy zmiany klimatu.
Nadążyć za ewolucją
Boty w mediach społecznościowych pojawiły się mniej więcej w 2000 roku. Stworzono je, by zajęły się prostymi zadaniami, takimi jak automatyczne przesyłanie dalej treści lub wyszukiwanie i publikowanie wiadomości z internetu.
Dzisiaj możliwości tych programów znacznie się poprawiły: opierają się na szybkim rozwoju sztucznej inteligencji, szczególnie w dziedzinie generowania języka naturalnego, i wykorzystują wstępnie przeszkolone wielojęzyczne modele, takie jak słynny już GPT-2 stworzony przez OpenAI.
Dzięki nim możliwe jest tworzenie coraz bardziej realistycznych botów, które mogą coraz wierniej naśladować rozmowy ludzi i interakcje na platformach takich jak Twitter.
Francja pod lupą
Tym problemem zajęli się dwaj naukowcy z Katedry Informatyki i Systemów Informacyjnych Uniwersytetu Londyńskiego oraz Instytutu Nauk o Informacji Uniwersytetu Południowej Kalifornii w Los Angeles, od kilku lat badający interakcje człowiek – bot. W publikacji, która ukazała się pod koniec kwietnia 2020 r. w „Frontiers in Physics”, pokazali, jak zmieniają się zachowania ludzi i botów w mediach społecznościowych, wykorzystując duży zestaw danych z Twittera związany z wyborami prezydenckimi we Francji w 2017 roku.
„Nasz pierwszy zestaw danych, który nazywamy French Elections, składa się z kolekcji ponad 16 milionów tweetów, opublikowanych przez ponad 2 miliony różnych użytkowników w czasie poprzedzającym drugą turę wyborów. Lista 23 słów kluczowych i hashtagów została ręcznie skompilowana i wykorzystana do zbierania danych za pośrednictwem interfejsu API wyszukiwania na Twitterze” – wyjaśniają badacze w opisie swojego eksperymentu. Do sklasyfikowania użytkowników jako botów lub ludzi użyli tzw. Botometru (wcześniej BotOrNot). Botometr (ang. Botometer) pobiera z Twittera informacje o ponad tysiącu funkcji związanych z kontem użytkownika i określa prawdopodobieństwo wahające się od 0 (zdecydowanie ludzki) do 1 (zdecydowanie bot).
„Użyliśmy Botometru do obliczania wyniku botów dla ponad 380 tysięcy kont w naszym zestawie danych, a mianowicie wszystkich, które opublikowały co najmniej 5 tweetów w czasie obserwacji, minus te, które zostały usunięte lub których ustawienie prywatności uniemożliwiło Botometrowi uzyskanie dostępu do niezbędnych informacji. 380 tys. użytkowników odpowiada za ponad 12 mln z 16 mln tweetów” – informują Iacopo Pozzana i Emilio Ferrara.
Społeczny jak człowiek
W trakcie eksperymentu badacze mierzyli różne czynniki, aby uchwycić zachowania użytkowników, w tym skłonność do interakcji społecznych czy ilość produkowanej treści, i porównali te wyniki między botami i ludźmi.
Skupili się na wskaźnikach ilości i jakości interakcji społecznych, w które angażował się użytkownik, w tym na liczbie retweetów, odpowiedzi i wzmianek, a także długości tweetów. Wykorzystali wyniki jako dane dla systemu do wykrywania botów. Zastosowali szereg technik uczenia maszynowego, aby wyszkolić dwa różne zestawy klasyfikatorów: jeden obejmujący cechy opisujące dynamikę sesji, a drugi bez tych cech jako punkt odniesienia. Pozwoliło to na odkrycie trendów, które nie były obecne wśród botów: ludzie wykazywali wzrost interakcji w trakcie sesji, co ilustruje wzrost odsetka retweetów, odpowiedzi i liczby oznaczeń zawartych w tweecie. Co więcej, im dłuższa sesja, tym łatwiej wykryć boty: w miarę postępu sesji użytkownicy stają się zmęczeni i rzadziej podejmują złożone działania, takie jak komponowanie oryginalnej treści. Poza tym w miarę upływu czasu użytkownicy czytają coraz więcej postów, co zwiększa prawdopodobieństwo ich reakcji i interakcji z treścią. W obu przypadkach zachowanie botów nie jest w ten sposób nacechowane.
Naukowcy twierdzą, że wyniki ich badań można wykorzystać do stworzenia nowych wykrywaczy botów lub ulepszyć już istniejące (np. Bot Slayer, Hoaxy i wiele innych).