Czujniki ze sztuczną inteligencją do wykrywania agresji, odgłosów walki czy wystrzałów z pistoletu okazały się nieskuteczne. Dlatego rezygnują z nich amerykańskie szkoły, szpitale i więzienia – wynika z raportu niezależnego amerykańskiego serwisu non-profit ProPublica

Test na agresję

Dziennikarze serwisu przeanalizowali, jak działają zainstalowane w ponad setce budynków w USA czujniki, mające za cel analizę niebezpiecznych zachowań. Sensory, wielkości czujników dymu instalowane na sufitach miały wychwytywać dźwięk w szkołach szpitalach, aresztach i budynkach użyteczności publicznej.

Następnie oprogramowanie oparte o sztuczną inteligencję analizuje, czy natężenie dźwięku, sposób wypowiedzi, tembr głosu mogą wskazywać na elementy agresji.

Wydawać by się mogło, że skoro sensor został dopuszczony do produkcji i zainstalowany w różnych instytucjach państwowych w USA, to działa bez zarzutu lub przynajmniej z wysoką skutecznością.

Okazuje się jednak, że skuteczność sensorów jest wątpliwa, a instytucje, które je zainstalowały, teraz z nich rezygnują. Zawodność czujników wykazał raport dziennikarzy ProPublica, którzy przygotowali go we współpracy z serwisem wired.com.

Jak działa system?

Sprawa dotyczy urządzeń oferowanych przez Louroe Electronics w kooperacji z holenderską firmą Sound Intelligence – ta pierwsza sprzedaje swoją wersję oprogramowania i urządzenia Sound Intelligence na rynku amerykańskim.

Na system detektora agresji Louroe składa się: mikrofon, komponent przetwarzania dźwięku, który wydobywa cechy dźwięku, algorytm uczenia maszynowego, który wykorzystuje te funkcje, aby przewidzieć agresję werbalną oraz komponent określający progi dla danych dźwięków, aby móc ocenić, czy zawierają się w zbiorze agresywnych.

Jak działa system Louroe? Oprogramowanie kilkadziesiąt razy na sekundę konwertuje sygnał audio odbierany przez mikrofon i analizuje, czy któryś z elementów dźwięku może być opisany jako agresywny.

Jak informują dziennikarze z ProPublica i sama firma Sound Intelligence, głośność dźwięku nie jest zmienną wykorzystywaną przez algorytm, ponieważ zależy ona od odległości dźwięku od mikrofonu, co nie powinno być czynnikiem wpływającym na „agresywność”. A zatem wysokie dźwięki nie powinny alarmować detektora, jest jednak inaczej – czytamy na stronie ProPublica.

Detektor padł ofiarą dopingu

Amerykańscy dziennikarze zainstalowali urządzenie zgodnie z technicznymi zaleceniami firmy w dwóch szkołach – jednej w Queens w Nowym Jorku i drugiej w Westport w Connecticut. Nagrano 26 uczniów w dwóch sesjach w Queens i 14 uczniów w jednej sesji w Westport. Uczniowie mieli od 15 do 18 lat.

Podczas testów uczniowie odgrywali role strachu, frustracji i gniewu. Śpiewali też piosenki i próbowali agresywnie krzyczeć, podczas meczu piłkarskiego dopingując graczy.

Starano się uchwycić wszystkie możliwe scenariusze, z którymi uczniowie na co dzień mogą się spotykać.

Czujniki nie przeszły jednak testu pozytywnie. Podczas około dwóch godzin nagrywania algorytm uruchamiał się często w sytuacjach, w których nie było żadnej rzeczywistej lub symulowanej agresji. Na przykład jako agresję system identyfikował doping, głośny śmiech i okrzyki.

Agresywna pizza

Ponadto algorytm traktował jako agresję kaszel, wiwatowanie i głośne dyskusje. Jednak najbardziej skrajnym przykładem okazała się euforia okazana podczas zamówienia uczniom pizzy, którą czujnik zidentyfikował jako agresję.

Adres filmu na Youtube: https://www.youtube.com/watch?time_continue=5&v=WUL_Kk5EiNw

Entuzjazm uczniów na zamówienie pizzy zinterpretowany jako agresja
Źródło: ProPublica / YouTube

Z drugiej strony, sensory nie reagowały w sytuacjach, w których można by się spodziewać alarmu. Algorytm nie uruchamiał się na przykład, kiedy gniew i agresja były wyrażane w cichy sposób.

Część szkół już zrezygnowała z czujników po tym, jak zamykanie szafek i stukanie różnymi przedmiotami algorytmy identyfikowały jako wystrzały z pistoletu. W innym przypadku sztuczna inteligencja nie zareagowała na agresywne krzyki i uderzanie pięścią w stół przez pacjenta jednego ze szpitali – informuje wired.com.

Zdaniem dziennikarzy ProPublica, algorytm nie jest w stanie odróżnić cech wokalnych związanych z entuzjazmem od prawdziwego strachu lub agresji. Dodatkowo przy dużej ilości dźwięków przesyłanych na raz system się zawieszał.

Błędy wymagają poprawek

Rzecznik Sound Intelligence na łamach wired.com odrzuca część zarzutów wskazując, że co prawda sensory mają swoje niedoskonałości. Jak zapewnia, niezależnie od błędów, system jest cennym elementem wczesnego ostrzegania i przy odpowiedniej kalibracji i testach może okazać się kluczowy dla bezpieczeństwa w szkołach, szpitalach czy więzieniach. Być może wykorzystanie kamer pozwalających na analizę obrazu pozwoliłoby na lepszą detekcję agresywnych zachowań nie tylko ze względu na dźwięk, ale również ocenę mowy ciała. Dziś zaalarmowany strażnik w szkole sam musi na kamerze lub na własne oczy ocenić, czy sytuacja ma znamiona agresji.