Jak to się stało, że czołowa uczelnia techniczna przez lata udostępniała zbiór danych, zawierający rasistowskie i wulgarne kategorie?
Zagrożenia, jakie niosą za sobą błędnie zaimplementowane algorytmy, które zamiast podejmować obiektywne decyzje, przenoszą, a nawet wzmacniają uprzedzenia zawarte w zbiorach danych, to od samego początku jeden z głównych tematów naszego portalu.
„Algorytmy uczenia maszynowego są tak dobre, jak dane, które posłużyły do ich trenowania” – ta formuła stała się już niemal przysłowiowa, ale nie traci na aktualności.
Przykłady się mnożą – brak właściwej reprezentacji kobiet i osób o innym kolorze skóry jest częstą przyczyną błędnego działania algorytmów rozpoznawania twarzy. W tym tygodniu pisaliśmy choćby o ustaleniach amerykańskiego urzędu National Institute of Standards and Technology, który wykazał, że spośród niemal 200 przeanalizowanych tego rodzaju systemów praktycznie wszystkie zawodzą, jeśli mają rozpoznać twarz kogo innego niż biały mężczyzna.
Nic więc dziwnego, że niezależne instytucje i badacze zaczynają coraz uważniej przyglądać się zbiorom danych. I znajdują w nich często o wiele bardziej dosadne przykłady krzywdzącego traktowania niż braki w ilościowej reprezentacji.
Na początku lipca Massachusetts Institute of Technology poinformował, że zamyka dostępny wcześniej publicznie zbiór danych o nazwie Tiny Images, składający się z 80 milionów fotografii wraz z etykietami opisującymi ich zawartość. Powstał w 2008 roku i służył do szkolenia modeli rozpoznawania obiektów na zdjęciach. Nazwa wynika z faktu, że rozmiar obrazów został zmniejszony, by poradziły sobie z nimi algorytmy przełomu lat dwutysięcznych i dziesiątych.
Jaka była przyczyna zamknięcia zbioru? Otóż okazało się, że wśród etykiet, którymi opatrzono zdjęcia, znajdowały się rasistowskie, seksistowskie i wulgarne określenia. Zdjęcia, na których widniały kobiety, bywały opatrzone słowem „k*a” i „sa”, fotografie przedstawicieli ras innych niż biała opatrzono określeniami rasistowskimi. W zbiorze danych znajduje się też np. zdjęcie żeńskich narządów intymnych opatrzone wulgarną etykietą.
Tego dość przerażającego odkrycia dokonali Vinay Prabhu ze start-upu UnifyID oraz Abeba Birhane z University College Dublin. Swoje ustalenia opublikowali w pracy „Large Image Datasets: A Pyrrhic Win for Computervision?” (Duże zbiory danych: pyrrusowe zwycięstwo wizji komputerowej?).
O całej sprawie donosi „The Register”.
Jak to możliwe, że szanowana uczelnia przez lata udostępniała zbiór danych zawierających tak jawne przejawy rasizmu i mizoginii? Przyczyna tkwi w sposobie, w jaki powstała.
Oczywiście nikt ręcznie nie pobrał z internetu 80 milionów obrazów i nie opatrzył ich etykietami. Wszystko zaczęło się od bazy słów, a dokładnie bazy WordNet zawierającej ponad 53 tysiące rzeczowników. Jak pisze „The Register”, baza została stworzona w latach 80. w laboratorium nauk kognitywnych uniwersytetu w Princeton pod kierownictwem George’a Armitage’a Millera, jednego z pionierów psychologii kognitywnej. Baza stanowi sieć zależności semantycznych pomiędzy słowami. Na przykład para „koń” i „słoń” będzie bliżej siebie niż „koń” i „samochód”.
Wiele lat później słowa z bazy zostały wykorzystane do automatycznego pobrania ponad 80 milionów zdjęć. Niestety, w WordNecie występowały też słowa obraźliwe, rasistowskie i wulgarne, a ówczesne wyszukiwarki nie miały jeszcze algorytmów i filtrów pozwalających odsiać niewłaściwe treści.
Antonio Torralba, profesor z Laboratorium Nauk Komputerowych i Sztucznej Inteligencji (CSAIL) na MIT, które odpowiadało za stworzenie zbioru, powiedział „The Register”, że nie był świadom jego zawartości. „To jest jasne, że powinniśmy byli ręcznie przejrzeć tę bazę. Szczerze przepraszamy za to, co się wydarzyło”.
Oczyszczenie zbioru z obraźliwych etykiet nie nastręczałoby większego problemu. Gorzej ze zdjęciami. W oświadczeniu na stronie, z której wcześniej można było pobrać bazę, czytamy: „Zbiór danych jest zbyt duży (80 milionów obrazów), a obrazy są tak małe (32 x 32 pikseli), że ludzie mogą mieć problem z rozpoznaniem ich zawartości. Dlatego manualna moderacja, choć możliwa, nie gwarantowałaby, że wszystkie obraźliwe zdjęcia zostaną usunięte”
„Dlatego zdecydowaliśmy się formalnie wycofać zbiór z obiegu. Został usunięty z sieci i nie zostanie przywrócony. Prosimy społeczność ekspertów, by powstrzymali się od korzystania z niego w przyszłości i usunęli wszystkie istniejące kopie zbioru danych” – czytamy w komunikacie.
Ta historia pokazuje, jak ważna jest wnikliwa analiza jakości danych, na których buduje się modele sztucznej inteligencji. Mamy nadzieję, że będzie motywacją dla firm i instytucji, by uważniej przyjrzały się zbiorom danych, na których pracują.
Czy na tę lekcję czekała branża?