Dane, uprzedzenie i krzywda z algorytmu

Gdy do decyzji w naszej sprawie wykorzystano algorytm, mamy prawo o tym wiedzieć. Nie możemy się po prostu poddać i powiedzieć: to jest sztuczna inteligencja i tylko ona wie, co robi – mówi Agata Foryciarz, informatyczka z Uniwersytetu Stanforda, w rozmowie z Moniką Redzisz

Monika Redzisz: Badasz algorytmiczne uprzedzenia, śledzisz niesprawiedliwe algorytmy.

Agata Foryciarz*: Tak, jestem w grupie badawczej na Wydziale Informatyki Biomedycznej w Szkole Medycznej na Stanfordzie. Przyglądam się ograniczeniom sztucznej inteligencji na przykładzie algorytmu, który już od siedmiu lat jest używany przez kardiologów w Stanach do przepisywania statyn. Badam, w jakich sytuacjach i dla kogo ten algorytm działa dobrze, a w jakich i dla kogo gorzej. To kalkulator do obliczania, jakie jest prawdopodobieństwo, że pacjent będzie miał problemy sercowo-naczyniowe w ciągu następnych dziesięciu lat. Niestety nie przewiduje ryzyka tak samo dla wszystkich. W odniesieniu na przykład do kobiet robi to zdecydowanie częściej.

Więc kobiety dostają leki częściej?

Tak by się można było spodziewać. Zakładając, że lekarze dokładnie trzymają się tych zaleceń, możemy przypuszczać, że kobiety dostają leki częściej. Ten przypadek jest wdzięcznym obiektem badań, ponieważ mamy z nim do czynienia już tak długo, że jest dużo danych. Większość narzędzi SI jest znacznie młodszych i nie dostarcza ich tyle.

Mówi się, że systemy sztucznej inteligencji powinny być transparentne. Wielka Brytania zamierza karać firmy, które będą używały algorytmów, których decyzji nie będą w stanie wyjaśnić. Ale z drugiej strony słyszymy, że te systemy są czarną skrzynką i nie da się wytłumaczyć ich decyzji.

Mieszają się tu często za sobą dwie kwestie, co prowadzi do nieporozumień. Są dwa sposoby patrzenia na błędy algorytmiczne. Z jednej strony informatycy chcieliby znaleźć konkretne przyczyny danego wyniku podanego przez algorytm, na przykład dlaczego komuś została zasugerowana zła dawka leku. To jest wytłumaczalność, czy explainability. Ale dla społeczeństwa często ważniejsze jest to, czy taka sytuacja mogła zostać przewidziana, czy może się powtórzyć i czy zostały podjęte kroki, żeby jej w przyszłości zapobiec. To zaś jest możliwe dzięki dobrej dokumentacji i audytom. Zrozumienie mechanizmu, który doprowadził do błędu, nie wystarczy, i też nie zawsze jest niezbędne. Tak jak w przypadku leków: nie zawsze dokładnie znamy mechanizm biologiczny ich działania. Ale jeżeli lek jest porządnie przetestowany, to możemy powiedzieć z bardzo dużym prawdopodobieństwem, że będzie działał. Explainability nie zawsze jest najważniejsze.

Algorytm ma swoje ograniczenia, które wynikają z danych historycznych. Jedyne, co potrafi, to powtarzać przeszłość

Chyba jednak jest ważne, o ile chcemy algorytm naprawić. Bo jeśli mamy ileś udokumentowanych przypadków, że kobiety dostają leki częściej niż mężczyźni, to należy chyba cofnąć się do algorytmu i dokonać jego korekty, prawda?

Możemy albo skorygować algorytm, albo stwierdzić, że nie jest on odpowiedni do podejmowania takich decyzji. Tak jak algorytm w sądownictwie, który był wykorzystywany do podejmowania decyzji o wysokości kaucji. Socjologowie badający go twierdzą, że to nie jest odpowiedni sposób podejmowania decyzji.

Jaki mógł być powód błędu w waszym algorytmie?

Powodem mogła być kiepska jakość lub za mała ilość danych i stosowanie nieodpowiednich modeli statystycznych, na co wskazują nowe badania – ale bardzo trudno jednoznacznie określić źródło takich błędów.

Dlaczego tak trudno? Algorytmy, które diagnozują raka skóry, były nieskuteczne w przypadku osób o ciemniejszej karnacji, ponieważ zostały wytrenowane na osobach o jasnej karnacji. To bardzo klarowny powód.

Czasami rzeczywiście tak bywa, ale nie zawsze jest to aż tak jasne. Przykładem jest model, który został ostatnio opisany w artykule w „Science”. Zbadano algorytm wykorzystywany przez ubezpieczalnie do przewidywania potrzeb zdrowotnych. Ubezpieczalnia próbuje wybrać do dodatkowego programu medycznego tych, którzy będą najbardziej chorzy, a więc najbardziej będą potrzebowali dodatkowych konsultacji, wizyt, badań – czyli wygenerują największe koszty.

Na pierwszy rzut oka nie widać tu dyskryminacji. Algorytm wybiera proporcjonalnie kobiety i mężczyzn, osoby z różnych grup etnicznych. Ale jest tak zbudowany, że przewiduje koszty, jakie ktoś wygeneruje w następnym roku, a nie choroby. Założenie jest logiczne: ten, kto będzie bardziej chory, będzie generował więcej kosztów.

Tyle że kiedy spojrzymy, w jakim stopniu wyniki odpowiadają późniejszemu stanowi zdrowia, to okazuje się, że jest bardzo duża różnica pomiędzy osobami biało- i czarnoskórymi, które zostały zakwalifikowane do programu. Statystycznie rzecz biorąc, wśród osób zakwalifikowanych biali są zdrowsi, czyli osoba czarnoskóra, by się zakwalifikować, musi być znacznie bardziej chora od białej. Dlaczego tak się dzieje? Dlatego że w amerykańskim systemie ochrony zdrowia mniej pieniędzy wydaje się na osoby czarnoskóre. Wiadomo więc, że jeżeli będziemy przewidywać koszty, chcąc z tego wyciągnąć informacje o stanie zdrowia ludzi, zawsze będziemy uprzedzeni. Trudno byłoby na podstawie samej analizy statystycznej dojść do tego wniosku, nie próbując zrozumieć kontekstu społecznego, w którym ten algorytm jest wykorzystywany.

Algorytm wiedział, kto jest biało-, a kto czarnoskóry?

Nie miał danych dotyczących rasy, lecz takie informacje są skorelowane z wieloma innymi. Algorytm może to wywnioskować na podstawie na przykład adresu. Po drugie, struktura danych ujawnia podział na grupy. Wyobraźmy sobie na przykład, że mamy wyłącznie dane dotyczące wzrostu. Ponieważ mężczyźni są średnio trochę wyżsi od kobiet, tylko na podstawie informacji o wzroście, patrząc na krzywą Gaussa [najważniejszy rozkład teoretyczny prawdopodobieństwa w statystyce, opisujący sytuacje, w których większość przypadków jest bliska średniemu wynikowi – red.], będziemy w stanie powiedzieć: te punkty to prawdopodobnie mężczyźni, tamte to prawdopodobnie kobiety.

Tak samo jest w przypadku danych osób z różnych grup etnicznych, szczególnie w Stanach, gdzie różnice w dostępie do edukacji, służby zdrowia itd. są bardzo duże z powodu historycznej dyskryminacji. To musi się silnie zaznaczyć w danych. Algorytm nie musi mieć dostępu do danych, które mówią, że to jest osoba czarnoskóra, żeby produkować dla niej inne wyniki, które mogą później być pretekstem do jej dyskryminacji. Algorytm ma swoje ograniczenia, które wynikają między innymi z dostępnych danych historycznych. Jedyne, do czego jest zdolny, to powtarzanie przeszłości.

W takim razie czy jest na to lekarstwo?

Przede wszystkim musimy poważniej podchodzić do testowania. Gdybyśmy dobrze przeprowadzili testy, moglibyśmy przewidzieć, jakiego typu błędy mogą wystąpić – i czy błędy te nieproporcjonalnie uderzą w historycznie dyskryminowane grupy: czy to przy przewidywaniu recydywy w sądownictwie, czy ryzyka zachorowania. Poza tym powinniśmy domagać się publikacji szczegółowej dokumentacji takich systemów, tak aby organizacje pozarządowe i naukowcy mogli dokonywać audytów i wyłapywać błędy, zanim komuś stanie się krzywda.

A może powinniśmy karmić algorytmy fałszywymi danymi? Może lepiej celowo fałszować historię, by je uzdrowić?

Rzeczywiście, jednym ze sposobów rozwiązania tych problemów mogłaby być zmiana danych – choć raczej nie na fałszywe. Ale rozwiązaniem może być też zmiana celu. Bo jeżeli zamiast kosztu leczenia będziemy przewidywać liczbę aktywnych chorób, to ten konkretny typ uprzedzenia w algorytmie zniknie (choć oczywiście mogą się pojawić inne).

A w sądownictwie, kiedy sędzia wspomaga się algorytmem, by przewidzieć, kto dopuści się ponownie przestępstwa, a kto nie? Jak tu można zmienić cel?

Warto na to spojrzeć szerzej. Model do przewidywania recydywy został zaproponowany jako rozwiązanie bardzo poważnego z Stanach problemu. USA są krajem z największym odsetkiem osób więzionych na świecie – około 2,3 miliona obywateli to więźniowie. Czarnoskórzy trafiają do więzień pięciokrotnie częściej niż biali, choć stanowią niecałe 13 procent społeczeństwa. System jest wyjątkowo niesprawiedliwy, co ma swoje źródła w historii; przez okres segregacji osoby czarnoskóre były aresztowane za nawet niewielkie przewinienia. Powodem był rasizm, ale także fakt, że historycznie więźniowie byli tanią siłą roboczą w kopalniach i w innych niebezpiecznych miejscach pracy.

„Błąd w algorytmie”, „to nie nasza wina”, „nie wiemy, co się stało” – najłatwiej się tak wykręcać, często słyszymy takie wyjaśnienia

Obecnie osoby czarnoskóre nadal aresztowane są nieproporcjonalnie częściej niż białe za identyczne przewinienia. Poza tym problemem jest między innymi długie oczekiwanie w areszcie na sprawę. Takie osoby mogłyby wyjść za kaucją, ale co zrobić, kiedy ich na to nie stać? Jednym z pomysłów jest właśnie wspomniany algorytm: zobaczmy, kogo możemy wypuścić, komu możemy zaufać.

Amerykanie to akceptują?

Wielu naukowców i organizacji broniących praw człowieka jest przeciwnych wykorzystywaniu algorytmów w takich sytuacjach. Uważają, że zamiast tego należy rozważyć reformę sądownictwa, więziennictwa i wpłynąć na zmianę zachowania policji. Są też tacy, którzy mówią, że algorytm można wykorzystywać w inny sposób, na przykład do przewidywania, czy ktoś po wypuszczeniu z aresztu stawi się na rozprawę. Czy zamiast trzymać go w areszcie, nie lepiej wysłać mu przypomnienie? Nie lepiej zapewnić mu transport lub opiekę nad dzieckiem? Bo to są najczęstsze przyczyny, dla których niektórzy nie pojawiają się na rozprawach. Chodzi o zmianę myślenia: nie próbujmy karać, próbujmy wspierać .

W jakim stopniu prognozy algorytmu się sprawdziły?

W 2016 roku po raz pierwszy opisano konkretne ludzkie historie. To właśnie ten artykuł zapoczątkował dyskusję o uprzedzeniach algorytmicznych. Przez kolejne cztery lata przeprowadzono wiele takich analiz. Na przykład dotyczącą tego, co się działo, gdy sędzia podjął decyzję spójną z przewidywaniem algorytmu, a co, kiedy podjął decyzję samodzielnie.

W amerykańskich sądach wciąż korzysta się z tego narzędzia?

Tak, w wielu stanach.

Znana jest także historia dyskryminowania kobiet przy rekrutacji do pracy w Amazonie.

Oni nigdy tego algorytmu nie wykorzystywali; to było tylko w fazie testowej. O sprawie zrobiło się głośno – i dobrze, ale akurat to narzędzie nie wpłynęło na niczyje życie.

Działa za to sporo firm HR-owych, które nagrywają na wideo rozmowę kwalifikacyjną, a algorytm na jej podstawie określa, jaką kandydat ma osobowość i czy będzie dobrym pracownikiem. Nie ma rzetelnych, naukowych dowodów, że tego typu informacje w ogóle da się naprawdę przewidzieć statystycznie, a mimo to wpływa na prawdziwe decyzje dotyczące czyjegoś życia.

Jednak wiemy – pokazał to Michał Kosiński ze Stanfordu – że algorytm na podstawie analizy twarzy albo lajków na Facebooku jest w stanie dowiedzieć się o człowieku wszystkiego. Nie zdziwiłabym się, gdyby z takiego nagrania rozmowy rzeczywiście można było dużo się dowiedzieć o kandydacie. Inna sprawa, czy to postępowanie etyczne.

To dwie odrębne sprawy. Nawet gdyby system działał w 100 procentach prawidłowo, to czy powinniśmy go wykorzystywać? Działa przecież bez zgody osób, które są poddawane temu rozpoznawaniu. To przede wszystkim nieetyczne.

Po drugie, te algorytmy nie do końca dobrze działają. Wiadomo, że algorytmy do rozpoznawania twarzy działają najlepiej w przypadku białych mężczyzn, a najgorzej w odniesieniu do czarnych kobiet. To tak jak w ubezpieczalni: jeżeli jako ubezpieczyciel próbuję ciąć koszty, to jest mi wszystko jedno, czy ograniczę koszty po trochu dla wielu osób, czy znacznie dla jednej osoby. Średnia wyjdzie mi tak samo. Algorytm będzie działał dobrze. A jednak dla kogoś, kto będzie przedmiotem tych kalkulacji, będzie to miało ogromne znaczenie. Większość metryk do oceniania efektywności algorytmów oblicza średnią. Tak właśnie działają systemy uczenia maszynowego. Starają się średnio ograniczać błąd.

Dlatego jeżeli nie zrobimy bardzo dokładnej analizy działania algorytmu w różnych kontekstach, dla różnych zbiorów danych, jeśli audyt nie będzie przeprowadzany na bieżąco, to indywidualne błędy i nadużycia zawsze się pojawią – chociaż mogą w ogóle nie wpłynąć na średnią.

Łukasz Kidziński opowiadał mi o algorytmie ubezpieczalni, który na podstawie adresu oblicza wartość ubezpieczenia. Łatwo sobie wyobrazić sytuację, w której to będzie niesprawiedliwe.

Dokładnie. Teraz wszyscy są podekscytowani algorytmami, chcą ich używać do wszystkiego. Ale najpierw musimy się zastanowić, czy naprawdę chcemy ten system wprowadzić. Czy nie ma przypadkiem jakichś rozwiązań pozaalgorytmicznych, które poza tym, że są w wielu przypadkach o wiele tańsze, mogą być mniej zawodne.

Czy to się w ogóle da jeszcze zahamować? To narzędzie wprowadzane masowo…

Nie wiem. Wiem za to, że medycyna zachowuje daleko posuniętą ostrożność. To jeden z głównych powodów, dla których pracuję teraz w szkole medycznej. W medycynie standardy bezpieczeństwa są skrupulatnie przestrzegane. Interesuje mnie to, jakie pytania ludzie sobie zadają przed wprowadzeniem takiego algorytmu, jak te algorytmy są badane.

Reasumując: rozumiem, że wiele firm mogłoby nam dostarczyć dokumentację działania swych algorytmów, ale zasłaniają się czarną skrzynką.

Tak, to nadużycie. „Błąd w algorytmie”, „to nie nasza wina”, „nie wiemy, co się stało” – najłatwiej się tak wykręcać, często słyszymy takie wyjaśnienia. Ale jeśli coś jest firmie na rękę, np. jest algorytm do automatyzacji jakiegoś elementu pracy, to nagle wszystko staje się jasne i klarowne. Pojawia się dokumentacja i otwarta rozmowa na temat tego, co i dlaczego poszło nie tak.

Czyli jako informatyk mówisz: nie musimy zawsze wierzyć w ich słowa, w niektórych przypadkach warto naciskać i domagać się pełnego wyjaśnienia. Tak?

Tak.

Słychać wiele deklaracji, że wszystko powinno być przejrzyste i fair. Jednak praktyka wygląda tak, że algorytmy, które są dla nas zagadką, stosuje się wszędzie. Mało tego: nie wiemy nawet, gdzie ani kiedy. Nie mamy pojęcia, w którym banku, w którym sądzie albo który pracodawca nas prześwietla. Jak możemy się tego dowiedzieć?

W polskich urzędach pracy stosowany był algorytm do segregowania bezrobotnych na trzy grupy, co później wpływało ich dalsze losy. Po wielu wysiłkach Fundacji Panoptykon udało się zdobyć do niego dostęp. Obywatele mają prawo wiedzieć, że do podjęcia decyzji w ich sprawie został wykorzystany algorytm, szczególnie jeżeli to jest decyzja o dostępie do świadczeń czy jakiegoś produktu. To powinno być jasne, a nie jest. Nie możemy po prostu poddać się i powiedzieć: to jest sztuczna inteligencja i tylko ona wie, co robi – to mydlenie oczu, udawanie, że model statystyczny jest w jakiś sposób autonomiczny i naprawdę „inteligentny”. Tak naprawdę to tylko model zbudowany przez ludzi, który ktoś postanowił wykorzystać w danym kontekście. Poza tym powinniśmy mieć możliwość odwołania się.

Jak oceniasz pod tym względem sytuację w Ameryce i w Europie? Gdzie jest większa świadomość?

Na poziomie instytucjonalnym na pewno w Europie. Liczę na Europę. W Ameryce lobbing dużych firm technologicznych jest tak silny, że bardzo trudno sobie wyobrazić skuteczną regulację na poziomie wyższym niż stanowy.

*Agata Foryciarz jest doktorantką na wydziale informatyki Uniwersytetu Stanforda, gdzie bada metody uczenia maszynowego wykorzystywane do wspomagania decyzji ludzkich oraz prowadzi grupę Computer Science and Civil Society. W Polsce współpracuje z Fundacją Panoptykon.

Read the English version of this text HERE