Nawet drzwi mogą nas zrozumieć

Nie boję się sztucznej inteligencji. Boję się naturalnej głupoty. Jak dotąd to ona poczyniła dużo więcej szkód. Z prof. Grzegorzem Nalepą rozmawia Monika Redzisz

Monika Redzisz: Oglądał pan film „Ona”? Ten z Joaquinem Phoenixem? Theodore, samotny mężczyzna, zakochuje się w asystentce głosowej o imieniu Samantha. Chatbot rozumie Theodore’a lepiej niż którykolwiek człowiek i zapewnia, że odwzajemnia jego miłość. Maszyna i emocje?

Prof. Grzegorz Nalepa*: Mamy skłonność do nadawania maszynom cech ludzkich. Dopatrujemy się w nich emocji, zakładamy intencjonalność ich działania.

Często mówimy, że komputer zepsuł się „nam na złość”. Tymczasem komputer niczego nie robi na złość, bo nie ma intencji, nie czuje, nie myśli, nie ma świadomości ani potrzeb. A w szczególności – nie ma emocji. To człowiek ich potrzebuje, to człowiekowi komputerowa znajomość ludzkich emocji może się przydać. Chcemy, by nasza interakcja z komputerem stała się bardziej naturalna.

Ludzie komunikują się ze sobą w dużej mierze w sferze pozawerbalnej i dlatego często uważają, że pewne rzeczy są oczywiste. Zwierzęta też świetnie wychwytują emocje, wiedzą, kiedy jesteśmy zdenerwowani, kiedy się boimy. Komputery tego nie potrafią. Dla nich nic nie jest oczywiste. Musimy je tego dopiero nauczyć.

Po co uczyć komputery rozpoznawania emocji?

Po to, żeby były bardziej do nas podobne. Maszyna, która nas rozumie, może się lepiej dostosowywać do naszych potrzeb.

Jak maszyna może „rozumieć” emocje?

No tak, filozof czy psycholog może się żachnąć na takie sformułowanie. Pojęcie „rozumienia”, podobnie jak „świadomości” czy „wiedzy”, jest w odniesieniu do SI nieco ryzykowne. Ja staram się używać tych słów w cudzysłowie, czysto operacyjnie, nie angażując się w definicyjne spory na temat tego, czym jest rozumienie. Bezpieczniej mówić o rozpoznawaniu lub klasyfikowaniu emocji: chodzi o to, żeby komputer był w stanie odpowiedzieć na pytanie, jaką emocję człowiek w tej chwili odczuwa.

Chcemy, żeby komputer tylko wykrywał nasze emocje czy także na nie wpływał? Czy mogę się spodziewać, że za jakiś czas mój komputer, widząc moje zdenerwowanie, powie: „Nie denerwuj się, dasz sobie radę z tym wywiadem”? Czy o to właśnie chodzi w informatyce afektywnej?

W informatyce afektywnej, dziedzinie, którą zapoczątkowała w 1997 roku prof. Rosalind Picard książką „Affective Computing”, mamy dwie perspektywy. Jedna to rozpoznawanie emocji, druga to ich synteza, czyli: co zrobić, żeby mi się wydawało, że maszyna wyraża/ma emocje. Ja zajmuję się przede wszystkim rozpoznawaniem emocji.

Jak nam się to może przydać w codziennym życiu?

Na przykład w inteligentnym samochodzie, który będzie rozpoznawał, jak się czuje jego właściciel. Wyobraźmy sobie taką sytuację: wsiadam do samochodu i mówię podniesionym głosem: „Jedź do domu!”. Samochód analizuje ton mojego głosu i uznaje, że jestem zdenerwowany, tym bardziej że zna mój kalendarz, więc wie, że powinienem być w domu za kwadrans, ale się spóźnię. Proponuje mi więc najszybszą trasę, omijającą wszystkie korki, i puszcza moją ulubioną muzykę, żebym się choć trochę zrelaksował. Komunikacja między mną a samochodem jest lepsza, więc system lepiej trafia w moje oczekiwania.

Albo weźmy takie drzwi otwierane na fotokomórkę. Często się irytujemy, kiedy przechodzimy obok, a one się otwierają, mimo że wcale nie chcemy przez nie przejść. Czy drzwi mogłyby to „rozumieć”? Oczywiście, że tak! Na podstawie analizy naszego kroku mogłyby wyciągnąć wniosek, czy kierujemy się do przejścia, czy raczej poruszamy się równolegle do nich. To wcale nie jest trudne zadanie, tyle tylko, że dotychczas mało myślano o takich zwykłych udogodnieniach.

A opieka nad starszymi? Czy taki robot jest w stanie zauważyć, że staruszek ma depresję? Że mu smutno i potrzebuje pocieszenia? Mam wątpliwości, czy mój 85-letni tata zaakceptowałby robota w roli opiekuna.

Mój by chyba zaakceptował. W Japonii to się już dzieje. Co prawda, Japonia to zupełnie inna kultura, polscy seniorzy mogliby mieć z tym problem, ale mamy starzejące się społeczeństwo i takie rozwiązania będą coraz bardziej potrzebne. Zdaje się, że japońscy seniorzy mają poczucie, że robot ich rozumie, współczuje, pocieszy i rozbawi, kiedy to będzie konieczne.

Co zrobić, żeby system wywołał u człowieka radość? Przecież każdego rozwesela co innego.

Tak, dlatego analiza i synteza emocji muszą być spersonalizowane. Personalizacja już teraz jest normą. Netflix czy Amazon przyznają wprost, że nie istniałyby bez spersonalizowanych systemów rekomendujących. Netflix podsuwa mi te filmy, które chcę zobaczyć, na podstawie moich wcześniejszych wyborów. A gdyby był afektywny, to na podstawie tego, jakim krokiem chodzę po pokoju, wywnioskowałby na przykład, że akurat jestem zdenerwowany, i podsunął mi film relaksujący. W moim przypadku horror klasy C, a komu innemu – komedię romantyczną. Powinno nam się wydawać, że system nas zna i rozumie, choć to oczywiście nie oznacza, że sam będzie miał emocje. To tylko nasze złudzenie.

Jak mierzyć emocje? Czy istnieją obiektywne objawy emocji? Emocje są przecież stanami mentalnymi, niektórzy powiedzieliby: stanami duszy.

Niestety, my, inżynierowie, nie możemy się dowiedzieć od psychologów, czym emocje są. Skąd w ogóle się wzięły? Wykształciły się w toku ewolucji. Ośrodki w mózgu odpowiedzialne za emocje są położone bardzo blisko ośrodków odpowiedzialnych za pamięć. Stąd hipoteza, że emocje mogły oryginalnie służyć m.in. jako pomoc w zapamiętaniu niebezpieczeństwa.

Gdyby Netflix był afektywny, to na podstawie tego, jakim krokiem chodzę po pokoju, wywnioskowałby, że jestem zdenerwowany. I podsunął mi film relaksujący

Są różne teorie. Niektórzy twierdzą, że emocje są związane z reakcjami ciała, inni, że istnieją tylko w mózgu. Paul Ekman [amerykański psycholog, pionier w dziedzinie badań emocji – red.] twierdzi, że wystarczy twarz: jej wyraz jest uniwersalną ekspresją emocji. Jeśli tak, to mielibyśmy gotowe narzędzia analizy. Wystarczy zrobić zdjęcie, a komputer wykryłby konkretne emocje.

Ale przecież często oszukujemy. Udajemy, uśmiechamy się sztucznie albo wręcz przeciwnie: pokazujemy kamienną twarz, gdy tymczasem serce łomoce.

Ja też jestem co do tego sceptyczny, zwłaszcza że według Ekmana to miałoby być uniwersalne kulturowo. Czy naprawdę Japończycy tak samo wyrażają emocje jak Polacy? Ja próbuję budować systemy, które używają różnych źródeł informacji. Mam taką intuicję, że nie wystarczy zbadać tylko wyraz twarzy albo tylko pracę serca. Potrzeba więcej informacji.

W jaki sposób można mierzyć emocje w liczbach?

Często próbujemy je przełożyć na dwie liczby: ilość pobudzenia i jakość pobudzenia.

A jak zbadać złość? Czy można człowieka przerazić tylko na potrzeby badania? To nieetyczne.

To prawda. Ale jak to zrobić? Nie wystarczy przecież, że badany przeczyta instrukcję i rozzłości się na zawołanie. A jak potem sprawdzić, że to faktycznie ta emocja, a nie inna? W takich sytuacjach ludzie często kłamią w dobrej wierze, bo myślą: „zaprosili mnie do tego eksperymentu, chciałbym pomóc tym biednym naukowcom. Mam się zezłościć? OK, tak im powiem, żeby im się wszystko zgadzało”.

Badanie emocji w warunkach laboratoryjnych jest niezwykle trudne także ze względu na inwazyjność. Na przykład w badaniu okulograficznym, za pomocą eye-trackera, delikwent musi wcisnąć głowę w obręcz, by ją unieruchomić. To nie jest komfortowa pozycja, trudno się w niej zrelaksować i w sposób naturalny wyrazić emocje. Badanie percepcji nie musi być w takich warunkach zaburzone, ale badanie emocji – owszem.

Poza tym w badaniach używa się zwykle standardowych bodźców. Zakłada się, że dany obrazek u wszystkich budzi obrzydzenie, a to nieprawda. Mam przeświadczenie, że eksperymenty trzeba spersonalizować i robić je poza laboratorium w możliwie naturalnych warunkach. Dopiero wtedy to, co nam się uda stworzyć, będzie działało wszędzie: na ulicy, w tłumie, na lotnisku.

Dlaczego tego nie robicie? Można przecież poprosić badanych o noszenie różnych urządzeń pomiarowych.

Próbujemy, ale nie jest to proste, bo wiele czynników zaburza pomiary. Nie ma też dostatecznie dużo urządzeń mierzących na przykład pracę serca.

A Holter?

Holter tak, to najwyższa półka, ale noszenia Holtera wpływa na stan emocjonalny. Znam to z własnego doświadczenia.

Próbujemy sobie radzić na różne sposoby. W naszym interdyscyplinarnym zespole (GEIST) opracowaliśmy na przykład grę, która reaguje na emocje gracza. Jeśli gracz się nudzi, to akcja sama się podkręca, potwory wyskakują częściej, a jak się boi – akcja zwalnia. Wykorzystaliśmy pomiary reakcji skórno-galwanicznej i pracy serca. W innych projektach korzystamy z innych źródeł: analizy twarzy, głosu. Próbujemy znaleźć odpowiedź na pytanie, które zestawy metod dają najlepsze rezultaty.

Na razie wszystko wyłączam. Nie mam konta na Facebooku i nie planuję zakupu żadnego urządzenia z Alexą

Gra to jest taki fajny poligon doświadczalny: z jednej strony warunki są kontrolowane, z drugiej jest ta imersja, gracz zanurza się w swoim świecie. Gry afektywne mają podwójną funkcję – służą rozrywce, a jednocześnie są narzędziem do eksperymentowania. Jednym z najważniejszych zastosowań informatyki afektywnej są gry poważne: w formie gry kryją się funkcje treningowo-edukacyjne, czyli w istocie to terapia. Takie gry stosuje się już na świecie do resocjalizacja przestępców czy walki z uzależnieniami, np. od hazardu.

Strach czy nuda są jednoznaczne, ale jak odróżnić np. wstyd od poczucia winy? Jak wyeliminować różnice indywidualne? Osoba nadwrażliwa będzie reagować mocno na drobne bodźce; seryjnemu mordercy ciśnienie nie skoczy nawet na widok bardzo drastycznego obrazu. A oprócz charakteru są jeszcze doświadczenia, traumy…

Tak, to jest problem. Dodatkowo komplikuje sprawę fakt, że przeważnie nie czujemy jednej emocji, tylko kilka, z których jedna może, ale nie musi być dominująca. Nie powinniśmy się spodziewać, że niedługo nastąpi jakieś kompletne rozwiązanie tej kwestii. Skoro psychologom i filozofom się nie udało przez tyle lat, to dlaczego ma się udać nam, specjalistom od sztucznej inteligencji?

Jednak w pewnych wąskich dziedzinach postęp może być bardzo duży już w ciągu najbliższych pięciu-dziesięciu lat. Nowa generacja zaawansowanych systemów nawigacyjnych w samochodach ma być wyposażona w funkcję rozpoznawania pewnych emocji już za rok.

Jakie mogą być konsekwencje społeczne? Czy roboty społeczne zabiorą opiekunom pracę?

Częściowo pewnie tak, ale powstaną nowe zawody. Na przykład niania dla robota. Ktoś przecież będzie musiał roboty nauczyć, jak opiekować się starszymi ludźmi. Dotychczasowe opiekunki zostaną więc kierowniczkami robotów. Albo – trener emocjonalny robotów. Zawsze mówię, że nie boję się sztucznej inteligencji, boję się naturalnej głupoty. Jak dotąd to ona poczyniła dużo więcej szkód.

Ale na jakimś etapie to się może stać dokuczliwe albo nawet niebezpieczne. Wyobraźmy sobie, że systemy rozpoznawania emocji działają już teraz i w mojej komórce mam system, który informuje mnie, co pani teraz czuje… Mógłbym tak odpowiadać na pytania, żeby panią zadowolić. Szczególnie kontrowersyjne są właśnie kwestie związane z prywatnością. Niedługo i tak wszyscy będziemy mieć Alexę, wbudowaną we wszystkie domowe urządzenia, która będzie nas bez ustanku podsłuchiwać i podglądać. I będzie wiedzieć o nas wszystko. Na razie ja wszystko wyłączam. Nie mam konta na Facebooku i nie planuję zakupu żadnego urządzenia z Alexą.

To walka z wiatrakami. O prywatności chyba i tak możemy zapomnieć.

Może i tak, ja w każdym razie nie zamierzam stawiać wiatraka w swoim ogródku. Informatyka afektywna nie została wymyślona w niecnych celach, ale na pewno ma potencjał, by być w niecny sposób zastosowana. Można będzie nas lepiej poznać, a potem wykorzystać tę wiedzę w dowolny sposób. Tak jak w Chinach, gdzie funkcjonuje system punktów społecznych.

Takie zagrożenia są przesłanką do tego, żeby to kontrolować, wprowadzić audyty technologii. W Europie staramy się dbać o dane, szanować prywatność danych, np. medycznych. W Chinach można zapewne dostać wyniki badań każdego obywatela tego kraju. Europa i tak przegrała ten wyścig, zanim go w ogóle zaczęła, bo nie mamy takich ilości danych. Można się obrażać, można się bać, ale przede wszystkim trzeba się przygotować na powstanie takich technologii.

*Grzegorz J. Nalepa jest profesorem w Katedrze Informatyki Stosowanej Akademii Górniczo-Hutniczej w Krakowie. Z wykształcenia jest informatykiem ze specjalnością sztuczna inteligencja. Ukończył również studia magisterskie z filozofii w Uniwersytecie Jagiellońskim. Kieruje interdyscyplinarnym zespołem młodych naukowców GEIST.re, który zajmuje się tworzeniem zorientowanych na człowieka systemów inteligentnych, m.in. z wykorzystaniem metod inżynierii wiedzy i informatyki afektywnej. Jest m.in. laureatem Nagrody Naukowej „Polityki” dla najlepszego naukowca w kategorii „nauki techniczne” w 2012 roku. Współtwórca i prezes Polskiego Stowarzyszenia Sztucznej Inteligencji (PSSI.org.pl). Jest autorem ponad 150 publikacji międzynarodowych i współorganizatorem wielu międzynarodowych warsztatów naukowych. Jego monografia „Modeling with Rules Using Semantic Knowledge Engineering” (Springer 2018) została nagrodzona w organizowanym przez Komitet Informatyki PAN konkursie im. Zdzisława Pawlaka jako najlepsza monografia z zakresu informatyki w roku 2019.