Kierunek: empatia. Rozmowa z Tomaszem Trzcińskim

Czy jako inżynierowie powinniśmy kierować się etyką? Myślę, że tak, ale nie tylko w pracy, podczas pisania algorytmów, lecz w całym życiu. Zawężanie tematu etyki tylko do kontekstu SI banalizuje ten temat, stawiając zarazem sztuczną inteligencję na swoistym piedestale – z dr. Tomaszem Trzcińskim rozmawia Maciej Chojnowski

Maciej Chojnowski: Doktorat na Politechnice w Lozannie, studia magisterskie w Barcelonie i Turynie, staż na Stanfordzie, praca w Google i członkostwo w międzynarodowym Instytucie Inżynierów, Elektryków i Elektroników (IEEE). Obecnie jesteś zatrudniony na Politechnice Warszawskiej i jesteś współwłaścicielem firmy Tooploox. Jak łączysz karierę naukową z biznesem?

Dr Tomasz Trzciński*: Z jednego i drugiego staram się brać to, co najlepsze. Do nauki biznes może wnieść dużo inspiracji dotyczących zarządzania i finansowania projektów. Na schematach, które w firmie czy przemyśle są stosowane jako dobre praktyki, staram się budować wartość dodaną dla nauki.

W biznesie natomiast zależy mi też na wykraczaniu poza krótkoterminowe, czysto finansowe cele, na szukaniu głębszego sensu. W Tooploox możemy robić ciekawe naukowe rzeczy. Ludzie często pytają, po co w firmie piszemy jakiekolwiek publikacje. Przecież to się nie przekłada wprost na sprzedaż. A ja pytam, po co zarabiamy pieniądze. Dla mnie odpowiedź jest prosta: po to, by publikować, tworząc i rozwijając naukę.

Jesteś współwłaścicielem firmy i funkcjonujesz w niej na swoich zasadach. Pewnie dlatego łatwiej ci godzić te dwa światy?

W Tooploox najwyżej cenimy relacje między ludźmi i przede wszystkim staramy się realizować ich marzenia. Jeśli dobry pomysł trafia na kogoś, kto go rozumie, to organizacyjne ramy firmy nie powinny stanowić problemu.

Oczywiście, są warunki bardziej lub mniej sprzyjające. Ale przede wszystkim liczy się dobra argumentacja. Prowadzenie badań w firmie może przecież zbudować jej wizerunek czy otworzyć nowe rynki. Poza tym nauka pozwala ludziom się rozwijać i realizować ambicje. Dzięki temu nasza firma pomaga wspierać rozwój talentów, jednocześnie wzmacniając swą pozycję na bardzo konkurencyjnym rynku pracy, który wymaga wręcz zabiegania o pracownika, szczególnie w dziedzinie sztucznej inteligencji.

Jak wygląda współpraca nauki i biznesu w Polsce, a jak za granicą?

Na Uniwersytecie Stanforda spotkałem młodego doktoranta, który opowiedział mi o współpracy między start-upami z Doliny Krzemowej a tą uczelnią. Rzecz dotyczyła aplikacji badającej sposób poruszania się użytkowników, a dokładniej: mierzącej ich kroki. Sam start-up z tymi danymi za dużo nie robił, skupiając się na liczbie instalacji aplikacji czy elementach biznesowych. Stanford natomiast miał wiele pomysłów. Inicjatywa wyszła od pracowników uniwersytetu – i stworzyli ciekawą publikację. Start-upowi dodała naukowego splendoru, a Stanfordowi pozwoliła zdobyć informacje, których nie byliby w stanie uzyskać, gdyby sami taką aplikację tworzyli.

W Polsce firmy często traktują uczelnie jak podwykonawców, instytucje, które mogą stworzyć rozwiązanie podobne do rynkowego przy dużo niższych kosztach. Naukowcy z kolei obawiają się, czy współpracując z biznesem będą mogli publikować prace przedstawiające rezultaty ich pracy. Bo publikowanie jest przecież główną formą promocji naukowych osiągnięć. Obustronna nieufność, brak wiary w sens współpracy powoduje, że pieniądze nie są wykorzystywane optymalnie, a szanse na sukces maleją. W USA biznes patrzy na naukę jak na realne źródło innowacji, która w długim okresie przynosi dużo wyższe zwroty niż krótkoterminowe inwestycje w nową maszynę czy punkt handlowy.

Takie myślenie przekłada się w Stanach na konkretny model działania?

Oczywiście! Jeśli jakieś rozwiązanie powstaje na uczelni, to ona bierze na siebie niemały koszt uzyskania patentu. Natomiast kiedy doktorant czy profesor chce przenieść opatentowaną technologię do spin-offu, to przychodzi tzw. technical transfer officer, czyli specjalista w zakresie negocjowania kontraktów ze start-upami, i mówi: Zapłaciliśmy za patent, chcielibyśmy coś z niego mieć, ale ponieważ jesteście start-upem, przez pierwsze trzy, cztery lata licencja jest tylko dla was. Chyba że powstaną przychody – wtedy mamy z nich mały procent. Jeśli po tych czterech latach spółkę kupi inwestor, mamy prawo do zrealizowania części zysku, ale nie jesteśmy obecni na każdym etapie życia spółki. Bo po prostu nie to jest naszą specjalnością. My, uczelnie, specjalizujemy się w nauce. Takie podejście to fachowa, rynkowa negocjacja na poziomie uczelni, która prowadzi do obopólnych korzyści.

Coś takiego przyjęłoby się u nas?

Moim zdaniem tak, choć w Polsce chyba wciąż biznes i nauka stają po przeciwnych stronach. Mimo że jest wiele programów, które wspierają tego typu inicjatywy, szczególnie realizowane przez takie instytucje jak NCBiR. W praktyce jednak widzę, że najczęściej to się udaje wtedy, gdy założyciele firmy wywodzą się ze środowiska akademickiego albo naukowcy mają biznesowe korzenie.

Na początku roku ukazał się raport Digital Poland „Map of the Polish AI”. Wynika z niego, że polskie firmy dość powściągliwie inwestują w projekty SI. Szczególnie takie projekty, które wymagałyby podjęcia ryzyka. Czy w Polsce jest rynek na innowacje?

Wciąż mamy większe zaufanie do sprawdzonych rozwiązań z zagranicy niż ryzykownych rodzimych innowacji, mimo że te zagraniczne są często współtworzone przez tych samych polskich inżynierów, którzy mogliby je budować w Polsce. Ten raport przede wszystkim wskazuje na problemy środowiska związanego z SI w Polsce: brak rąk do pracy dla firm realizujących projekty za granicą i małe zapotrzebowanie na ich usługi na rodzimym rynku.

Dlaczego tak jest?

Powodów jest kilka. Na pewno brak u nas kultury długoterminowych inwestycji. W Polsce planowanie biznesowe obejmuje 5–10 lat, podczas gdy giganci międzynarodowi, z którymi współpracuję na uczelni i w firmie, raczej biorą pod uwagę 30, 40 czy 50 lat.

Wydaje mi się też, że nauka w Polsce nie jest traktowana jak źródło rzeczywiście innowacyjnych technologii. To kwestia braku zaufania, ale też historycznych zaszłości – nie ma u nas pomostów między biznesem a przemysłem.

Ponadto firmy zagraniczne mają zdecydowanie większe budżety na takie eksperymenty. Nam cały czas się wydaje, że eksperymentowanie się nie opłaca. A przecież sztuczna inteligencja przez długi czas była właśnie bardziej polem eksperymentów niż rozwiązywaniem problemów biznesowych.

Ale to się zmienia. Coraz więcej firm korzysta z upowszechnienia tych rozwiązań. Obniża się technologiczny próg wejścia. Rozpoznawanie obrazu czy transkrypcja głosu to już funkcjonalność, jak każda inna.

Na Forum Gospodarczym Time dyskutowano o dysproporcjach między największymi globalnymi firmami technologicznymi a Europą. Mówiłeś wtedy, że w Polsce powinniśmy się skupić na tym, w czym mamy doświadczenie, zamiast próbować konkurować z gigantami. Mógłbyś to rozwinąć?

Polska jest częścią Europy, której silnymi stronami są zrozumienie problemów społecznych i szeroko pojmowana humanitarność, szczególnie widoczne, gdy spojrzeć na skłonną do ryzyka Amerykę Google’a czy żyjącą kultem pracy Azję Samsunga czy Huawei. Mamy silne elementy gospodarki: przemysł produkcyjny, spożywczy, ale również mniejsze branże typu projektowanie gier czy turystyka. Mamy również edukację na fenomenalnym poziomie. I na tym właśnie warto się skupić, budując przewagę nad konkurencyjnymi gospodarkami na bazie naszych unikalnych atutów.

Potencjalnych źródeł sukcesu, pozwalających na uzyskanie przewagi, upatruję w różnych zastosowaniach sztucznej inteligencji w branżach, w których jesteśmy silni, np. grach komputerowych czy edukacji. Chodzi na przykład o generowanie realistycznych twarzy w grach albo o wspieranie edukacji czy terapii przy użyciu SI. Przemysł spożywczy czy rolnictwo to ogromny rynek, ale obecnie praktycznie nie korzystają one z osiągnięć SI. A moglibyśmy rozwinąć algorytmy wykrywania szkodników niszczących zboża czy doskonalące metody nawożenia. W ten sposób wykorzystalibyśmy SI do wzmocnienia naszej pozycji lidera w rolnictwie i przemyśle spożywczym.

Specjalizujesz się w widzeniu maszynowym.

Owszem. Prawie 10 lat temu zaczynałem moją przygodę z widzeniem maszynowym (ang. computer vision) od aplikacji związanych z wyszukiwaniem podobieństw między obrazami. W międzyczasie ta dziedzina połączyła się silnie z uczeniem maszynowym. Okazało się, że sporą część problemów, które próbowaliśmy rozwiązać modelując czy projektując rozwiązania ręcznie, jesteśmy w stanie rozwiązywać w oparciu o dane. I na tym w dużej mierze opiera się dziś sukces uczenia maszynowego czy głębokiego uczenia w zastosowaniach związanych z widzeniem.

Obecnie prowadzę kilka projektów, między innymi związanych z zastosowaniem widzenia maszynowego do geolokalizacji. We współpracy z Google’em budujemy algorytmy pozwalające precyzyjnie znajdować położenie telefonu komórkowego i jego użytkownika na podstawie zdjęcia. To jest projekt badawczy, który od 3 lat realizujemy na Politechnice Warszawskiej wraz z dr. Jackiem Komorowskim oraz światowej klasy zespołem.

W ramach grantu SONATA z Narodowego Centrum Nauki rozwijamy też metody uczenia maszynowego do analizy danych zbieranych przez Wielki Zderzacz Hadronów w CERN. Tutaj skupiamy się bardziej na analizie statystycznej, ale też na wykorzystaniu metod uczenia maszynowego do modelowania anomalii czy symulacji zderzeń cząstek w eksperymentach fizyki wysokich napięć. Współpracując z fizykami z Wydziału Fizyki, w tym m.in. dr. Łukaszem Graczykowskim czy prof. Adamem Kisielem, budujemy zespół doktorantów i magistrantów, którzy uczestniczą w codziennej pracy nad tym największym eksperymentem naukowym na świecie.

Bardzo prestiżowa współpraca.

Na pewno niezwykle ciekawa i rozwojowa. Jeśli chodzi o inne zastosowania widzenia maszynowego, to interesują mnie badania inspirowane mediami internetowymi oraz materiałami audiowizualnymi w nich publikowanymi, takimi jak filmy wideo. W ramach tych badań opracowaliśmy m.in. metodę predykcji popularności treści w mediach społecznościowych na podstawie ich aspektów wizualnych.

Niedawno dość głośnym echem odbił się też projekt Comixify dotyczący wykorzystania uczenia maszynowego, wizji komputerowej i deep learningu w transformowaniu wideo w komiks. Jest on rezultatem prac realizowanych przez studentów Politechniki Warszawskiej, którymi się opiekuję, we współpracy z Zakładem Grafiki Komputerowej oraz jego kierownikiem, prof. Przemysławem Rokitą.

Ciekawe projekty badawcze realizujemy również w Tooploox. Zresztą to nie przypadek – ponad połowa naszego zespołu AI to ludzie z doktoratami lub w trakcie ich uzyskiwania, w tym osoby z tak ogromnymi osiągnięciami naukowymi, jak m.in. dr Maciej Zięba, dr Michał Koperski czy dr Rafał Nowak. Współpracowaliśmy z firmą produkującą autonomiczne samochody w dziedzinie chmur punktów 3D. Wraz z firmą budującą inteligentne urządzenia kuchenne tworzymy rozwiązania ułatwiające użytkownikom przyrządzanie jedzenia, realizujemy również projekt o ogromnym potencjale społecznym, rozwijając algorytmy, które będą pomagały w rehabilitacji osób po udarach.

Yann LeCun, jeden z pionierów uczenia głębokiego, powiedział niedawno, że człowiek może się nauczyć prowadzić samochód w 15 godzin, nie powodując kolizji. Natomiast maszyna musiałaby spaść z klifu 10 tysięcy razy, nim wpadłaby na to, jak tego nie zrobić. Człowiek szybko tworzy modele świata, w którym się porusza. Maszyny tego nie potrafią. Jak w związku z tym efektywnie ich używać?

To jest jeden z powodów, dla których moim zdaniem uczenie ze wzmocnieniem (reinforcement learning) nie jest świętym Graalem uczenia maszynowego i nie doprowadzi nas bezpośrednio do tej upragnionej ogólnej sztucznej inteligencji, przynajmniej nie w odosobnieniu. Popełnianie błędów i uczenie się na nich jest niewątpliwie częścią układanki, ale niejedyną.

Jak sobie z tym radzić? Pewnie trzeba dążyć do coraz lepszego zrozumienia tego, co dzieje się w ludzkim mózgu, kiedy uczymy się różnych nowych umiejętności. Zanim wsiądziemy do samochodu, wiemy już, jak działa grawitacja. Jeździliśmy wcześniej na rowerze, motocyklu albo biegliśmy i wiemy, jak różnice w prędkości wpływają na obrazy, które się przed naszymi oczami malują.

Sposób generalizowania wiedzy, którą zdobywamy w różnych okolicznościach, przenoszenia jej na nowe sytuacje, to coś, czego na razie w uczeniu maszynowym nie opanowaliśmy wystarczająco dobrze. Nie na tyle, by można było powiedzieć, że umiemy wytrenować model do jednej czynności, a potem wykorzystać go w zupełnie odmiennym kontekście, mimo że może to być koncepcyjnie bardzo zbliżona czynność.

Co w tej sytuacji można robić?

Są sposoby minimalizowania ryzyka popełnienia błędu przez maszynę, która uczy się od zera. Możemy wykorzystywać kilka różnych modeli i głosować, biorąc pod uwagę to, który z nich daje największą pewność rezultatu.

Możemy też łączyć metody słownikowe, czyli zapisane regułami, z tymi, które są uczone. Współpraca między tymi różnymi podejściami to jeden z kierunków rozwijanych dzisiaj przez naukowców. Przeszliśmy już ten etap, na którym problemy klasyfikacyjne, będące częścią uczenia nadzorowanego, stanowią wielkie wyzwanie. Wchodzimy w dużo ciekawszy, niezagospodarowany teren nienadzorowanego uczenia z nieustrukturyzowanych danych.

Człowiek, który widział w życiu dwa, trzy krzesła, jest w stanie generalizować i rozpoznać wiele innych krzeseł. Maszyna jednak wciąż potrzebuje więcej przykładów. Podobnie jest z uczeniem ze wzmocnieniem. To bardzo dobra metoda do optymalizacji rozwiązań, podobnie zresztą jak metody ewolucyjne, natomiast trudnością jest wciąż odpowiednia symulacja środowiska. Fizyka, chemia czy biologia od setek lat próbują odwzorować to, co dzieje się w rzeczywistości. Jednak naukowcy nadal nie potrafią w pełni wyjaśnić, dlaczego pewne zjawiska wyglądają tak, a nie inaczej, np. w przypadku zderzania się cząstek elementarnych. To jest cały czas aktywna domena badań.

A w przypadku uczenia ze wzmocnieniem symulacja musi być na tyle wiarygodna, żeby później, w realnych sytuacjach, można było ją zastosować. W Instytucie Informatyki, gdzie pracuję, prowadzimy liczne badania dotykające tych zagadnień, zarówno związane z uczeniem ze wzmocnieniem, bazujące na dorobku dr. hab. Pawła Wawrzyńskiego, jak z metodami ewolucyjnymi, kontynuując prace prof. Jarosława Arabasa.

W widzeniu maszynowym używamy wielu danych wygenerowanych syntetycznie (np. za pomocą grafiki komputerowej), które mogą służyć jako punkt startu do trenowania modeli w oparciu o dane rzeczywiste, co znacznie przyspiesza proces uczenia. Czy to wystarczająco dużo, żeby te modele były skalowalne i by można je przenieść do warunków rzeczywistych? Niestety nie zawsze.

Wspomniałeś o kwestii grawitacji i doświadczenia cielesnego. I o tym, że uczenie ze wzmocnieniem nie jest drogą do ogólnej SI. Koncepcja embodiment zakłada, że prawdziwa sztuczna inteligencja musi mieć ciało, by mogła odbierać świat tak, jak to robi człowiek. Może drogą do silnej SI jest ucieleśnienie lub choćby jego symulacja?

Ucieleśnienie, czyli elementy związane z robotyką czy aspektami hardware’owymi, są dużym wyzwaniem, które narzuca jakoś dalsze kroki, jeśli chodzi o sztuczną inteligencję. Dzięki ciału poznajemy świat wieloma zmysłami i powinniśmy to poznawanie umożliwiać również maszynom uczącym.

Ale dla mnie dużo ważniejszą inspiracją jest kontekst społeczno-socjologiczny. Empatia, zrozumienie innych ludzi czy wykorzystanie sztucznej inteligencji do terapii czy edukacji. Moim zdaniem to dużo bardziej przyszłościowy kierunek związany z rozwojem uczenia maszynowego.

Z profesorem Andrzejem Nowakiem z Uniwersytetu Warszawskiego, działającym też w Stanach, planujemy rozpocząć badania związane z Humane AI, czyli z aspektami społecznymi sztucznej inteligencji. Na fali popularności serwisu Comixify skontaktowała się z nami terapeutka, Joanna Latosińska-Kulasek, zajmująca się dziećmi ze spektrum autyzmu (ASD). Okazało się, że nasza sztuczna inteligencja do tworzenia komiksów może być wykorzystywana w przedstawianiu wielu sytuacji społecznych w postaci łatwo przyswajalnej grafiki. To z kolei pomaga dzieciom z ASD rozwinąć empatię i myślenie abstrakcyjne.

IEEE opublikowało teraz dokument Ethically Aligned Design. Podobnych inicjatyw jest więcej, na przykład unijny projekt etycznej SI. Czy w świecie inżynierii SI etyka jest dziś rzeczywiście tak istotna?

Sztuczna inteligencja jest taka, jaką ją tworzymy. Czy jako inżynierowie powinniśmy kierować się etyką? Myślę, że tak, ale nie tylko w pracy, podczas pisania algorytmów, lecz w całym życiu. Powinniśmy słuchać naszych sumień, bo to definiuje nas jako ludzi.

Nasze zrozumienie wzorców etycznych zależy od wielu czynników – wychowania, relacji zbudowanych z rodzicami czy przyjaciółmi, doświadczeń z nieznajomymi. Zawężanie tematu etyki tylko do kontekstu SI banalizuje ten temat, stawiając zarazem sztuczną inteligencję na swoistym piedestale. Powinniśmy dbać o etykę czy to będąc strażakami, czy policjantami, politykami, naukowcami – czy inżynierami sztucznej inteligencji.

Czy to dziś nasze największe wyzwanie, jeśli chodzi o rozwój sztucznej inteligencji? Niekoniecznie. Ale to ważna sprawa, bo sztuczna inteligencja to wiele horyzontalnych zastosowań, zjawisko dotykające różnych kwestii, również tych związanych z etyką czy moralnością.

Tim O’Reilly mówi w kontekście SI i nowych technologii, że powinniśmy obawiać się nie jakiejś pojedynczej maszyny, ale raczej ekosystemu, w którym relacja ludzi z techniką okaże się źle zaprojektowana i będzie źródłem wielu problemów. Jest się czego bać?

Zamiast wróżyć z fusów, warto spojrzeć na doświadczenia poprzednich albo nawet obecnych pokoleń. Na to, jak radziły sobie z technologiami. Bo sztuczna inteligencja jest technologią. Może inną niż poprzednie, ale jednak technologią. Telefony komórkowe rozwiązały wiele naszych problemów, ale też wygenerowały kolejne, np. uzależnienie od ciągłego wpatrywania się w ekrany. Czy to oznacza, że świat bez telefonów komórkowych byłby lepszy? Wątpię.

Wydaje mi się, że sztuczna inteligencja będzie powodować coraz większą automatyzację pracy i coraz poważniejsze zmiany w naszej codzienności. Najbardziej realne zagrożenie polega chyba na tym, że, nie będąc zmuszonym do pracy, która wykorzystywałaby nasze talenty, będziemy sobie musieli w końcu odpowiedzieć na pytania: „Po co tutaj jesteśmy?” i „Co chcemy zrobić z czasem, który został nam dany?”.

*Dr inż. Tomasz Trzciński jest adiunktem w Zakładzie Grafiki Komputerowej Instytutu Informatyki Politechniki Warszawskiej. W 2014 r. uzyskał tytuł doktora w zakresie wizji maszynowej na École Polytechnique Fédérale de Lausanne w 2014 r. W 2010 r. ukończył studia magisterskie na Universitat Politècnica de Catalunya (technologie informacyjne) i Politecnico di Torino (elektronika). Pełni funkcję Associate Editor w „IEEE Access”, jest także recenzentem prac publikowanych w czasopismach (TPAMI, IJCV, CVIU, TIP, TMM) oraz materiałów konferencyjnych (CVPR, ICCV, ECCV, ACCV, BMVC, ICML, MICCAI).

Pracował w Google, Qualcomm oraz w Telefónice. W 2017 r. odbył staż naukowy na Uniwersytecie Stanforda. W 2016 r. znalazł się na liście New Europe 100 – innowatorów i liderów pozytywnych zmian z krajów Europy Środkowo-Wschodniej. Jest współorganizatorem warsaw.ai, członkiem IEEE oraz Computer Vision Foundation. Zasiada również w Radzie Naukowej konferencji PLinML, aktywnie wspiera prace nad polską strategią AI. Jest współwłaścicielem firmy Tooploox, gdzie jako Chief Scientist kieruje zespołem zajmującym się uczeniem maszynowym.