Prof. Włodzisław Duch: Dla sukcesu każdej strategii związanej z AI kluczowa jest dobra edukacja
Najważniejsze dziś technologie sztucznej inteligencji (artificial intelligence, AI) to połączenie możliwości analizy sygnałów (obrazów) i rozumowania opartego na heurystycznych metodach rozumowania, a więc fuzja technik stosowanych w systemie IBM Watson z metodami głębokiego uczenia w zastosowaniu do dużych zbiorów danych. Pozwala to na tworzenie aplikacji wykorzystujących analizę obrazów, diagnostykę medyczną, analizę zdjęć satelitarnych, kontrolę autonomicznych pojazdów itp. Wymagają one zarówno rozpoznawania struktur (percepcji), jak rozumowania, które percepcję wykorzystuje.
Dlatego dla sukcesu każdej strategii związanej z AI kluczowa jest dobra edukacja. Tworzenie oprogramowania jest znacznie bardziej skomplikowane niż projektowanie mostów, dlatego nie dostajemy na nie podobnej gwarancji, jak na budowle. Tymczasem za budowę systemów AI zabierają się osoby, które często nie przeszły choćby podstawowych kursów ani nie przeczytały dobrego podręcznika.
Oto kilka wybranych tematów rozwijanych w moim zespole. Wszystkie mają wielki potencjał komercyjny jako technologie podstawowe czy aplikacyjne.
Meta-learning
Problem: na rynku jest bardzo dużo pakietów oprogramowania do uczenia maszynowego, można za ich pomocą dokonać analizy danych na miliony sposobów. Budowa modeli za pomocą typowych systemów uczących się wymaga dużej wiedzy i polega na ręcznym konstruowaniu modelu, wstępnym przygotowaniu danych, selekcji cech, wyborze metody i szczegółowej architektury systemu uczącego, a następnie nauczeniu jego parametrów na zgromadzonych danych.
Około 20 lat temu zaproponowałem rozwiązanie tego problemu za pomocą meta-uczenia, czyli poszukiwania najlepszych modeli w przestrzeni wszystkich modeli, a po wyborze najbardziej obiecujących modeli – standardowego douczania parametrów. Potrzebna jest do tego duża moc obliczeniowa, którą obecnie dysponujemy.
Stworzyliśmy również (główni projektanci to dr hab. Norbert Jankowski i dr hab. Krzysztof Grąbczewski) oprogramowanie Intemi, które definiuje przestrzeń i proces szukania najlepszych modeli w oparciu o analizę złożoności.
Korzyści: znaczne ułatwienie tworzenia modeli danych bez głębokiej znajomości uczenia maszynowego. Takie podejście może się stać podstawą do dalszego szybkiego rozwoju zastosowań uczenia maszynowego w wielu projektach sztucznej inteligencji.
Podstawy i interpretowalność modeli uczenia maszynowego
Jednym z najważniejszych obecnie problemów jest tworzenie interpretowalnych modeli i zrozumienie podstaw działania uczących maszyn.
W szczególności opracowaliśmy modele nadające się do analizy trudnych projektów o złożonej wewnętrznie logice, oparte na nowych celach uczenia się, maszyny wsparcia cech, jak też alternatywę dla systemów rozmytych, bazującą na prototypach i uczeniu opartym na podobieństwie. Podejścia te mają liczne przewagi w stosunku do powszechnie stosowanych w AI metod logiki rozmytej i w ostatnich latach są na nowo odkrywane przez ekspertów od uczenia maszynowego ze względu na możliwości interpretacji sieci neuronowych z nowymi funkcjami transferu neuronów.
Interpretacja modeli uczenia maszynowego nie zawsze jest możliwa. Dwa najważniejsze podejścia to ekstrakcja reguł logicznych, opisująca działania takich modeli, i wizualizacja ich działania.
W wielu przypadkach funkcje realizowane przez sieci neuronowe i inne modele uczenia maszynowego są zbyt skomplikowane, by można je było przedstawić w zrozumiały sposób. Można natomiast przedstawić graficznie wyniki ich działania i upewnić się, że są to rozwiązania stabilne i bezpieczne. Rozwiązuje to szeroko obecnie dyskutowany problem „czarnej skrzynki”, który ogranicza zastosowania AI w dziedzinach wymagających pewności i stabilności przewidywań.
Aplikacje sztucznej inteligencji, które wykorzystują naturalne sposoby komunikacji, odwołując się do naszych zdolności poznawczych na poziomie psychologicznym, określa się mianem aplikacji kognitywnych. IBM nazywa swoją technologię Watson „kognitywnym obliczaniem”.
Za budowę systemów AI zabierają się osoby, które często nie przeszły choćby podstawowych kursów ani nie przeczytały dobrego podręcznika
Pokrewna dyscyplina, określana jako „kognitywna infokomunikacja”, skupia się na komunikacji między człowiekiem i systemami informatycznymi oraz wynikającymi stąd aplikacjami. Poziom funkcji neuropsychologicznych jest nieco głębszy a inspiracje dla AI z niego czerpane określić można jako informatykę neuropsychologiczną, która jest znacznie słabiej rozwinięta, ale będzie miała w przyszłości ogromne znacznie. Takie podejścia są bardzo istotną częścią sztucznej inteligencji.
Większość dużych firm – Amazon Alexa, Google Assistant, Apple Siri, Samsung Bixby, Microsoft Cortana i wiele innych – oferuje obecnie tzw. osobistych asystentów. To przykład informatyki kognitywnej, gdzie techniki sztucznej inteligencji stosowane są do zrozumienia mowy i tworzenia prostych modeli wiedzy odnoszącej się do oczekiwań użytkownika. Często odbywa się to z wykorzystaniem architektur kognitywnych, czyli budowaniem oprogramowania w oparciu o pewien model działania naturalnych układów poznawczych, nierzadko inspirowanych ogólną budową mózgu.
Ze względu na słaby rozwój sztucznej inteligencji w zakresie metod przetwarzania języka naturalnego dla języka polskiego brakuje polskojęzycznych wersji osobistych asystentów. Konieczne jest tu rozumienie składni i sensu zapytań (wykłady na ten temat prowadziłem już w 2005 roku).
Stworzenie takiego interfejsu nazwanego HIT (od humanized interfaces) na urządzenia mobilne, łącznie z graficznym awatarem, który mógłby reprezentować w określonych sytuacjach swojego właściciela, proponowałem w 2004 roku w Singapurze. Po rozpoznaniu kategorii zapytania program miał wywołać odpowiednią, wyspecjalizowaną aplikację, pozwalającą na interakcję głosową, dotykową lub wykorzystującą gesty. Użycie technologii Q/A (question/answer), podobnej do gry w 20 pytań, pozwalało uściślić tematykę. Planowaliśmy zarówno aplikacje edukacyjne, testy pozwalające ocenić wiedzę na różnych poziomach, porady dotyczące zdrowia i wiele innych. Niestety projekt ten nie został wówczas sfinansowany.
Informatyka neurokognitywna
DARPA [Defense Advanced Research Projects Agency – Agencja Zaawansowanych Projektów Badawczych w Obszarze Obronności w strukturach Departamentu Obrony USA – red.] realizuje od 2017 roku program „Targeted Neuroplasticity Training”, który ma wspomagać naukę wielu umiejętności, w tym języków obcych, kryptografii czy metod analizy informacji potrzebnych wywiadowi (intelligence analytics).
Wykrywanie podejrzanych struktur na obrazach lub podczas obserwacji w czasie rzeczywistym jest znacznie lepsze, jeśli zastosować metodę neurofeedback – do zwracania uwagi na podstawie reakcji mózgu, która może nie zostać świadomie zauważona. Metody takie dały dobre rezultaty również w systemach rekomendujących informację przeglądaną w internecie.
Wiele zastosowań informatyki neurokognitywnej będzie dotyczyło metod neuromodulacji. Obecnie w przypadku choroby Parkinsona i wielu innych stosowane są liczne metody głębokiej stymulacji, stymulacje nerwu błędnego, różne metody stymulacji w przypadku depresji czy przewlekłego bólu (zajmuje się tym Polskie Towarzystwo Neuromodulacji i Polskie Towarzystwo Badania Bólu).
Ze względu na słaby rozwój sztucznej inteligencji w zakresie metod przetwarzania języka naturalnego dla języka polskiego brakuje polskojęzycznych wersji osobistych asystentów
Pojawiają się również możliwości diagnozowania i terapii osób z problemami psychosomatycznymi. Znaczna część problemów psychicznych wynika z nieprawidłowego przepływu informacji w mózgu, zbyt słabych lub zbyt silnych połączeń pomiędzy różnymi obszarami (czyli zaburzeń konektomu, zbioru tych połączeń). Wkrótce możliwa będzie rekonstrukcja tych połączeń przez zwiększanie neuroplastyczności przy zastosowaniu nieinwazyjnych metod, takich jak DCS i TMS.
Jeszcze większe możliwości stwarza bezpośrednia stymulacja mózgu za pomocą mikroelektrod. Pokazano już efekty takiej stymulacji w korze przedruchowej. I chociaż pobudzenia były zbyt słabe, by wywołać skurcz mięśni, miały one wpływ na szybsze uczenie się specyficznych umiejętności. Synchronizacja procesów w sieci czołowo-ciemieniowej za pomocą TMS wpływa w znaczny sposób na poprawę działania pamięci roboczej. Trwają też prace nad implantami pamięci, zastępującymi pewne obszary hipokampu, co ma wielkie znaczenie w terapii osób cierpiących na łagodne zespoły otępienne i inne choroby powodujące zaburzenia pamięci.
Analiza aktywności mózgu pozwoli na tworzenie lepszych środowisk uczenia się, zaadaptowanych do indywidualnych różnic w preferencjach uczenia się. W naszym laboratorium prowadzimy badania rozwoju słuchu fonematycznego, który jest podstawą uczenia się języka, pamięci roboczej u niemowląt i umiejętności matematycznych u przedszkolaków.
Monitorowanie rozwoju za pomocą bezinwazyjnych urządzeń pomiarowych, okulometrii, EEG, analizy obrazów wideo, pozwoli na stworzenie środowisk i interaktywnych zabawek dla jak najlepszych warunków do rozwoju inteligencji dzieci.
Ta sprawa ma wielkie znaczenie społeczne i sztuczna inteligencja wykorzystywana jest tu na wielu etapach analizy danych. W naszym Laboratorium Neurokognitywnym powstały dwa spin-offy: Neurodio i PerKog Technologies. Zdobyliśmy cztery złote medale na targach wynalazczości Lépine w Paryżu, INPEX w Pittsburghu, INTARG w Krakowie oraz INNOVA EUREKA 2015 w Brukseli, wyróżnienie Marszałka Województwa Kujawsko-Pomorskiego oraz Dyplom Ministra Szkolnictwa Wyższego i Nauki za projekt inteligentnej kołyski i zabawek kognitywnych, służących do wczesnej diagnostyki, wykrywania nieprawidłowości rozwoju, ciągłego monitorowania niemowląt i kierunkowania ich rozwoju.
Stymulacje rozwoju słuchu fonematycznego i słuchu muzycznego umożliwią dzieciom naukę dowolnego języka, w tym języków tonalnych. Stymulacja rozwoju pamięci roboczej przez stawianie wyzwań i wykorzystanie mechanizmów nagrody mózgu wpłynie na rozbudzenie ciekawości, aktywności, chęć eksploracji i uczenia się dziecka.
Proponowaliśmy też projekty służące ocenie stanu mentalnego osób odpowiedzialnych za życie innych ludzi (np. pilotów czy operatorów niebezpiecznych urządzeń), oparte na analizie parametrów fizjologicznych i testach neuropsychologicznych. Opracowaliśmy automatyczny system analiz testów psychometrycznych, takich jak MMPI, wykrywający zaburzenia mentalne, który można zastosować przy ocenie pracowników dużych firm. System został nauczony na przykładach dostarczonych przez psychometrów i wykorzystuje wnioskowanie oparte na regułach rozmytych. Dotychczas był stosowany głównie przez psychologów klinicznych do testowania studentów.
Projekt DISCOVERITY miał służyć wykrywaniu prób oszustwa, nieprawdziwych odpowiedzi na zadawane pytania. Umożliwiała to analiza sygnałów głosu, oddechu, pulsu, termowizji, mikroekspresji twarzy z obrazu wideo, ruchu ciała i oczu, a w przypadku konieczności dokładniejszej analizy – użycie EEG.
Nasz projekt Alter Ego miał zbierać i przechowywać wspomnienia osób cierpiących na demencję
W 2005 roku przedstawiliśmy DISCOVERITY Defence Science Organization w Singapurze, ale było za wcześnie na tego typu projekty. Zaprezentowałem go również psychiatrom ze szpitala weteranów w Cincinnati, jako projekt mający przeprowadzić wstępny wywiad z pacjentami, podsumowujący dla lekarza zmiany stanu zdrowia badanego. W przypadku podejrzeń o zatajenie informacji bądź podanie informacji nieprawdziwych system dialogu zadaje dodatkowe pytania, przypominając ostatnie rozmowy. Można to połączyć z projektami telemedycznymi, skracając czas potrzebny lekarzowi do zorientowania się w sytuacji.
W ramach projektu LifeNaut wiele osób tworzy repozytoria pozwalające na budowanie osobistych awatarów, z którymi będą mogli porozmawiać ich potomkowie. Nasz projekt Alter Ego miał zbierać i przechowywać wspomnienia osób cierpiących na demencję.
W przypadku osób starszych, cierpiących na problemy z pamięcią, taki system, zbierający informacje o ich życiu, dopytujący się o relacje rodzinne, prezentujący zdjęcia i filmy i przypominający znajdujące się na nich osoby, służy podtrzymaniu struktury ich osobowości i poprawia kontakty z członkami rodziny oraz opiekunami. Przypominanie sobie historii życia, analiza relacji pomiędzy osobami i zachęcanie do uzupełniania szczegółów oraz pokazywanie filmów i zdjęć jest szczególnie ważne w przypadku choroby Alzheimera, bo wydłuża czas, w którym kontakt z chorą osobą zanika.
Opisane powyżej projekty przygotowane były już ponad dziesięć lat temu, ale nie spotkały się ze zrozumieniem. Dopiero stworzenie Neurokognitywnego Laboratorium w nowym centrum badawczym dało szansę na realizację niektórych z nich.
Kreatywne obliczanie
W jednym z moich pierwszych artykułów na temat intuicji i kreatywności obliczeniowej inspiracje neurobiologiczne posłużyły do zbudowania modelu tworzenia słów na podstawie opisu produktów lub usług. Model ten wymaga wytrenowania skojarzeniowej sieci neuronowej na znanych przypadkach (np. słowniku danego języka), wstępnego pobudzania takiej sieci za pomocą opisu produktu, poszukiwania silnie łączących się ze sobą fragmentów reprezentacji i selekcji opartej na filtrach semantycznych i fonologicznych.
To pierwsza implementacja teorii kreatywności, znanej w psychologii poznawczej pod nazwą Blind Variation Selective Retention (BVSR). Umożliwia to nie tylko tworzenie nowych nazw (usługi takie oferuje wiele firm zatrudniających specjalistów), ale też analizę neologizmów i nadawanie im znaczenia.
Wiąże się to też z dziedziną gier słownych, takich jak gra w 20 pytań, pozwalająca uściślić sens pytań w systemach dialogu w języku naturalnym. Podstawą wszystkich zastosowań wymagających rozumienia tekstu i mowy jest pamięć semantyczna. Boty w środowiskach wirtualnych wykorzystują prymitywną pamięć semantyczną, prezentując informację na stronach firm, ale mają bardzo ograniczone możliwości.
Realizowane w minionej dekadzie wielkie projekty takich firm jak Cyc Corporation i Microsoft czy projekty ConceptNet i Open Mind Common Sense na MIT, zmierzające do stworzenia systemów rozumujących w oparciu o wielkie sieci semantyczne, nie zakończyły się sukcesem.
Można się jednak spodziewać znacznego postępu w rozwoju systemów dialogu w języku naturalnym ze strony firmy Semantic Machines, przejętej przez Microsoft w 2018 roku. Ich projekt wykorzystuje metody rozpoznawania mowy, głębokie uczenie maszynowe i uczenie z krytykiem, tworzy duże korpusy danych potrzebne do uczenia modeli. Znaczna część technologii ma być niezależna od języka. Na początek planowany jest system w języku angielskim i chińskim. Języki fleksyjne, takie jak polski, stwarzają specyficzne problemy.
Oparty na tym system dialogu będzie uwzględniał kontekst i intencje rozmówcy, powinien też wykazywać pewną kreatywność. Powstanie takiego systemu spowoduje rewolucję w sposobie używania komputerów, urządzeń mobilnych i internetu rzeczy. W ostatnich latach kreatywność obliczeniowa stała się ważnym tematem i powstało wiele grup tym się zajmujących. Nadal mamy bodaj jedyną implementację BVSR na świecie.
Materiał jest opracowaniem pierwszej części pracy prof. Włodzisława Ducha pt. „Uwagi do strategicznego programu sztucznej inteligencji w Polsce. Podstawy uczenia maszynowego, informatyka kognitywna i technologie neurokognitywne” (Toruń 2018), przygotowanej dla OPI PIB.