SI, która uczy się jak dziecko

Uczenie algorytmów sztucznej inteligencji to żmudne zadanie. Zwykle potrzeba do tego milionów przykładów. Czy można szybciej? Okazuje się, że można

Badacze z Carnegie Mellon University (CMU) opracowali nową metodę uczenia algorytmów sztucznej inteligencji. Zainspirowało ich to, jak uczą się dzieci.

Czy to pies, czy pudel?

W uczeniu nadzorowanym algorytmom przedstawia się zestaw do nauczenia i od razu podaje szczegółowe opisy. Ale przecież dzieci nie uczą się w ten sposób. Zanim nauczą się odróżniać jamnika od owczarka niemieckiego, najpierw uczą się, jak wygląda dowolny pies. Innymi słowy: ludzkie uczenie jest oparte na hierarchicznych drzewach wiedzy: z węzła „pies” odchodzą niższe poziomy – przedstawiciele poszczególnych psich ras.

Takie uczenie, zwane „curriculum learning” (od ang. curriculum, czyli „program nauczania”), jest znane od lat 90. ubiegłego wieku. Przypomina to sposób, w jaki świata uczą się właśnie małe dzieci: od ogółu do szczegółu. Ale do tej pory takie uczenie zwykle oznaczało, że sieć neuronową karmi się porcjami wiedzy najpierw ogólnej na jednym zestawie danych, potem szczegółowej na osobnym.

Nowatorstwo badaczy z CMU polega na zastosowaniu podejścia dwustopniowego na tym samym zestawie danych. Najpierw podaje się opisy ogólne („to jest pies”), a dopiero po tym, jak algorytm nauczy się klasyfikacji ogólnej, uczy się rozpoznawania poszczególnych przykładów, ale z tego samego zestawu („to pudel”).

Czy ma to jakieś praktyczne znaczenie? Zdecydowanie tak, bowiem większość dzisiejszych algorytmów rozpoznawania obrazów trenuje się na konkretnym zestawie danych, a jeśli po ich przedstawieniu nadal siec neuronowa ich nie rozpoznaje – uznaje się, że potrzebne jest więcej przykładów.

To czasem bywa kłopotliwe (dostępne publicznie zbiory mają ograniczoną pojemność), a czasem jest sporą przeszkodą (system SI do rozpoznawania złamań można wytrenować – ale przedtem trzeba skądś zdobyć zdjęcia rentgenowskie połamanych kończyn).

Wykorzystanie tego samego zestawu danych po raz drugi sprawia, że potrzeba ich mniej. Badacze z CMU wykazali, że ich sposób pozwala rozpoznać na tym samym zestawie danych o 7 procent obrazów więcej.

Pracę przedstawiono podczas International Conference of Learning Representations i opublikowano na GitHubie.

Drzewa w układach scalonych

Co ciekawe, w podobnym czasie inżynierowie z Purdue University odkryli, że hierarchiczną strukturę wiedzy można tworzyć także na poziomie fizycznym – hardware’u. W opublikowanej niedawno w „Nature Communications” pracy twierdzą, że kryształy tlenku neodymu i niklu o strukturze perowskitu mogą działać jak elementy obliczeniowe, w których zakodować można nie jeden bit informacji, ale całe „drzewo” stanów pamięci.

Do tej pory takie zjawiska obserwowano tylko w eksperymentach z użyciem „materiałów kwantowych” z wykorzystaniem bardzo niskich temperatur – dużo za niskich, by mogły znaleźć praktyczne wykorzystanie. Badacze wykazali, że w odkrytym przez nich materiale występuje także w temperaturze pokojowej. To, jak twierdzą, otwiera drogę do rozwiązań „sprzętowej AI” (hardware AI), w których materiał przejmuje część zadań obliczeniowych oprogramowania.

Przy okazji badacze zauważają, że opisywane przez nich zjawisko polega na transporcie protonów. Na tym opiera się także przewodnictwo nerwowe u zwierząt (w elektronice poruszają się elektrony), więc może być to droga na bezpośrednią komunikację maszyn (na przykład implantów) z żywymi organizmami.