Maszynowe algorytmy mogą analizować gigantyczne zbiory danych, którym nie daliby rady ludzie. Ale nie wszystko sprowadza się do prostej analizy dwuwymiarowych danych
Jeśli chodzi o wyławianie wzorców w morzu danych, algorytmy uczenia maszynowego nie mają sobie równych. Rozpoznają twarze na zdjęciu, obiekty w otoczeniu. Ale nic z tego nie rozumieją. Nic nie wiedzą o otaczającym je świecie.
To szczególny problem przy konstruowaniu robotów, które mają pomagać ludziom na co dzień. Jeśli chcemy, żeby robot przyniósł nam filiżankę orzeźwiającego naparu, gdy powiemy „przynieś mi z kuchni kawę”, musi wiedzieć bardzo wiele rzeczy o otaczającym go świecie. Przede wszystkim musi wiedzieć, gdzie jest kuchnia i gdzie w niej stoi kawa.
Jednym słowem: w maszynowej pamięci musi powstać – jak to dzieje się w ludzkim mózgu – mapa przestrzenna, która zawiera informacje o układzie pomieszczeń i przedmiotów. W mózgach takie mapy powstają nieświadomie. Dla twórców robotów to bardzo poważny problem. Jak przełożyć obraz z kamery na taką mapę? Jak z pikseli stworzyć model fizycznego świata?
Naukowcy z amerykańskiego Massachusetts Institute of Technology stworzyli algorytm – narzędzie, które znacznie to ułatwi. Nazwali je 3D Dynamic Scene Graphs. Pozwala na szybkie tworzenie trójwymiarowych map otoczenia i opatrywanie obiektów odpowiednimi etykietami. Pozwala też – co nie mniej istotne – na szybkie pozyskiwanie informacji z takiej mapy.
Szef zespołu, Luca Carlone, na co dzień adiunkt wydziału aeronautyki i astronautyki MIT, komentuje na stronie uczelni, że skompresowanie informacji o otoczeniu jest niezwykle użyteczne, bo pozwala na szybkie podejmowanie decyzji i planowanie drogi. „To niezbyt odległe od tego, co robimy my, ludzie. Jeśli planujemy przejść z domu na uczelnię, nie robimy tego krok po kroku. Po prostu myślimy o ulicy, punktach orientacyjnych, co sprawia, że zaplanowanie trasy jest szybsze”.
Co w pomyśle badaczy z MIT jest nowego? Dotychczas widzenie i nawigacja podążały osobnymi ścieżkami. Mapowanie w trzech wymiarach pozwalało na orientację robotów w przestrzeni. Opatrywanie obiektów etykietami było zwykle oparte na obrazach ze zdjęć wideo, czyli dwuwymiarowych.
Zespół postanowił połączyć jedno z drugim i mapować przestrzeń w trzech wymiarach, jednocześnie ucząc system klasyfikacji obiektów (przedmiotów i ludzi). Wszystko to w czasie rzeczywistym – bo choć przedmioty zwykle spoczywają na swoich miejscach, ludzie mają skłonność do przemieszczania się.
Nasza praca to skok w nową erę, w której roboty zyskują percepcję, którą można nazwać przestrzenną sztuczną inteligencją. Jest dopiero w powijakach, ale ma niezwykły potencjał
Antoni Rosinol, główny badacz zespołu
Rozwiązanie oparte jest na bibliotece open source (wykorzystywanej do tworzenia trójwymiarowych map przestrzennych) o nazwie Kimera. Tworzy ono trójwymiarową sieć, w której obiekty są jej węzłami sieci. Robot może przeglądać taki trójwymiarowy model świata za pomocą różnych filtrów, które uwzględniają obiekty danego rodzaju. To nieco przypomina ludzki sposób skupiania uwagi. My także nie zwracamy świadomie uwagi na wszystko, co nas otacza – jedynie na to, co jest nam do wykonania bieżącej czynności potrzebne.
„W zasadzie wyposażamy roboty w modele mentalne podobne do ludzkich” – mówi Luca Carlone. – „To może znaleźć wiele zastosowań: od autonomicznych aut, przez poszukiwania w akcjach ratowniczych, procesy przemysłowe, po roboty domowe”.
„Nasze podejście było możliwe dzięki postępom w głębokim uczeniu maszynowym i dekadom badań nad mapowaniem przestrzennym w czasie rzeczywistym” – dodaje Antoni Rosinol, główny badacz zespołu. – „Nasza praca zaś to skok w nową erę, w której roboty zyskują percepcję, którą można nazwać przestrzenną sztuczną inteligencją. Jest dopiero w powijakach, ale ma niezwykły potencjał”.
Potencjał dostrzegła też amerykańska armia, bowiem badania były częściowo finansowane przez Army Research Laboratory (wojsk lądowych) oraz Office of Naval Research (marynarki wojennej). Nic dziwnego, orientujące się w przestrzeni roboty przydadzą się także siłom zbrojnym.
Praca badaczy zostanie przedstawiona na konferencji „Robotics: Science and Systems”, która odbyła się 12-16 lipca. Opublikowano ją w serwisie ArXiv. Kod dostępny jest w serwisie GitHub.