Roboty uczą się patrzeć, czuć, wąchać i smakować, żeby lepiej zrozumieć świat. A co ze słuchem? Dźwięki maszynom też się przydadzą. Pokazali to amerykańscy badacze

Ludzie rzadko używają tylko jednego zmysłu, aby zrozumieć świat. Inspirowane naturą roboty zwykle polegają tylko na „wzroku” kamer i sensorów, a także coraz częściej dotyku. Tymczasem naukowcy z Uniwersytetu Carnegie Mellon (CMU) chcą poprawić postrzeganie świata przez maszyny, dodając im kolejny zmysł. To słuch.

„Prawdziwie inteligentni agenci muszą uchwycić współdziałanie wszystkich zmysłów, aby zbudować bogate fizyczne zrozumienie swojego świata. W robotyce zaobserwowaliśmy ogromny postęp w używaniu percepcji wzrokowej i dotykowej; jednak często ignorowaliśmy kluczowy zmysł: dźwięk. Wynika to przede wszystkim z braku danych, które rejestrują grę akcji i dźwięku” – napisali dr Lerrel Pinto, Dhiraj Gandhi i Abhinav Gupta, naukowcy z Instytutu Robotyki CMU.

Odkryli, że dźwięki mogą pomóc robotom w rozróżnianiu przedmiotów, znacząco poprawiając ich percepcję. Słuch może również pomóc maszynie określić, jaki rodzaj działania charakteryzuje dany dźwięk. Robot może też wykorzystać dźwięki do przewidywania właściwości fizycznych nowych obiektów.

W robotyce zaobserwowaliśmy ogromny postęp w używaniu percepcji wzrokowej i dotykowej; jednak często ignorowaliśmy kluczowy zmysł: dźwięk. Wynika to przede wszystkim z braku danych

Badacze zauważyli, że słyszący robot z powodzeniem klasyfikował obiekty w 76 procentach przypadków. W eksperymencie wykorzystali robota współpracującego o imieniu Sawyer, produkowanego przez amerykańską firmę Rethink Robotics. Zaczęło się od zbioru danych – rejestracji wideo i audio 60 różnego typu przedmiotów. Były to m.in. zabawkowe klocki, narzędzia, buty, jabłka i piłki tenisowe.

Zespół uchwycił interakcje za pomocą eksperymentalnego urządzenia, które nazwali Tilt-Bot – kwadratowej tacy przymocowanej do ramienia Sawyera. Umieszczali przedmiot na tacy, którą Sawyer przesuwał w przypadkowych kierunkach i pod różnymi kątami nachylenia. Kamery i mikrofony rejestrowały każdy ruch danego przedmiotu i dźwięk mu towarzyszący, gdy toczył się, ślizgał i zsuwał. W ten sposób zarejestrowali ok. 15 tysięcy interakcji. To największy tego rodzaju zbiór na świecie. Jest udostępniony, by inni badacze mogli z niego skorzystać.

Adres filmu na Youtube: https://www.youtube.com/watch?v=z38-WCZ7Rb8&feature=emb_logo

Tilt-Bot w akcji
Źródło: CMUComputer Science /YouTube

„Pokazujemy, że dźwięk w rzeczywistości dostarcza więcej informacji niż można uzyskać z samych bodźców wizualnych. Mamy nadzieję, że zbiór danych Tilt-Bot, który zostanie udostępniony publicznie, wraz z naszymi odkryciami zainspiruje przyszłe prace nad dźwiękiem” – podsumowali naukowcy.

Badania wsparły Agencja Zaawansowanych Projektów Badawczych Obrony DARPA i Biuro Badań Marynarki Wojennej Stanów Zjednoczonych.