Na zdjęciach różnych obiektów, wykonanych przez turystów, badacze Google’a wyszkolili algorytmy, które teraz przerabiają dwuwymiarowe fotografie zabytków na trójwymiarowe filmiki

Tysiące zdjęć tych samych obiektów, wykonane przez turystów pod różnymi kątami, z różnych stron i o różnych porach, posłużyły za ogromną bazę danych. Na niej Google wyszkolił algorytmy, które potrafią pokazać każdy z tych obiektów w trójwymiarowym, ruchomym obrazie. System nazywa się NeRF-W (NeRF in the Wild, Neural Radiance Fields for Unconstrained Photo Collections) i znajdzie zastosowanie w technologiach rozszerzonej i wirtualnej rzeczywistości (AR i VR). Być może zasili także nową wersję Google Earth.

Badacze udostępnili kilka filmików wypreparowanych ze zdjęć, pokazujących m.in. Fontannę di Trevi, Bramę Brandenburską i Bazylikę Sacre-Coeur. Można je obejrzeć na serwisie GiTHub.

Adres filmu na Youtube: https://www.youtube.com/watch?time_continue=14&v=yPKIxoN2Vf0&feature=emb_logo

Film opisujący trenowanie algorytmów do modelowania w 3D ze zdjęć.
Źródło: NeRF-W/ YouTube

Nad systemem pracowali Ricardo Martin-Brualla, Noha Radwan, Mehdi S. M. Sajjadi, Alexey Dosovitskiy i Daniel Duckworth – naukowcy z Google Research oraz berlińskiego oddziału Google Brain – a wyniki opublikowali w serwisie arXiv.

Wcześniej Jonathan T. Barron wspólnie z badaczami z Uniwersytetu Kalifornijskiego w Berkeley brał udział w opracowaniu systemu o nazwie NeRF (Neural Radiance Fields). Chodzi w nim o to, by z obrazów dwuwymiarowych wydobyć dane na temat głębi 3D – poprzez określenie miejsc, do których docierają promienie świetlne.

Adres filmu na Youtube: https://www.youtube.com/watch?time_continue=1&v=JuH79E8rdKc&feature=emb_logo

Pokaz działania systemu NeRF.
Źródło: Mathiew Tancik / YouTube

Dzięki NeRF-W użytkownicy urządzeń rzeczywistości wirtualnej i rozszerzonej będą mogli oglądać obiekty architektoniczne tak, jak prezentują się one w rzeczywistości. Nowe algorytmy skupiają się wyłącznie na charakterystycznych punktach obiektów, a pomijają uwiecznionych na zdjęciach ludzi, samochody i inne nieistotne w tym przypadku detale.

„NeRF-W jest w stanie rozdzielić wspólną, leżącą u podstaw geometrię 3D od przemijających obiektów i wariacji fotometrycznych, tworząc spójną, fotorealistyczną reprezentację sceny, która może być renderowana z nowych punktów widzenia” – wyjaśniają badacze z Google’a w opisie przedsięwzięcia.