• Próbka głosu wystarczy, by zrekonstruować zdjęcie twarzy mówiącego
  • Trening systemu wykorzystał miliony filmów z serwisu YouTube
  • Technika stawia niepokojące pytania o prywatność i dyskryminację

Ten głos z audycji radiowej, aksamitny, niski, melodyjny, nieco nosowy i czasem chropowaty, musi należeć do przystojnego, wysokiego i szczupłego szatyna. A ta szczebiocząca kobieta, która dzwoniła w sprawie kredytu? To na pewno nie wamp. Musi być niebieskooką blondynką o dziewczęcej buzi, wydatnych ustach i malutkim nosku. Czy nie tak pracuje nasza wyobraźnia, słysząc obcą osobę?

Pewne cechy wizualne są wspólne dla osób o podobnych głosach. A głos da się przedstawić jako… twarz. Pokazali to badacze, skupieni wokół Massachusetts Institute of Technology.

– Kiedy słuchamy osoby mówiącej, nie widząc jej twarzy, w telefonie lub w radiu, często budujemy model wyglądu osoby. Istnieje silny związek między mową a wyglądem. Jego część stanowi bezpośredni rezultat mechaniki produkcji mowy, na który mają wpływ wiek, płeć, kształt ust, struktura kości twarzy. Wszystko to może oddziaływać na dźwięk, który generujemy. Dodatkowo, inne atrybuty i cechy pojawiające się w głosie: język, akcent, szybkość, wymowa, takie właściwości mowy są często dzielone między narodowościami i kulturami, które mogą z kolei być przetłumaczone na wspólne cechy fizyczne – piszą naukowcy z MIT o swoim najnowszym badaniu.

Siłownia filmowa

Specjaliści opracowali algorytm i wyszkolili go m.in. na danych pobranych z internetu. Za bazę treningową dla algorytmu naukowcy wzięli m.in. miliony klipów z kanału YouTube. Dzięki nim mechanizm nazwany Speech2Face na podstawie krótkiego klipu audio rekonstruuje wizerunek twarzy mówiącego.

– Projektujemy i szkolimy głęboką sieć neuronową, aby wykonać to zadanie za pomocą milionów naturalnych filmów. Podczas treningu nasz model uczy się korelacji wyglądu twarzy z głosem. Pozwala to tworzyć obrazy, które wychwytują różne fizyczne cechy, takie jak wiek, płeć i pochodzenie etniczne. Odbywa się to w sposób samokontrolujący, wykorzystując naturalne współwystępowanie twarzy i mowy w internetowych filmach wideo – opisują badacze, wśród których jest Wojciech Matusik, profesor nadzwyczajny elektrotechniki i informatyki w Laboratorium Informatyki i Sztucznej Inteligencji MIT. Tego lata prowadzi tam kurs projektowania obliczeniowego dla produkcji.

Ostrożnie, to nie zabawka

Badacze już na tym etapie zalecają daleko idącą ostrożność wobec ich projektu. Technika ich zdaniem budzi niepokojące pytania dotyczące prywatności i dyskryminacji.

„Chociaż jest to czysto akademickie badanie, uważamy, że ważne jest, aby wyraźnie omówić w artykule zestaw kwestii etycznych ze względu na potencjalną wrażliwość informacji o twarzy” – napisali, sugerując, że – „wszelkie dalsze badania lub praktyczne wykorzystanie tej technologii muszą zostać starannie przetestowane, aby upewnić się, że dane szkoleniowe są reprezentatywne dla populacji docelowego użytkownika.”

Metoda nie może pokazać prawdziwej, dokładnej twarzy osoby na podstawie jej głosu. W portrecie jednego z odtwórców Jamesa Bonda „prawie” z trudem można dojrzeć Daniela Craiga. Znany m.in. z roli szeryfa w pierwszej części Rambo Brian Dennehy jest nieco podobny do swojego wizerunku odtworzonego z mowy. Z kolei kapitan Sokole Oko Pierce z serialu M.A.S.H. w swojej „głosowej” wersji to karykatura Alana Aldy.

Więcej treningu, będzie dokładniej

Jednak we wszystkich przypadkach sportretowane głosem twarze mają wspólne cechy z oryginalnymi wizerunkami. Model – jak wyjaśniają naukowcy – będzie wytwarzał jedynie podobnie wyglądające twarze, bez efektu w postaci obrazów konkretnych osób.

To po prostu ujawnienie statystycznych korelacji, które istnieją pomiędzy rysami twarzy i głosami mówców. Dane szkoleniowe, co podkreślają autorzy Speech2Face, nie reprezentują jednakowo całej ludności świata. Na przykład, jeśli jakiś język nie pojawia się w danych szkoleniowych, rekonstrukcje nie uchwycą właściwych atrybutów twarzy, które mogą być skorelowane z tym językiem. Jeśli jednak wielu mówców biorących udział w szkoleniu sieci, którzy mówią w podobny sposób (np. w tym samym języku) i posiadają również pewne wspólne cechy wizualne, wówczas mogą się one pojawić w przewidywaniach.

GANy też portretują głos

Badania MIT nie są pierwszymi, które odtwarzają fizyczne właściwości mówiącego na podstawie nagrań głosowych. Naukowcy z Uniwersytetu Carnegie Mellon opublikowali niedawno artykuł na temat podobnego algorytmu. Wykorzystuje on sieci przeciwstawne trenowane danymi.

– Ostatnie postępy w dziedzinie sieci neuronowych opartych na modelach generatywnych wykazały, że są w stanie wykonywać podobnie wymagające zadania w różnych scenariuszach, o ile są odpowiednio ustrukturyzowane i przeszkolone. W szczególności generatywne sieci przeciwstawne (GAN) wykazały zdolność do uczenia się wytwarzania wysoce wyrafinowanych obrazów. Tę umiejętność wykorzystujemy do nauki generowania twarzy z głosów – wyjaśniają w swoim artykule Yandong Wen, Rita Singh i Bhiksha Raj.