Czytanie z ruchu ludzkich ust od dawna jest celem naukowców. Zmagali się z tym zarówno Anglicy, jak i Amerykanie. Ale dopiero, gdy Chińczycy wzięli sprawy w swoje ręce, okazało się, że to jest możliwe
Powstał LIBS czyli Lip by Speech (usta na mowę). Pozwala sztucznej inteligencji nauczyć się czytać ze znacznie bardziej subtelnych ruchów ust, niż udawało się to do tej pory. Chińscy badacze zaproponowali nowe podejście w uczeniu sztucznej inteligencji, dodając do swojego rozwiązania rozpoznawanie mowy. Bazowali na danych z video z rozgadanymi ludźmi.
Od koszykówki po medycynę
Jeden z członków zespołu badawczego, dr Xinchao Wang ze Stevens Institute of Technology ze Stanów Zjednoczonych specjalizuje się w dziedzinie widzenia komputerowego. Uzyskał doktorat w École Polytechnique Fédérale w Lozannie. Tam np. pomógł zaprojektować system sztucznej inteligencji dla NBA, który śledzi i analizuje ruchy i interakcje zawodników i piłki w meczach koszykówki. To już system komercyjny.
Obecnie Wang pracuje głównie nad interpretowalnym uczeniem maszynowym, badaniem algorytmów używanych przez systemy komputerowe do „wykonywania określonego zadania bez użycia wyraźnych instrukcji, opierając się na wzorcach i wnioskowaniu”. Uczenie maszynowe, a dokładniej głębokie uczenie, według niego „daje najlepsze wyniki w prawie wszystkich zastosowaniach wizji komputerowej i sztucznej inteligencji: przetwarzaniu języka, analizie mowy, analizie wideo, analizie obrazu, czy obrazowaniu medycznym – uważa Wang.
Lepiej po mamdaryńsku
Do analizy próbek mowy Chińczycy wykorzystali dane z istniejących baz – z 45 tysiącami angielskich zdań, wymówionymi przez prezenterów telewizji BBC oraz z ponad 100 tysiącami zdań w języku mandaryńskim z bazy danych Chińskiej Sieci Telewizyjnej. Pomimo wskaźnika błędów zbliżającego się do 10 procent, użycie rozpoznawania głosu pozwala na dokładną analizę filmów, które napędzają system LIBS na poziomie sekwencji lub całych zdań, obraz po obrazie.
„Akustyczne sygnały mowy są informacjami uzupełniającymi do wizualnych, na przykład dla wypowiedzi z subtelnymi ruchami ust, które są trudne do rozróżnienia wizualnie. Oczekujemy, że funkcje wyodrębnione przez rozpoznawanie mowy dla czytania z ust wzmocnią jego zdolność do wyodrębnienia cech wizualnych. W tym celu LIBS został zaprojektowany w wielu skalach czasowych, na poziomie sekwencji, kontekstu i ramki, tak aby zakodować semantykę z sekwencji wejściowej. W tym celu stosujemy krosmodalną strategię wyrównywania, aby zsynchronizować dane z dźwięku i obrazu poprzez znalezienie korespondencji między nimi” – opisują badacze w artykule naukowym.
To nowe podejście pozwoliło zmniejszyć poziom błędu o 7,66 procent (do 31,22 procent), uzyskując dokładność na poziomie 68,78 procent w języku chińskim i do 45,53 procent (czyli o 2,75 procent) w języku angielskim w porównaniu do innych metod. Dokładność odczytywania ruchu mówiących po angielsku ust sięgnęła zatem 54,47 procent.
Dla porównania tylko 5 procent głuchych deklaruje efektywne czytanie z ruchu warg. Osoby niesłyszące, które wiele lat ćwiczą czytanie z ruchu warg, w najkorzystniejszych warunkach potrafią zrozumieć 30–45 procent wypowiedzi. Czytanie z ruchu warg to również umiejętność ekspercka, wykorzystywana przez organy dochodzeniowe czy też tabloidy.
Wcześniej był Google
W ramach wspólnego projektu Google’s DeepMind i naukowców z Oksfordu już w 2016 roku powstała aplikacja do czytania z ust. SI doskonaliła swoje umiejętności na ponad 5 tys. godzin nagrań pochodzących z sześciu różnych kanałów programów BBC. W ciągu pięciu lat przeanalizowała 118 tysięcy wypowiedzi. Przetestowano ją następnie na nowych obrazach video i okazało się, że system jest w stanie poprawnie odcyfrować treść przekazu, „obserwując” ruch warg występującej na ekranie osoby. Porównując możliwości ludzkie, człowiek był w stanie odcyfrować bezbłędnie jedynie 12,4 procent słów, a SI 46,8 procent. Jak widać, chińskie rozwiązanie znacząco przebiło dokładność propozycji DeepMind.
Mówi się, że takie rozwiązanie może mieć charakter komercyjny. Czy burgery w McDrive będziemy zamawiać bez otwierania szyby samochodu? Być może. Niepokojące może być jednak to, że reżimy też interesują się takimi rozwiązaniami.