• Urządzenie naukowców z MIT wykorzystuje fenomen cichej mowy do porozumiewania się z komputerem
  • Według konstruktorów AlterEgo jest szybsze i mniej uciążliwe w użyciu niż smartfon, np. do wyszukiwania informacji w internecie
  • Może pomóc osobom z zaburzeniami mowy

Mówisz w myślach: „Napiłbym się kawy”, a twój ekspres zaczyna znajomo mruczeć. Wydajesz niemą komendę: „Zmień kanał”, a telewizor włącza twój ulubiony program. Pytasz bezgłośnie: „Ile to jest 6004?” – w mgnieniu oka słyszysz precyzyjną odpowiedź. Science fiction?

Arnav Kapur, Shreyas Kapur i prof. Pattie Maes z grupy Fluid Interfaces w laboratorium MIT Media Lab opracowali urządzenie oparte na tzw. cichej mowie, które ma to umożliwić.

AlterEgo wygląda jak rozjechany przez walec biały banan. Przyczepia się je do boku głowy, z małym plastrem przyklejonym poniżej ust.

To nieinwazyjny interfejs neuronowy, który pozwala ludziom rozmawiać w języku naturalnym z maszynami, asystentami sztucznej inteligencji czy przeszukiwać internet. Z jego pomocą można wykonywać ruchy szachowe godne arcymistrza, zamówić pizzę i zapytać o definicję trudnego słowa, by nie dać się zawstydzić rozmówcy – wszystko bez otwierania ust czy kiwnięcia palcem.

Jak to działa

Cicha mowa różni się od myślenia lub zwykłego wypowiadania słów. Jest świadomym wysiłkiem, charakteryzuje się subtelnymi ruchami wewnętrznych narządów mowy, ale bez wypowiadania słów. Tak, jak gdy uczyliśmy się czytać – najpierw na głos, a potem dopiero robiliśmy to wewnętrznie i bez artykulacji. Proces ten powoduje przekazywanie sygnałów z mózgu do mięśni.

Te sygnały wykorzystuje i przetwarza AlterEgo. Urządzenie nie czyta zatem w myślach, choć sprawia takie wrażenie. Nie ma bezpośredniego i fizycznego dostępu do aktywności mózgu.

Z AlterEgo czuję się jak cyborg, ale w najlepszym możliwym sensie – mówi nam jeden z konstruktorów o swoich doświadczeniach z urządzeniem. – To tak, jakby być osobiście podłączonym do internetu

Zestaw, który zakłada się na jedno ucho, jest połączony z wrażliwym panelem rozciągającym się wokół linii szczęki, tuż poniżej wargi. Ten interfejs do cichego wprowadzania mowy przechwytuje elektryczne sygnały nerwowo-mięśniowe z powierzchni twarzy i szyi, które pojawiają się, gdy ludzie zaczynają mówić. Jednocześnie – korzystając z transmisji danych przez Bluetooth w czasie rzeczywistym – wykorzystuje sieć neuronową do rekonstrukcji niewypowiedzianego słowa.

Jak zapewniają konstruktorzy, system odczytuje sygnały twarzy z 92-proc. dokładnością.

Komputer dekoduje za pomocą algorytmów zadane polecenie (np. „AlterEgo – włącz światło w kuchni!”), a następnie zleca jego wykonanie odpowiedniemu urządzeniu działającemu w systemie.

Program odpowiada skomputeryzowanym głosem, co użytkownik odbiera w słuchawce do tzw. przewodzenia kostnego (czyli bez konieczności wkładania do ucha).

Wszystko w ułamku sekundy.

Chodzący internet

Demo wideo pokazuje użytkownika urządzenia (to jego główny programista Arnav Kapur), jak kontroluje smart TV, prosi Google o podanie godziny i oblicza rachunki za zakupy w drodze do kasy w sklepie.

Adres filmu na Youtube: https://youtu.be/RuUSc53Xpeg

Główny programista AlterEgo Arnav Kapur testuje w terenie swoje urządzenie.
Źródło: MIT Media Lab / YouTube

– Z AlterEgo czuję się jak cyborg, ale w najlepszym możliwym sensie – mówi nam Kapur o swoich doświadczeniach z urządzeniem. – To tak, jakby być osobiście podłączonym do internetu.

Wydaje się, że aparat może mieć bardzo liczne i ciekawe zastosowania.

Wypróbowany został m.in. do cichego podpowiadania ruchów szachowych. Opracowana do tego aplikacja wykorzystała silniki sztucznej inteligencji Chess, które w połączeniu z AlterEgo umożliwiły dostęp do obliczeń w czasie rzeczywistym.

Jak zapewniają badacze z MIT, AlterEgo jest szybsze i mniej uciążliwe w użyciu niż smartfon, np. do wyszukiwania informacji w internecie. Użytkownicy nie muszą odblokowywać telefonu, otwierać aplikacji, a następnie wpisywać lub wymawiać słowa kluczowego.

Po skonfigurowaniu może być używane do kontrolowania urządzeń w systemie internetu rzeczy (IoT), aplikacji wirtualnych i rozszerzonych rzeczywistości, a także zamawiania do domu taksówki lub zapisywania spotkania w kalendarzu.

Czy zbliża się koniec mówienia do Siri, Alexy i innych asystentów SI?

System działa również jak pamięć cyfrowa – użytkownik może wewnętrznie rejestrować strumienie informacji i uzyskiwać do nich dostęp w późniejszym czasie. Użytkownicy z problemami z pamięcią mogą poprosić urządzenie, aby przypomniało im np. nazwisko znajomego.

Z człowiekiem nie pogadasz

Próby komunikowania bez mówienia rozpoczęto na świecie kilkanaście lat temu. Metody inwazyjne (wszczepianie implantów do ośrodka mowy w mózgu, czujniki na języku i magnesy w szczęce) oraz nieinwazyjne (czujniki EEG, kamery do dekodowania języka z ruchu ust itp.) nie przyniosły takich wyników, jakie obecnie daje AlterEgo, angażujące sztuczną inteligencję.

Konstruktorzy pracują też nad tym, żeby także różni użytkownicy AlterEgo mogli się bezgłośnie ze sobą kontaktować. Na razie ta funkcja jest ograniczona do bardzo prostych słów i zwrotów. To zaledwie 15 fraz, ale tłumaczonych na różne języki (czy w przyszłości będziemy swobodnie i bezgłośnie rozmawiać również z obcokrajowcami, nie znając ich mowy?).

Jedną z przeszkód jest brak dużych zestawów danych, które naukowcy mogliby pobrać, by wyszkolić algorytm (w przeciwieństwie do typowej aplikacji do rozpoznawania mowy).

Z pomocą urządzenia można wykonywać ruchy szachowe godne arcymistrza, zamówić pizzę i zapytać o definicję trudnego słowa, by nie dać się zawstydzić rozmówcy – wszystko bez otwierania ust czy kiwnięcia palcem.

– Rozwijamy system, koncentrując się na ulepszeniach, takich jak zmniejszenie liczby wymaganych elektrod, zaprojektowanie bardziej akceptowanego kształtu, poprawie sieci neuronowych, które rozpoznają cichą mowę, projektujemy aplikacje dla użytkowników końcowych, szkoląc platformę. Nadzieje na komercjalizację są na razie przedwczesne – mówi nam prof. Pattie Maes, która prowadzi w MIT grupę badawczą Media Labs Fluid Interfaces (TIME Digital wybrał ją na członka „Cyber Elite”, 50 najlepszych technologicznych pionierów w świecie zaawansowanych technologii).

Poza tym badacze z MIT poszerzają słownictwo, które rozumie system i szukają sposobu na poprawienie kształtu AlterEgo. Uważają, że ulepszenie projektu elektrod, modelowania elektrofizjologii, użytych materiałów i wzornictwa sprawi, że urządzenie stanie się zupełnie niepozorne.

Urządzenie AlterEgo wypróbowane zostało m.in. do cichego podpowiadania ruchów szachowych

– Technologia AlterEgo jest wciąż w powijakach, ale wydaje się tylko kwestią czasu, kiedy urządzenia będą mogły dokładnie czytać w naszych głowach – potwierdza słowa koleżanki Arnav Kapur. Za swój inteligentny wynalazek otrzymał nagrodę „Fast innovation by Design” w kategorii eksperymentalnej.

Oswoić SI

W świecie, w którym szybko ulepszająca się sztuczna inteligencja staje się źródłem obaw (czy roboty zabiorą nam pracę itd.), Kapur postrzega AlterEgo jako sposób na oswojenie tej technologii. Ostatni rok spędził, pracując nad urządzeniem, które ma pokazać, w jaki sposób sztuczna inteligencja może pomóc w ulepszaniu, a nie zastępowaniu ludzi.

Po pierwsze, ułatwi komunikację z urządzeniami i obszernymi zasobami internetu, ale tylko w takim zakresie, jaki wyznaczy jego użytkownik. Po drugie, będzie doskonałe dla osób pracujących w hałasie, na lotniskach, w samolotach wojskowych, w drukarniach, które mają problem z porozumiewaniem się między sobą.

System może też w przyszłości pomóc osobom z zaburzeniami mowy, takimi jak apraksja i problemy z głosem. Kapur organizuje obecnie badania w szpitalach i ośrodkach rehabilitacji, gdzie pacjenci będą testowo używać AlterEgo, ale nie ujawnia szczegółów tego projektu.

Konstruktorzy rozbudzają więc duże nadzieje. Ale o tym sza!