• Wyobraź sobie, że coś mówisz – mózg uaktywni się tak, jakbyś rzeczywiście wypowiadał te słowa
  • Specjaliści rejestrują tę aktywność i próbują przetłumaczyć ją prosto z mózgu na mowę werbalną
  • Trwają eksperymenty z systemem opartym na działaniu syntezatorów mowy i sztucznej inteligencji

Czy da się wypowiedzieć ludzkie myśli bez otwierania ust, tak by były wyraźnie słyszane i zrozumiałe?

Takiego zadania podjęli się neuroinżynierowie z Uniwersytetu Columbia pod kierunkiem prof. Nimy Mesgaraniego (Mortimer B. Zuckerman Mind Brain Behavior Institute na Uniwersytecie Columbia i Columbia Foundation School of Engineering and Applied Science). Stworzyli system oparty na działaniu syntezatorów mowy i sztucznej inteligencji. Dzięki obserwacji aktywności mózgu ta technologia była w stanie zrekonstruować słowa, które chciałaby powiedzieć monitorowana osoba.

Dziesięciolecia badań pokazały, że kiedy ludzie mówią lub nawet wyobrażają sobie mówienie, pojawiają się w ich mózgu wzorce aktywności. Wyraźny, ale rozpoznawalny wzorzec sygnałów pojawia się również, gdy słuchamy, kiedy ktoś mówi, lub wyobrażamy sobie, że słuchamy. Specjaliści próbujący rejestrować i dekodować te wzorce chcieliby przetłumaczyć je bezpośrednio z mózgu na mowę werbalną.

Jak Alexa i Siri

Naukowcy z UC dokonali pomiaru sygnałów mózgowych za pomocą metody monitorowania encefalografii śródczaszkowej (iEEG) po operacyjnym wszczepieniu pacjentom specjalnych elektrod. Po implantacji zidentyfikowali je w mózgu za pomocą tomografii komputerowej.

Pierwsze próby odkodowania sygnałów mózgowych przez Nimę Mesgaraniego i jego współpracowników odbywały się na prostych modelach komputerowych analizujących spektrogramy będące wizualnymi reprezentacjami częstotliwości dźwięku.

Ponieważ zakończyły się fiaskiem i nie uzyskano niczego przypominającego zrozumiałą mowę, zastosowano vocoder. To algorytm komputerowy, który po szkoleniu na nagraniach mówiących ludzi może syntetyzować mowę.

Jest to ta sama technologia i podobny system działania, które wykorzystano w asystentach głosowych jak Alexa Amazona i Siri Apple, aby udzielać ustnych odpowiedzi na pytania zadawane przez ludzi. Pozostawało jedynie nauczyć vocoder interpretowania aktywności mózgu.

Sieci neuronowe uczą się czytać w myślach

Nima Mesgarani nawiązał współpracę z prof. Asheshem Dineshem Mehtą (neurochirurgiem w Northwell Health Physician Partners Neuroscience Institute) leczącym pacjentów cierpiących na epilepsję. Niektórzy z nich z powodu stanu zdrowia musieli poddać się zabiegom chirurgicznym.

Naukowcy poprosili pacjentów, którzy cierpieli na padaczkę i zostali poddani monitorowaniu encefalografii śródczaszkowej (iEEG) w celu identyfikacji ognisk epileptogennych w mózgu, aby słuchali zdań wypowiadanych przez różnych ludzi, podczas gdy naukowcy mierzyli wzorce aktywności mózgu.

Pierwsze próby zakończyły się fiaskiem i nie uzyskano niczego przypominającego zrozumiałą mowę. Zastosowano więc algorytm, który po szkoleniu na nagraniach mówiących ludzi może syntetyzować mowę

Te neuronowe wzorce stanowiły materiał szkoleniowy dla vocodera. Następnie naukowcy zwrócili się do tych samych pacjentów, aby wysłuchali głosu osób recytujących liczby od 0 do 9. Jednocześnie rejestrowali sygnały mózgowe, które mogłyby następnie zostać uruchomione przez vocoder jako odpowiedniki tych liczb.

Dźwięk wytwarzany przez vocoder w odpowiedzi na sygnały był analizowany i oczyszczany przez sieci neuronowe (rodzaj sztucznej inteligencji, która naśladuje strukturę neuronów w mózgu biologicznym). W efekcie uzyskano głos robota recytującego sekwencję liczb.

Ostrożny optymizm

Aby przetestować dokładność nagrania, Mesgarani i jego zespół zlecili grupie zdrowych ludzi wysłuchanie nagrania i zapytali ich o to, co usłyszeli. Okazało się, że ludzie mogą zrozumieć i powtórzyć dźwięki w 75 procentach przypadków. To znacznie przekracza rezultaty wszelkich wcześniejszych prób przetłumaczenia sygnałów mózgowych na ludzką mowę.

Poprawa zrozumiałości była szczególnie widoczna przy porównywaniu nowych nagrań z wcześniejszymi próbami opartymi na spektrogramach. Wrażliwy vocoder i sieci neuronowe przekazały dźwięki, których pierwotnie słuchali pacjenci, z zaskakującą dokładnością.

Opracowywana metoda może być przełomem w tego typu badaniach i pomocą dla ludzi, którzy nie potrafią mówić np. z powodu stwardnienia zanikowego bocznego (ALS) . Albo którzy po doznanym udarze stopniowo odzyskują zdolność komunikowania się ze światem zewnętrznym. Nima Mesgarani ma nadzieję, że dzięki opisywanej technologii i wraz z postępem dalszych badań myśli ludzi będą mogły zostać odkodowane i zrozumiane przez każdego słuchacza.

Można mówić o obiecującym początku badań. Trzeba jednak pamiętać, że w badaniach zastosowano inwazyjną metodę iEEG, która zawsze wiąże się z pewnym ryzykiem. Jej użycie wymaga nie prostego zabiegu chirurgicznego, ale operacji, której nie można przeprowadzić u każdego pacjenta.

Dr inż. Jarosław Protasiewicz, Laboratorium Inteligentnych Systemów Informatycznych w Ośrodku Przetwarzania Informacji PIB:

Nie sądzę, aby zaproponowana technologia pozwoliła w przyszłości na czytanie myśli ludzi. Największym wyzwaniem jest odpowiedni odczyt wszystkich monitorowanych sygnałów z mózgu. Dalsze przetwarzanie sygnału nie jest trudne.

Zaproponowana metoda jest inwazyjna, wymaga precyzyjnego wszczepienia czujników. Metody nieinwazyjne (EEG) nie zapewniają odpowiednich sygnałów do rekonstrukcji mowy. Zatem człowiek musi świadomie zgodzić się na operację chirurgiczną.

Ponadto należy zwrócić uwagę, że dany człowiek musi świadomie wyobrażać sobie, że wypowiada dane słowa. Dopiero wtedy jest możliwa ich rekonstrukcja.

Metoda nie ma zastosowania u ludzi, którzy nigdy nie mówili. Trudno powiedzieć, czy zaproponowana metoda znajdzie zastosowanie praktyczne.