Sieć neuronowa MelNet stworzona przez badaczy z Facebooka wiernie naśladuje głosy znanych ludzi
Jeszcze do niedawna najpopularniejsze systemy syntezy głosu, jak powstała w 2005 roku polska IVONA, działały tak, że nagrany głos ludzkiego lektora był cięty na fragmenty odpowiadające poszczególnym dźwiękom mowy. System korzystał z tych próbek, sklejał je w odpowiedniej kolejności i modyfikował, by osiągnąć właściwą artykulację i melodię zdania (to rozwijana od lat 70. metoda tzw. syntezy konkatenacyjnej).
Przełomem był rozwój uczenia maszynowego – wyszkolone na tysiącach godzin nagrań modele potrafią zsyntetyzować dźwięk, zamiast przeprowadzać „recykling” fragmentów audio.
Jak przypomina The Verge, w 2016 roku powstały modele SampleRNN i WaveNet. Ten ostatni, stworzony przez należące do Google’a laboratorium DeepMind, jest teraz sercem obecnego w milionach smartfonów Asystenta Google’a.
Te zaawansowane systemy jako materiał szkoleniowy przyjmują pliki dźwiękowe, a dokładnie rozkład amplitudy sygnału akustycznego w czasie. Dotychczasowe podejście wymagało podzielenia tej fali na malutkie fragmenty o stałej długości i kroku analizy (timesteps). To utrudniało uchwycenie większych struktur i zależności, które składają się na ludzką mowę.
Eksperci z Facebooka wybrali inne podejście – zamiast z wykresu fali skorzystali ze spektrogramu w melowej skali częstotliwości. Jest to sposób zapisu, który pokazuje, jak głośno w danym momencie odzywają się poszczególne składowe sygnału (skala melowa jest zgodna z percepcją wysokości dźwięku).
Dzięki przeprowadzeniu analiz dla fragmentów sygnału o różnych długościach (począwszy do dłuższych i zwiększając następnie czasową rozdzielczość analiz) udało się wychwycić zarówno zależności związane z intonacją i akcentem, jak i z głosem i sposobem wymowy danego mówcy.
To pozwoliło na dokładne odwzorowanie mowy – od tembru głosu, przez intonację, po niuanse związane z akcentem.
Powstaniu tej technologii – podobnie jak w przypadku rozwiązań pozwalających modyfikować obraz i nagrania wideo – towarzyszy obawa o wykorzystanie jej w złej wierze.
Twórcy MelNet wytrenowali swój model na kilku wielkich bazach materiału dźwiękowego. Dzięki skorzystaniu z zapisów audio ponad 2 tysięcy wystąpień na konferencjach TED algorytm nauczył się naśladować głosy takich osobistości jak aktor George Takei („Star Trek”), słynna badaczka małp Jane Goodall czy wreszcie współzałożyciel Microsoftu Bill Gates.
Użyto też zestawu ponad 140 godzin nagrań audiobooków oraz bazy VoxCeleb2, która zawiera 2 tysiące godzin nagrań wypowiedzi osób stu różnych narodowości, posługujących się najróżniejszymi językami, dialektami i mówiących z różnym akcentem.
Na stronie https://audio-samples.github.io/ można znaleźć mnóstwo przykładów wypowiedzi wygenerowanych przez MelNet.
Powstaniu tej technologii – podobnie jak w przypadku rozwiązań pozwalających modyfikować obraz i nagrania wideo – towarzyszy obawa o wykorzystanie jej w złej wierze. Możemy sobie wyobrażać użycie syntezy mowy do preparowania fałszywych informacji o ważnych osobach czy do ataków hakerskich (skuteczniejsza socjotechnika, wyłudzenie informacji przez telefon).
Liczymy, że już wkrótce powstaną rozwiązania pozwalające weryfikować autentyczność nagrań.
Oto kilka próbek możliwości Mel Net
Bill Gates
Write a fond note to the friend you cherish.
We frown when events take a bad turn.
George Takei
Bring your problems to the wise chief.
Port is a strong wine with a smoky taste.
Jane Goodall
The glow deepened in the eyes of the sweet girl.
Two plus seven is less than ten.