Zawiesza głos, szepcze lub pokrzykuje, by nasycić czytaną treść odpowiednimi emocjami. Sztuczna inteligencja rodem z Londynu czyta jak człowiek

„Litwo! Ojczyzno moja…” – czyta Krzysztof Globisz z perfekcyjnym aktorskim wyczuciem. Dziesięciogodzinne nagranie „Pana Tadeusza” Adama Mickiewicza w audiobookowym formacie mp3 pobrano już z sieci setki tysięcy razy. Czy byłoby równie popularne, gdyby zamiast doskonałego aktora lekturę czytała maszyna? Londyńska firma DeepZen działająca w Stanach Zjednoczonych wykorzystuje sztuczną inteligencję do generowania mowy dla cyfrowego nagrywania książek.

Audiobooki to wcale nie jest wynalazek naszego wieku. W Polsce już w połowie lat 30. XX wieku firma płytowa Orpheon nagrała bajki Adama Mickiewicza, czytane przez aktora i malarza Mariusza Maszyńskiego. Później książki mówione na taśmach magnetofonowych nagrywano od lat 60. XX wieku na potrzeby czytelników Biblioteki Polskiego Związku Niewidomych. Obecnie często zdarza się, że nowe publikacje wydawane w tradycyjnej papierowej formie mają od razu swoją cyfrową wersję, choć nie jest to jeszcze reguła. Chodzi o koszty i czas produkcji – trzeba znaleźć utalentowanego narratora, wynająć studio i nagrać odczytanie publikacji, co wymaga wielu prób i powtórzeń. Czasem proces trwa tygodnie, a czasem miesiące. Dla przykładu – każdego roku w Stanach Zjednoczonych ukazuje się prawie milion książek, jednak tylko około 40 tysięcy z nich jest konwertowanych na audiobooki.

Dlatego DeepZen, uczestnik programu Inception (inkubatora start-upów firmy NVIDIA), opracował system oparty na głębokim uczeniu do generowania kompletnych i przepełnionych ludzkimi emocjami nagrań dźwiękowych książek, czytanych jakby ludzkim głosem.

Adres filmu na Youtube: https://www.youtube.com/watch?v=eESEPPp8eBs&ab_channel=NVIDIA

Ludzie z DeepZen opowiadają o swoim sztucznym lektorze.
Źródło: NVIDIA / YouTube

Korzystając z procesorów graficznych NVIDIA w Google Cloud, otwartoźródłowych bibliotek programistycznych PyTorch i Tensorflow, zespół wyszkolił algorytmy zamiany tekstu na mowę narratora – łącznie z interpunkcją pauzami i nacechowaniem emocjonalnym. System automatycznie analizuje tekst, konwertuje go na mowę i dodaje niezbędne emocje do każdego zdania, frazy i słowa. Maszyna czyta tak, jak zrobiłby to profesjonalny narrator.

Nagrania generowane przez sztuczną inteligencję mogą być również łatwo modyfikowane przez ludzi za pomocą zastrzeżonego oprogramowania, aby lepiej przekazywać emocje w określonych wierszach i czy na konkretnych stronach. Wydawcy mogą również wybrać różne głosy, które uwzględniają płeć i akcenty, aby stworzyć różne wersje tej samej książki.

Firma chwali się, że nagranie 10-godzinnego audiobooka zajmuje oprogramowaniu kilka godzin.

Narzędzie może zrewolucjonizować cyfrową branżę wydawniczą, a także rynek gier czy nagrań lektorskich do filmów. Ma potencjał, by pomóc osobom niewidomym, z upośledzeniem wzroku lub z trudnościami w czytaniu w uzyskaniu większego dostępu do książek.