Zawiesza głos, szepcze lub pokrzykuje, by nasycić czytaną treść odpowiednimi emocjami. Sztuczna inteligencja rodem z Londynu czyta jak człowiek
„Litwo! Ojczyzno moja…” – czyta Krzysztof Globisz z perfekcyjnym aktorskim wyczuciem. Dziesięciogodzinne nagranie „Pana Tadeusza” Adama Mickiewicza w audiobookowym formacie mp3 pobrano już z sieci setki tysięcy razy. Czy byłoby równie popularne, gdyby zamiast doskonałego aktora lekturę czytała maszyna? Londyńska firma DeepZen działająca w Stanach Zjednoczonych wykorzystuje sztuczną inteligencję do generowania mowy dla cyfrowego nagrywania książek.
Audiobooki to wcale nie jest wynalazek naszego wieku. W Polsce już w połowie lat 30. XX wieku firma płytowa Orpheon nagrała bajki Adama Mickiewicza, czytane przez aktora i malarza Mariusza Maszyńskiego. Później książki mówione na taśmach magnetofonowych nagrywano od lat 60. XX wieku na potrzeby czytelników Biblioteki Polskiego Związku Niewidomych. Obecnie często zdarza się, że nowe publikacje wydawane w tradycyjnej papierowej formie mają od razu swoją cyfrową wersję, choć nie jest to jeszcze reguła. Chodzi o koszty i czas produkcji – trzeba znaleźć utalentowanego narratora, wynająć studio i nagrać odczytanie publikacji, co wymaga wielu prób i powtórzeń. Czasem proces trwa tygodnie, a czasem miesiące. Dla przykładu – każdego roku w Stanach Zjednoczonych ukazuje się prawie milion książek, jednak tylko około 40 tysięcy z nich jest konwertowanych na audiobooki.
Dlatego DeepZen, uczestnik programu Inception (inkubatora start-upów firmy NVIDIA), opracował system oparty na głębokim uczeniu do generowania kompletnych i przepełnionych ludzkimi emocjami nagrań dźwiękowych książek, czytanych jakby ludzkim głosem.
Korzystając z procesorów graficznych NVIDIA w Google Cloud, otwartoźródłowych bibliotek programistycznych PyTorch i Tensorflow, zespół wyszkolił algorytmy zamiany tekstu na mowę narratora – łącznie z interpunkcją pauzami i nacechowaniem emocjonalnym. System automatycznie analizuje tekst, konwertuje go na mowę i dodaje niezbędne emocje do każdego zdania, frazy i słowa. Maszyna czyta tak, jak zrobiłby to profesjonalny narrator.
Nagrania generowane przez sztuczną inteligencję mogą być również łatwo modyfikowane przez ludzi za pomocą zastrzeżonego oprogramowania, aby lepiej przekazywać emocje w określonych wierszach i czy na konkretnych stronach. Wydawcy mogą również wybrać różne głosy, które uwzględniają płeć i akcenty, aby stworzyć różne wersje tej samej książki.
Firma chwali się, że nagranie 10-godzinnego audiobooka zajmuje oprogramowaniu kilka godzin.
Narzędzie może zrewolucjonizować cyfrową branżę wydawniczą, a także rynek gier czy nagrań lektorskich do filmów. Ma potencjał, by pomóc osobom niewidomym, z upośledzeniem wzroku lub z trudnościami w czytaniu w uzyskaniu większego dostępu do książek.