Elvis Presley żyje, a Elton John znów napisał nośny kawałek? Nie. Te piosenki komponuje, pisze, a nawet wykonuje sieć neuronowa od OpenAI

OpenAI to organizacja z San Francisco, która prowadzi badania w dziedzinie sztucznej inteligencji (SI), by ją promować i rozwijać „z korzyścią dla ludzkości”. Założył ją i finansował między innymi Elon Musk. Jest uważana za konkurenta brytyjskiego DeepMind (przejętego przez Google’a).

W ostatnich miesiącach hitem OpenAI stał się GPT-2, potężny algorytm do generowania tekstu, który na początku wzbudził obawy o wykorzystanie nawet wśród jego twórców.

Teraz OpenAI skonstruowało sieć neuronową o nazwie Jukebox (szafa grająca), która może generować chwytliwe piosenki w różnych stylach, a nawet śpiewa jak znani wykonawcy.

W klubie szafa gra*

Pierwsza szafa grająca na świecie zaprezentowana została w 1889 roku w San Francisco. Automat w dużej obudowie po wrzuceniu monety i dokonaniu wyboru nastawiał wskazaną płytę, by zadowolić uszy słuchaczy. Maszyna stała się niezwykle popularna w knajpach i barach na całym świecie, produkowana była nawet w Polsce przez firmę Fonica. Z czasem ewoluowała, zamieniając kruczoczarne winyle na połyskujące płyty CD, a potem pliki w formacie mp3. Ale dotychczas odtwarzała tylko utwory, które „już raz słyszeliśmy”, oryginały skomponowane i wyśpiewane przez artystów. A co z komponowaniem na życzenie?

Wrzucę grosz i ja

Przymiarki do zautomatyzowania procesu komponowania muzyki trwają od pół wieku z lepszym lub gorszym skutkiem. Były już imponujące próby naśladowania klasyków, a OpenAI całkiem niedawno pokazała światu MuseNet, siec komponującą czterominutowe utwory muzyki poważnej na dziesięć instrumentów z plików MIDI. Maszynie znacznie łatwiej wygenerować coś, co brzmi trochę jak Bach niż Beatlesi – matematyczne podstawy większości utworów muzyki klasycznej nadają się do symbolicznego przedstawienia muzyki, z której często korzystają kompozytorzy SI. Mimo prostoty popowe piosenki są inne. W ubiegłym roku Open AI zajęło się tym problemem, aby stworzyć Jukebox, sztucznie inteligentną „szafę grającą” naszych czasów.

Sto melodii do wyboru mam

OpenAI przeszkolił Jukebox niespotykana ilością 1,2 miliona utworów, używając wyłącznie surowych danych audio. Wymagało to stworzenia sieci neuronowej, która mogłaby śledzić tak zwane zależności w ciągu trzech lub czterech minut typowej piosenki. Jukebox śledzi miliony znaczników czasu na piosenkę, w porównaniu z tysiącem znaczników czasu, których używa generator języka OpenAI GPT-2.

Sami możecie ocenić wysiłki badaczy i maszyny, generującej próbki nowych kawałków na podstawie dostarczonych jej danych. OpenAI przygotowało dla ciekawych tego rozwiązania ponad 7 tysięcy próbek piosenek – od popularnego popu po progresywny rock, jazz i metal. W zależności od wyboru gatunku można posłuchać kawałków skomponowanych i zaśpiewanych „prawie tak, jak” zrobiliby to Frank Sinatra, Katy Perry, Elton John, Ella Fitzgerald czy Pink Floyd. „Prawie” robi jednak różnicę.

Kiedy nowej słuchać chcesz piosenki

Algorytmowi badacze Open AI nadają gatunek, konkretnego artystę i próbkę tekstów, a Jukebox tworzy znośny pastisz w stylu znanych wykonawców. Można także dać mu kilka pierwszych sekund utworu, a reszta uzupełni się automatycznie. Jukebox generuje nową próbkę muzyczną od podstaw.

Elvis Presley i jego głęboki tembr? Proszę bardzo:

Źródło: SoundCloud Open AI

Joe Bonamassa i rockowy blues? Nic prostszego:

Źródło: SoundCloud Open AI

Sztucznie wygenerowany heavy metal w stylu kapeli Rage? Jak najbardziej:

Źródło: SoundCloud Open AI

Teksty zostały napisane wspólnie przez model językowy i badaczy OpenAI.

Bierzesz z worka grosik znów do ręki

Generowanie muzyki na poziomie audio jest trudne, ponieważ sekwencje są bardzo długie. „Typowy 4-minutowy utwór w jakości CD (44 kHz, 16-bitowy) ma ponad 10 milionów kroków czasowych. Jednym ze sposobów rozwiązania problemu długich sygnałów wejściowych jest użycie autokodera, który kompresuje surowy dźwięk do przestrzeni o mniejszych wymiarach, odrzucając niektóre percepcyjnie nieistotne fragmenty informacji. Następnie możemy wyszkolić model do generowania dźwięku w tej skompresowanej przestrzeni i zwiększyć próbkowanie z powrotem do surowej przestrzeni audio” – wyjaśniają badacze z OpenAI.

Wrzucasz szybko do grającej szafy

System ma jednak ograniczenia. „Podczas gdy Jukebox stanowi krok naprzód pod względem jakości muzycznej, spójności, długości próbki audio i zdolności do uwarunkowania dla konkretnego artysty, gatunku i tekstu, istnieje znaczna różnica między tymi wygenerowanymi próbkami a muzyką stworzoną przez człowieka” – podsumowują badacze OpenAI. „Podczas gdy generowane piosenki wykazują dobrą spójność muzyczną, podążają za tradycyjnymi wzorami akordów, a nawet mogą zawierać imponujące solówki, nie znajdziemy w nich powtarzających się fraz czy refrenów. Proces wprowadza też zauważalny hałas i szumy”.
I nad tym chcą teraz przysiąść badacze, by poprawić działanie Jukeboxa.
„Szafa grająca” nieprędko trafi też do naszych smartfonów w formie aplikacji –renderowanie jednej minuty dźwięku w modelu OpenAI zajmuje około dziewięciu godzin.

I następna płyta zaraz gra

Równolegle pojawia się pytanie o własność intelektualną próbek powstałych na bazie istniejących piosenek.

„Prowadzimy również badania dotyczące takich kwestii, jak stronniczość i prawa własności intelektualnej oraz współpracujemy z osobami pracującymi w dziedzinach, w których opracowujemy narzędzia” – zapewnia Open AI. – „Aby lepiej zrozumieć przyszłe konsekwencje dla społeczności muzycznej, udostępniliśmy Jukebox dziesięciu muzykom reprezentującym różne gatunki, aby poznać ich opinie na temat tej pracy. Artyści stwierdzili, że – biorąc pod uwagę niektóre z jego obecnych ograniczeń – nie da się z miejsca zastosować tego narzędzia w ich procesie twórczym”. Inżynierowie obiecują więc dalszy wytężony wysiłek i zapraszają do współpracy.


*Śródtytuły pochodzą z tekstu piosenki zespołu No To Co pt. „Szafa grająca”

Wyniki „Eurowizji SI”

Australijski zespół Uncanny Valley wygrał Eurowizję dla SI – konkurs AI Song Contest – z utworem „Beautiful the World”.

Wydarzenie zostało zorganizowane przez holenderskiego nadawcę VPRO. Inicjatywę opisywaliśmy tutaj, a głosować mógł każdy internauta.

Zwycięzca został wybrany poprzez zsumowanie punktów przyznawanych online przez międzynarodową publiczność i panel ekspertów SI (ci najwyżej ocenili piosenkę niemieckiego zespołu Dadabots x Portrait XO).

Piosenka Australijczyków jest w dużej mierze napisana przy użyciu sztucznej inteligencji. Zespół wyszkolił swoją maszynę za pomocą próbek audio koali i diabłów tasmańskich, nadając piosence wyjątkowy akcent australijski. Niesie też pozytywne przesłanie społeczne: po wielkich pożarach lasów, które spustoszyły kraj w ciągu ostatniego roku i kosztowały życie wielu zwierząt, przyroda ma zdolność powrotu do równowagi.

Na trzecim miejscu znalazł się holenderski zespół Abbus z piosenka Can AI Kick It.

Czy australijskie wejście będzie dużym impulsem dla SI jako kreatywnej techniki na przyszłość? Na pewno pokazało, że komputer może napisać w miarę chwytliwą piosenkę.