- Maszyna z danych Spotify i list przebojów przewidzi, co wpadnie w ucho
- System z powodzeniem mogą stosować wytwórnie fonograficzne
- Badacze ostrzegają: to może być ostry hamulec dla ewolucji muzyki
„Proszę pana, ja jestem umysł ścisły. Mnie się podobają melodie, które już raz słyszałem. Po prostu. No… To… Poprzez… No reminiscencję. No jakże może podobać mi się piosenka, którą pierwszy raz słyszę?” – argumentował w „Rejsie” inżynier Mamoń. Niezwykle ściśle myśląca sztuczna inteligencja, wyszkolona przez człowieka, ma podobnie.
Dwaj studenci z Uniwersytetu w San Francisco wykorzystali modele uczenia maszynowego do przewidywania, które utwory staną się przebojami. SI jako „sztuczne ucho” prawie się nie myli. Wnioski z przeprowadzonego eksperymentu są smutne dla niszowych artystów: większość ludzi ma przewidywalne gusta muzyczne, a hity dla mas są w podobnej konwencji.
Kai Middlebrook i Kian Sheik słuchają muzyki prawie non stop. Już wcześniej pracowali nad klasyfikacją gatunków muzycznych i równolegle spierali się z zasłyszaną tezą, że wszystkie największe hity w zasadzie brzmią podobnie lub mają jakieś wspólne cechy. Postanowili to sprawdzić naukowo.
Na listach przebojów 27 tygodni temu pojawiła się trudna do sklasyfikowania gatunkowego piosenka Lil Nas X „Old Town Road” * i szybko zaczęła się piąć w górę, docierając na szczyt Billboard Hot 100. Kai i Kian zastanawiali się, czy komputer mógłby przewidzieć, czy ta piosenka będzie hitem, zanim jeszcze ktokolwiek o niej słyszał?
Cyfrowe modele odsłuchu
Pod okiem prof. Davida Brizana studenci Wydziału Matematyki i Statystyki przeszkolili cztery modele dotyczące danych związanych z piosenkami. Dane wyodrębniono przy użyciu interfejsu Spotify Web API. Spotify umożliwia bowiem programistom dostęp do swoich danych muzycznych. To popularne medium strumieniowe o szwedzkim rodowodzie oferuje dostęp do muzyki oraz podcastów. Serwis prezentuje społecznościowe podejście do słuchania i odkrywania nowej muzyki.
Za pomocą interfejsu Spotify dwaj zagorzali fani muzyki zebrali dane dla 1,8 miliona utworów, dotyczące np. tempa utworu, nastroju, energii, akustyczności, głośności, tonacji itp. Zgromadzili też podobne dane o hitach z wykresów Billboard Hot 100 z około 30 lat – było ich ok. 12 tysięcy.
Listy przebojów Billboard prowadzi w USA czasopismo muzyczne o tej samej nazwie, są one częstą miarą popularności i wyznacznikiem jakości wykonawców oraz ich poszczególnych utworów.
Następnie przeszkolili i ocenili cztery różne modele: regresji logistycznej, sieci neuronowej, maszyny wektorów nośnych (SVM, Support Vector Machine) i architektury losowego lasu (RF, random forest). Podczas treningu modele te analizowały różne funkcje utworu. Każdy model został wyszkolony na tym samym zestawie klasyfikatorów dźwiękowych.
Naukowcy przeprowadzili serię ocen, aby sprawdzić, jak dobrze te cztery modele są w stanie przewidzieć trafienia. Okazało się, że przeszkolony model RF osiągnął najlepszy wskaźnik dokładności przewidywania na poziomie 88 procent. Pozostałe jednak nie odstawały znacząco.
Komnata echa
Middlebrook i Sheik odkryli, że przewidywanie trafienia na Billboard w oparciu o cechy audio utworu jest w rzeczywistości możliwe. W rozmowie z nami podkreślają jednak, że takie rozwiązanie może nieść ze sobą ryzyko zatrzymania ewolucji muzyki.
– W miarę upływu czasu, w świecie, w którym wytwórnie płytowe podejmują decyzje wyłącznie w oparciu o ten model, dokładność klasyfikacji będzie zbieżna z jednym zestawem muzycznych hiper-parametrów. Dzieje się tak dlatego, że algorytm uczy się w miarę upływu czasu od nowych hitów. Jeśli utwory, które poleca, staną się hitami, model będzie miał wpływ na swój proces uczenia się. Jest to potencjalne zagrożenie dla rozwoju muzyki głównego nurtu, ponieważ może to prowadzić do zatrzymania postępu w sztuce – wyjaśniają nam młodzi badacze.
Zapętlenie jest blisko?
Wytwórnie płytowe dążące do maksymalizacji zysku chcą wypuszczać w eter i inwestować w te kawałki, które podobają się jak największej liczbie słuchaczy. Do ich studiów nagrań trafiają setki utworów w wersji demo od muzyków, którzy chcą zaistnieć na rynku i cieszyć się uwielbieniem tłumu. System użyty jako „sztuczne ucho” do odfiltrowania potencjalnych „hitów” z morza różnorodnej muzycznej twórczości, bazujący na tym, co już kiedyś doceniły masy, może dyskryminować kawałki, które mają mniej cech wspólnych z przebojami notowanymi wcześniej na listach. To ograniczy rozwój muzyki i może zahamować wyłuskiwanie talentów. Zatem jeśli już, modele trzeba udoskonalić tak, by nie wygasić rozwoju muzyki.
– Aby temu zapobiec, jako inżynierowie musimy być gotowi do wdrożenia zabezpieczeń. Posiadanie wielu mniejszych, specyficznych modeli z dobrze skatalogowanymi zestawami danych, odnoszących się do grupowania, takich jak gatunek, byłoby prostym sposobem na złagodzenie kwestii uogólnienia i konwergencji pomiędzy grupami. To jednak stworzyłoby większą barierę dla wejścia na rynek muzyki ginącej gatunkowo. Główny problem modeli nadal będzie istniał; każdy z modeli podkategorii będzie zbieżny. Nasz model zaprezentowany w tym artykule jest szkolony tylko z myślą o jednej liście piosenek. Etyka tej nowej i ekscytującej sfery musi jeszcze ewoluować i mam nadzieję na publiczne forum na ten temat ze strony muzyków, profesjonalistów z branży i etyków SI – mówi w rozmowie z portalem sztucznainteligencja.org.pl Kian Sheik.
Martwy punkt i winyle
Autorzy badań uspokajają również, że ludzie w pewnym momencie i tak wybiorą to, co im się podoba, ignorując sugestie SI.
– Pod koniec dnia muzycy i melomani zawsze będą szukać mrocznych dźwięków i nowej muzyki. Ludzie nigdy nie przestaną wprowadzać innowacji, nawet jeśli dźwięk z radia jest ponadczasowy i niezmienny. Niezależnie od tego, co media głównego nurtu pokazują masom poprzez fale radiowe lub strumień internetowy, sztuka ma sposób na wytrwałość i rozwój wbrew wszelkim przeciwnościom. Jeśli wytwórnie i stacje radiowe zdecydują się zignorować powyższe kwestie, zrobią to na własne ryzyko – twierdzą autorzy prognostycznych wyliczeń dla potencjału muzyki.
Autorzy odkrycia chcą poszerzyć badania o kolejne dane, które mogą wpływać na sukces muzycznego kawałka: obecność i udostępnianie w mediach społecznościowych, doświadczenie artystów i poziom promocji.
– Uważamy, że istnieje więcej rodzajów cech, które mogą zapewnić naszemu modelowi kontekst społeczny, by jeszcze lepiej przewidywał sukces utworu – napisali w podsumowaniu opracowania metody wyłuskiwania hitów.
„Old Time Road” jest obecnie na 5. miejscu Billboard Top 100.
„Old Time Road” trudny do sklasyfikowania
*W kwietniu br. utwór „Old Time Road” został zdjęty z listy przebojów Billboard Hot Country. Bo chociaż brzmi jak country, Billboard uznał, że wcale nie reprezentuje muzyki tego gatunku. To trochę country, trochę rock and roll, trochę pop – ujawniła potem sztuczna inteligencja. Doktorant Timothy Greer, informatyk z Uniwersytetu Południowej Karoliny (USC) uznał piosenkę za bardzo ciekawą i postanowił wykorzystać trzy modele głębokiego uczenia, aby przeanalizować utwór i odpowiednio go sklasyfikować. Metoda Greera, który sam od lat jest muzykiem, grając na saksofonie i klawiszach w zespole grającym indie rock, automatycznie przewiduje gatunki muzyczne, analizując wzajemne oddziaływanie tekstu i akordów w całym utworze.
Obliczeniowe zrozumienie muzycznej opowieści oraz tego, jak ludzie doświadczają go i są pod jego wpływem jest częścią większego programu badawczego w dziedzinie analizy obliczeniowej mediów w Laboratorium Analizy i Interpretacji Sygnałów USC. „Old Town Road” to contry zgodnie z tekstem; rock według akordów i pop zgodnie z połączeniem akordów z tekstami. Artykuł Geera pt. „Korzystanie ze wspólnych reprezentacji wektorowych słów i akordów w muzyce do klasyfikacji gatunków” zostanie zaprezentowany na konferencji Speech, Music and Mind w sobotę 14 września w Wiedniu.