Wydajność algorytmów uczenia maszynowego rośnie w tempie wykładniczym. Dzięki temu najnowsze technologie są coraz bardziej dostępne

Prawo Moore’a sformułowane w latach 60. XX wieku przez Gordona Moore’a, jednego z założycieli Intela, mówi, że liczba tranzystorów w komputerach rośnie wykładniczo, czyli podwaja się w niemal równych odstępach czasu (około dwóch lat). Możliwe, że już wkrótce rozwój architektury opartej na krzemie dojdzie do ściany i prawo straci rację bytu.

Fakt, że przez tyle lat prawo się utrzymywało, pokazywał nam, jak prędko następuje postęp w nowych technologiach. Eksperci z OpenAI wyszli z sugestią, że może coś podobnego dzieje się teraz w dziedzinie sztucznej inteligencji.

W opublikowanej właśnie pracy przeanalizowali postępy w wydajności modeli uczenia maszynowego. W przypadku sztucznej inteligencji trudno mówić o liczbie tranzystorów, dlatego za wskaźnik postępu technologicznego obrali liczbę operacji zmiennoprzecinkowych potrzebnych do wytrenowania modelu uczenia maszynowego.

Na przykład powstały w 2019 roku model rozpoznawania obrazu EfficientNet-b0, by uzyskać efektywność modelu AlexNet z 2012 roku, potrzebuje 44 razy mniejszego nakładu mocy obliczeniowej. Oznacza to, że średnio co 16 miesięcy efektywność algorytmów rozpoznawania obrazu podwaja się. To lepiej niż w przypadku prawa Moore’a, według którego w tym czasie nastąpiłby „zaledwie” jedenastokrotny wzrost wydajności.

Krajobraz algorytmów sztucznej inteligencji jest już dość bogaty, dlatego w niektórych dziedzinach postęp jest szybszy, w innych wolniejszy. Na przykład w tłumaczeniu maszynowym w ciągu zaledwie trzech lat, jakie dzieliły powstanie modeli seq2seq i Transformer, wydajność zwiększyła się 61 razy.

Jeśli chodzi o grę w go, to postęp też jest imponujący. AlphaZero jest ośmiokrotnie bardziej wydajny od swojego o rok starszego poprzednika – AlphaGoZero.

Z kolei OpenAI Five Rerun, algorytm ogrywający ludzi w grę Dota 2, potrzebuje pięć razy mniej mocy obliczeniowej od OpenAI Five. Te dwie generacje algorytmów dzielą zaledwie trzy miesiące.

W ocenie autorów pracy proces rozwoju modeli uczenia maszynowego przypomina strategię wprowadzania innowacji w Intelu, tzw. tick-tock. Składały się na nią dwa powtarzające się etapy – zmiana architektury procesora, wprowadzanie nowych rozwiązań (tock), a po niej zmiana procesu technologicznego, czyli miniaturyzacja elementów (tick).

Analogicznie w przypadku rozwoju modeli uczenia maszynowego mamy do czynienia na zmianę z opracowaniem nowych funkcjonalności (co wiąże się ze zwiększonym zapotrzebowaniem na moc obliczeniową), a następnie z ich optymalizacją, czego skutkiem jest znaczne zwiększenie efektywności.

Jak zastrzegają autorzy, trudno też na razie mówić o uniwersalnym odpowiedniku prawa Moore’a dla uczenia maszynowego jako takiego i możliwe, że jego ustanowienie nie będzie możliwe, bo algorytmy tworzone do różnych zadań rozwijają się w różnym tempie.

Nie zmienia to jednak faktu – twierdzą – że sztuczna inteligencja rozwija się dynamicznie, a nawet skromna ilość mocy obliczeniowej pozwala na uzyskanie coraz lepszych rezultatów. Oznacza to mniejsze koszty związane z zakupem sprzętu lub wynajęciem chmury obliczeniowej i umożliwia dostęp do technologii szerszemu gronu badaczy i entuzjastów.