Czytając o kolejnych dokonaniach sztucznej inteligencji, nie zastanawiamy się nad kosztami jej powstania. A są wysokie
Na łamach naszego portalu nieraz piszemy o tym, jak sztuczna inteligencja może wesprzeć nas w działaniach na rzecz ratowania klimatu. Od projektów wspomagających zużycie wody przez algorytmy wykrywające nielegalną wycinkę lasów deszczowych po boty mające zwiększyć naszą świadomość o zmianach klimatu. Rzadko jednak zerkamy na drugą stronę medalu – ile to wszystko zużywa energii?
Naukowcy z Uniwersytetu Massachusetts w Amherst przenalizowali koszt energetyczny treningu sztucznej inteligencji. Rezultaty są wstrząsające.
Im więcej parametrów, tym większe zużycie energii
Eksperci wzięli pod lupę rozwój algorytmów NLP, czyli przetwarzania języka naturalnego. W tej dziedzinie w ostatnich latach nastąpił znaczny postęp. Jednak wymagał on szkolenia coraz bardziej złożonych modeli o coraz większej liczbie parametrów.
I tak w czerwcu 2017 roku powstał model NLP o 65 milionach parametrów, którego wyuczenie wymagało 27 kilowatogodzin energii i skutkowało wyemitowaniem 11 kilogramów dwutlenku węgla. W październiku 2018 model o 110 milionach parametrów potrzebował ok. 1500 kWh (ponad 650 kg CO2). Wyuczony w styczniu 2019 roku model o 213 milionach parametrów zużył ponad 650 tys. kWh (ok. 280 ton CO2). To tyle, ile średnio generuje pięć samochodów przez cały swój czas użytkowania.
Łatwo zauważyć, że ten ostatni przypadek znacznie odstaje od pozostałych. Wykorzystano w nim zaawansowaną metodę optymalizacji zwaną neural architecture search. Drastycznie zwiększa ona zapotrzebowanie na energię i przynosi nieproporcjonalnie niską poprawę jakości modelu.
Trenowanie modelu pożera energię
To dopiero początek. Emma Strubell, główna autorka publikacji, w rozmowie z MIT Technology Review podkreśla, że wytrenowanie pojedynczego modelu to tylko ułamek projektu badawczego. „W praktyce najczęściej badacze SI budują model od zera albo adaptują istniejący model do nowego zestawu danych. Każda z tych rzeczy wymaga wielu sesji treningu i optymalizacji” – mówi Strubell.
Zespół Strubell wziął pod lupę ich własny projekt z 2018 roku i stworzył na jego podstawie studium przypadku. Badacze odtworzyli czas potrzebny na wytrenowanie ostatecznej wersji modelu. Przez około 6 miesięcy wykonano 4 tysiące 789 sesji treningowych, które trwały od 3 minut do 9 dni (średnia – 52 godziny). Zaangażowano do pracy kilkadziesiąt wydajnych i prądożernych kart graficznych. Ich sumaryczny czas pracy nad tym jednym projektem to 27 lat.
Co na to poradzić? Autorzy badania proponują, by twórcy modeli informowali, ile czasu i zasobów potrzeba, by zaadaptować ich rozwiązania do nowych celów. Dzięki temu byłoby możliwe porównanie i wybór najbardziej efektywnych i… energooszczędnych modeli. Sugerują również, że należy położyć większy nacisk na rozwijanie bardziej efektywnego energetycznie sprzętu i algorytmów.
Nadzieja w komputerach kwantowych
Prace nad takimi rozwiązaniami już trwają, choć większość na razie w fazie teoretycznej. Wielu ekspertów uważa, że przyszłość należy do komputerów kwantowych, optycznych czy neuromorficznych.
Te ostatnie to komputery odwzorowujące architekturę ludzkiego mózgu. Z jednej strony można dzięki nim lepiej poznać jego naturę i działanie, z drugiej strony wykorzystać jego niezwykłą efektywność energetyczną do pokonania ograniczeń obecnych superkomputerów.
„Nasz mózg zużywa tylko 25 watów, tyle co słaba żarówka, podczas gdy superkomputer Google’a grający w go potrzebuje megawatów mocy. Oznacza to, że do rozwiązania problemu musi mieć tyle energii, ile zużywa niewielka wioska” – mówił w rozmowie z naszym portalem prof. Leon Chua z Uniwersytetu Kalifornijskiego w Berkeley.
W 2016 roku powstała propozycja mechanicznego komputera molekularnego, składającego się z sieci miniaturowych połączeń i przegubów. Twórcy rozwiązania przekonują, że tarcie elementów na poziomie molekularnym zużywałoby o wiele mniej energii niż opór elektryczny w klasycznych rozwiązaniach. Efekt – maszyny, które przy tym samym poborze energii byłyby nawet 100 miliardów razy bardziej wydajne.