AlphaFold2: zwijanie (białek)? To proste

Spółka DeepMind stworzyła sieć neuronową do dokładnego przewidywania kształtu białek na podstawie samej sekwencji aminokwasów. To zmieni oblicze medycyny

Czy liczące ponad pół wieku wyzwanie właśnie zostało rozwiązane? „To zmieni wszystko” – pisze „Nature”.

AlphaFold2 to program sztucznej inteligencji opracowany przez DeepMind, spółkę zależną od Google’a. Służy do rozszyfrowywania struktury białek. Pod koniec listopada tego roku odbył się czternasty już konkurs Critical Assessment of Techniques for Protein Structure Prediction (CASP), organizowany od 1994 roku co dwa lata. Startują w nim algorytmy uczenia maszynowego. Aby ocenić wydajność ich prognoz komputerowych, każda grupa badaczy (autorów algorytmu) otrzymuje sekwencje białek, których struktura została ustalona eksperymentalnie, ale nie została jeszcze opublikowana. Algorytmy mają je rozgryźć bez laboratorium. Uczą się opracowywać kształt docelowego białka, przyglądając się wzorcom łączącym sekwencję i strukturę aminokwasów.

Algorytmowi AlphaFold2 udało się to tak dobrze jak pracującym nad tym latami naukowcom: w przypadku większości białek uzyskał wynik (określający podobieństwo przewidzianej struktury do rzeczywistej) rzędu 90 punktów na 100 w przypadku dwóch trzecich białek. Strukturę zaś przewidział z marginesem błędu wielkości atomu (około 0,16 nanometra). To znacznie lepiej, niż może zaoferować jakikolwiek inny program obliczeniowy, i odpowiada poziomom dokładności z laboratoryjnych technik eksperymentalnych – ogłoszono na stronie CASP.

Po nitce do kłębka

Białka składają się z szeregów połączonych ze sobą aminokwasów, które łączą się w długie i poskręcane nici. Przy czym określenie, jak dana białkowa nić się zwinie, czyli jaki kształt przybierze kłębek, jest niezwykle trudne. Tymczasem od tego zależy, czy białko będzie ułatwiającym komórkowe procesy enzymem, przekazującym sygnały receptorem, przeciwciałem reagującym na zewnętrznego wroga, a wreszcie to, czy będzie do niego pasował dany związek chemiczny, na przykład lek. Nieprawidłowe zwijanie się białkowych nici jest z kolei powodem wielu chorób (choćby choroby Parkinsona i Alzheimera).

„Ręczne” badanie struktur białek przez badaczy w laboratoriach jest bardzo żmudne. Kolejność aminokwasów w białkach można ustalić stosunkowo łatwo, ponieważ jest ona określana przez DNA, które je koduje. Ale odkrycie, jak się zwija białkowa nić, wymaga czasochłonnych eksperymentów, takich jak krystalografia rentgenowska i mikroskopia krioelektronowa (krio-EM).

Adres filmu na Youtube: https://www.youtube.com/watch?v=gg7WjuFs8F4

Z wizytą w DeepMind: jak pracują nad AlphaFold.
Źródło: DeepMind / YouTube

Niestety, tworzenie kryształów niektórych białek jest szczególnie trudne, a niektórych wręcz niemożliwe. Do tego interpretacja wzorów dyfrakcyjnych (powstających w wyniku prześwietlania kryształów promieniami rentgenowskimi) bywa czasem skomplikowana. Po półwieczu badań znamy przestrzenne struktury około stu tysięcy różnych białek – zaś na określenie struktury czeka w kolejce ponad sto milionów kolejnych.

Poszukiwano więc innych metod przewidywania struktur białek, z nadzieją spoglądając na komputery. Techniki obliczeniowe pozwalające symulować najbardziej prawdopodobne ułożenie aminokwasów były jednak bardzo skomplikowane – na tyle, że wymagały tygodni, a czasem miesięcy pracy superkomputerów. Jeśli założymy, że każdy aminokwas może się ułożyć na trzy różne sposoby (w lewo, na wprost albo w prawo), to przy stu aminokwasach liczba kombinacji wyniesie już 3¹⁰⁰. Tymczasem niektóre białka mogą się składać z setek tysięcy aminokwasów.

Algorytmy na białka

Gdy rozwinęły się algorytmy uczenia maszynowego, zaczęto pokładać nadzieje właśnie w nich. Postęp w tej dziedzinie był jednak z początku niewielki. Jeszcze w 2016 roku w konkursie CASP 2016 najlepsza drużyna uzyskała średni wynik około 40 w najtrudniejszej kategorii. Dwa lata później roku pierwsza wersja AlphaFold, zwyciężając, uzyskała w tej kategorii medianę blisko 60 punktów (punkty mierzą stopień podobieństwa rzeczywistej struktury białka z przewidywaniami komputerowymi). Był przy tym znacznie lepszy od konkurencji – drugi algorytm na podium rozszyfrował zaledwie trzy z kilkudziesięciu białek.

W tym roku zaś przeprojektowany AlphaFold uzyskał średni wynik 87 punktów w najtrudniejszej kategorii. Tym samym pobił rywali na głowę, pokonując rozwiązania setki innych zespołów.

„To zmieni medycynę. Zmieni badania naukowe. Zmieni bioinżynierię. Zmieni wszystko”.
Andrei Lupas, Instytut Biologii Rozwojowej Maxa Plancka w Tybindze

AlphaFold2 opracowany przez DeepMind osiągnął więc od dawna poszukiwany cel, jakim jest dokładne przewidywanie kształtu białek na podstawie samej ich sekwencji, co jest kluczowym elementem zrozumienia, jak działają biochemiczne mechanizmy życia.

AlphaFold2 raczej nie sprawi, że poprzednie metody powędrują do lamusa – nawet on się myli w niektórych miejscach, donosi „Science”. Badacze nadal będą musieli sprawdzać przewidywania algorytmów, jednak z pewnością ułatwią im one pracę.

Rakietą w (mikro)kosmos

Naukowcy uważają, że przez kilka następnych lat będą musieli wykonać pewne prace eksperymentalne, aby potwierdzać przewidywania algorytmów, ale ostatecznie będą mogli polegać wyłącznie na obliczeniach. Będzie to olbrzymi przełom, który może całkowicie zmienić oblicze biologii, biochemii i medycyny. Możliwość przewidzenia dokładnego kształtu, w jaki zwija się białkowa nić, dla wiedzy na temat skomplikowanej biochemicznej maszynerii jest niczym odpowiednik lotu rakietowego.

Co szczególnie obiecujące, do czasów AlphaFold postępy w obliczaniu struktury białek wyglądały na wykresach jak niezbyt stromo wznosząca się linia prosta. Dzięki algorytmowi DeepMind krzywa mocno odchyliła się do góry. To pozwala przypuszczać, że lada rok naukowcy będą mogli przewidzieć strukturę każdego białka. A to oznacza, że nowe, skuteczne leki, szczepionki czy przeciwciała skierowane przeciw konkretnym typom nowotworów będą powstawać znacznie szybciej niż przez ostatnie lata (czy nawet dekady).

„To zmienia reguły”

Komentarze badaczy są bardzo entuzjastyczne. „To poważna sprawa”, mówi dla „Nature” John Moult, biolog obliczeniowy z University of Maryland, który był jednym z inicjatorów CASP w 1994 roku. Twierdzi też, że „to [osiągnięcie] w pewien sposób rozwiązuje problem” i ma na myśli naukowy problem zwijania się białek.

„To zmienia reguły gry”, mówi z kolei Andrei Lupas, biolog z Instytutu Biologii Rozwojowej Maxa Plancka w Tybindze, który oceniał osiągnięcia zespołów w CASP i który za pomocą AlphaFold rozgryzł strukturę białka, nad którą wcześniej jego laboratorium głowiło się przez dekadę. „To zmieni medycynę. Zmieni badania naukowe. Zmieni bioinżynierię. Zmieni wszystko”.

Warto ten entuzjazm chwilowo ostudzić, bowiem osiągnięcie AlphaFold ogłoszono jako wyniki konkursu. Nie doniesiono jeszcze o tym w akceptowany w nauce sposób, czyli w formie zrecenzowanej publikacji w periodyku naukowym. To zresztą częsta przypadłość wielkich firm pracujących nad algorytmami sztucznej inteligencji, które lubią ogłaszać wyniki swoich algorytmów i branżowych konkursów bez weryfikacji, a ich publikacje są z naukowego punktu widzenia niezbyt wartościowe.

Na oficjalne naukowe potwierdzenie osiągnięć AlphaFold trzeba będzie poczekać. Jednak CASP uchodzi za bardzo „ścisły” konkurs o solidnej metodologii. Tym razem można mieć nadzieję, że to nie marketingowy zabieg DeepMind.

Komentarz ekspertki

Od planszówek do przełomów naukowych

Sara Szymkuć, prezeska firmy Allchemy, współautorka prac w „Nature” i „Science” z dziedziny chemii organicznej

Zwycięstwo AlphaFold2 w CASP14 z tak znaczącą przewagą nad innymi zespołami uważam za ogromny sukces sztucznej inteligencji. Jest to także kolejny dowód na dojrzałość dziedziny, której zastosowanie miało początek w grach planszowych, a teraz staje się nieodzownym elementem w rozwiązywaniu trudnych i zarazem kluczowych problemów naukowych. Zwycięstwo to, w mojej opinii, jest jednym z najważniejszych wydarzeń naukowych ostatnich lat, które może mieć znaczący wpływ na sposób prowadzenia badań oraz przyspieszenie dokonywania odkryć naukowych w biologii strukturalnej. Tak dokładne, szybkie i jednocześnie mniej kosztochłonne w porównaniu do metod eksperymentalnych przewidywanie struktur przestrzennych białek najprawdopodobniej przełoży się również na przyspieszenie tempa badań nad opracowaniem nowych leków.

Przeczytaj rozmowę z Sarą Szymkuć „Algorytmy i drzewo życia”.