Najnowsze algorytmy uczenia maszynowego mogą stawiać diagnozy trafniej niż ludzcy specjaliści. Dzięki temu, że są bardziej „ludzkie”

Algorytmy sztucznej inteligencji opracowane wspólnie przez badaczy z University College London oraz z firmy Babylon Health okazały się bardzo trafne w stawianiu diagnozy. W niektórych przypadkach SI okazała się lepsza nawet od lekarzy – tak przynajmniej wynika z badania na niewielkiej grupie.

Klasyczne sieci neuronowe zwykle programuje się, by znajdowały korelacje w dużej ilości danych. Na przykład trudności z oddychaniem występują często w przypadku ataku astmy, więc pacjent z takimi trudnościami będzie przez algorytm podejrzewany o astmę. Taki sposób jest dość skuteczny w przypadku częstych chorób, ale wcale nie oznacza, że jest dobry. Jego poprawienie wymaga olbrzymiej ilości danych, żeby móc zauważyć, że trudności z oddychaniem mogą też oznaczać (zwłaszcza wśród osób w pewnym wieku, z historią chorób serca, nadwagą i nadciśnieniem) także nasilenie choroby układu krążenia.

Tymczasem sieć opracowana przez Brytyjczyków „myśli” jak lekarz, który zazwyczaj stawia diagnozę w ten sposób, że stara się wykluczyć inne schorzenia – jeśli ma do czynienia z pacjentem w średnim wieku z nadwagą, który zgłasza się z problemami z oddychaniem, zapewne będzie najpierw chciał wykluczyć chorobę układu krążenia.

Wymaga to stawiania pytań, żeby wyeliminować inne hipotezy, na przykład: czy problemy z oddychaniem nie są objawem choroby układu krążenia. „Czy pacjent miałby problem z oddychaniem, gdyby nie miał nadwagi i nadciśnienia?” Odpowiedź przecząca (nie, nie miałby, gdyby nie historia nadciśnienia i nadwaga) wskazuje, że przyczyną może nie być astma, ale choroba układu krążenia, i pozwala podążyć dalej tym tropem – na przykład zmierzyć ciśnienie oraz wykonać EKG.

Oczywiście system nie zadaje sobie jednego pytania – w istocie nie zadaje sobie żadnych. Po prostu wylicza prawdopodobieństwo warunkowe wystąpienia danego objawu pod warunkiem istnienia schorzenia zakładanego na potrzebę hipotezy (to tzw. wnioskowanie bayesowskie).

Tradycyjne algorytmy mają skuteczność porównywalną z „lepszą połową” lekarzy. Nowy system uczenia maszynowego jest zaś równie dobry, jak górne 25 procent medyków

Autorzy pracy opublikowanej w „Nature Communications” proponują formalną definicję diagnozy, która bierze pod uwagę trzy rzeczy. Po pierwsze to, czy prawdopodobieństwo, że schorzenie jest przyczyną danego objawu, jest proporcjonalne do prawdopodobieństwa wystąpienia tego schorzenia. Po drugie to, że schorzenie, które nie może powodować danych objawów, ma zerowe prawdopodobieństwo wystąpienia w danym przypadku. Po trzecie zaś to, że schorzenia tłumaczące więcej objawów są bardziej prawdopodobne.

System testowano na fikcyjnych, ale realistycznych, opracowanych przez lekarzy, historiach 350 różnych schorzeń. Przedstawiono je ponad 40 lekarzom, którzy przeciętnie w badaniu stawiali prawidłową diagnozę w 71,4 procentach przypadków. Tradycyjne algorytmy poszukujące korelacji stawiały trafną diagnozę w 72,5 procentach przypadków, co było porównywalne z trafnością biorących udział w testach lekarzy. Nowo opracowany system „wnioskujący” stawiał zaś trafne rozpoznanie w 77,3 procentach przypadków, czyli okazał się o lepszy od lekarzy.

Jak piszą badacze, tradycyjne algorytmy mają skuteczność porównywalną z „lepszą połową” lekarzy (mają wyniki takie, jak wyniki 48 procent najskuteczniejszych specjalistów). Nowy system uczenia maszynowego jest zaś równie dobry, jak górne 25 procent medyków, czyli „osiąga kliniczną dokładność ekspercką”.

„Ludzki” algorytm był szczególnie trafny w przypadkach chorób rzadkich (na przykład chłoniaków nieziarniczych) i diagnozował je trafniej niemal o jedną trzecią częściej niż starszy system sztucznej inteligencji. Z kolei lekarze byli lepsi w rozpoznawaniu schorzeń częstych, co akurat nie powinno dziwić – bowiem najczęściej spotykają się właśnie z takimi.

„Podejścia do ulepszania systemów diagnostyki klinicznej koncentrują się na rozwoju lepszych architektur modeli i wykorzystywaniu nowych źródeł danych, nasze wyniki wskazują na nową drogę do systemów diagnostyki klinicznej na poziomie eksperckim – zmianę tego, jak wyszukiwana jest w modelach informacja, aby uzyskać wiedzę przyczynową”, piszą badacze.

„Nasze wyniki dodają wagi argumentom, że metody uczenia maszynowego, które nie obejmują myślenia przyczynowego, będą mieć problem z przekroczeniem ludzkich specjalistów w pewnych dziedzinach”, dodają badacze we wnioskach pracy. Sugerują też, że ich algorytm powinien wspierać lekarzy, służąc drugą opinią, a połączone diagnozy lekarzy i algorytmów będą trafniejsze niż jednych i drugich z osobna.

W komunikacie prasowym na stronie firmy Babylon jej założyciel i dyrektor zarządzający, dr Ali Parsa, pisze: „Połowa świata niemal nie ma dostępu do opieki zdrowotnej. (…) SI może być ważnym narzędziem, które pozwoli zmniejszyć niesprawiedliwą dystrybucję opieki zdrowotnej i sprawi, że będzie ona bardziej dostępna, także finansowo, dla każdego człowieka na Ziemi”.

Xiaoxuian Liu z University Hospitals Birmingham NHS Foundation Trust, która zajmuje się badaniami nad systemami uczenia głębokiego w medycynie, komentuje dla tygodnika „New Scientist”, że to nowe i obiecujące podejście, a metodologia pracy była bardzo dobra. Podkreśla jednak, że próba przypadków i lekarzy była nieliczna, a w rzeczywistości lekarze często mają do czynienia z kilkoma schorzeniami u jednego pacjenta. Jak poradziłby sobie z tym wnioskujący algorytm – trzeba będzie sprawdzić na żywo.