Z pierwszego systematycznego przeglądu badań wynika, że sztuczna inteligencja jest już równie dobra w diagnostyce obrazowej jak lekarze. Problemem jest niska jakość badań w tej dziedzinie
Coraz częściej w medycynie wykorzystuje się uczenie maszynowe: pomaga diagnozować choroby nerek, płuc, serca, czasem nawet lepiej niż lekarze. Ale to, że algorytmy są lepsze w diagnozowaniu jednego schorzenia wcale nie oznacza, że są równie dobre, jak człowiek. Wszakże lekarz specjalista może rozpoznać dziesiątki, jeśli nie setki chorób.
Jak zatem sztuczna inteligencja wypada w porównaniu z lekarzami? W „Lancet Digital Health” badacze publikują pierwszy przegląd systematyczny naukowych prac w tej dziedzinie.
Naukowcy znaleźli ponad 20 tysięcy różnych naukowych prac, oceniających skuteczność diagnozy ludzkiej i maszynowej. Jednak zaledwie co setna zawierała dane wystarczająco dobrej jakości i ową mniejszość w przeglądzie uwzględniono.
Z przeglądu wynika, że w przypadku istniejących zmian lub schorzeń maszyny stawiają prawidłową diagnozę przeciętnie w 87 proc. przypadków, ludzie zaś w 86 proc. Z kolei brak patologicznych zmian maszyny identyfikują poprawnie w 91 proc. przypadków, lekarze w 93 proc. Można więc powiedzieć, że sztuczna inteligencja w diagnostyce obrazowej dorównała już ludziom.
Główną przeszkodą w ocenie była metodologia prac naukowych. Głębokie uczenie często oceniano w oderwaniu od praktyki klinicznej. Na przykład tylko w czterech rozpatrywanych badaniach lekarze mieli do dyspozycji pełne dane o pacjencie, które zwykle miewają, stawiając diagnozę (w pozostałych badaniach lekarze oceniali jedynie obrazy diagnostyczne, nie mając żadnych innych informacji). W większości prac porównywano zestawy danych, a nie konkretne przypadki pacjentów w szpitalach.
Naukowcy znaleźli ponad 20 tysięcy różnych naukowych prac, oceniających skuteczność diagnozy ludzkiej i maszynowej. Jednak zaledwie co setna zawierała dane wystarczająco dobrej jakości
Kluczową lekcją z naszej pracy jest to, że w przypadku sztucznej inteligencji – tak jak w przypadku całej medycyny – istotny jest dobry projekt badania. Bez niego łatwo pojawiają się błędy. To prowadzi do przesadzonych twierdzeń o skuteczności narzędzi opartych na sztucznej inteligencji, które nie przekładają się na rzeczywistość – pisze jeden z autorów przeglądu, dr Xiaoxiuan Liu z Uniwersytetu w Birmingham w komentarzu do badań.
W nauce znane jest zjawisko „złudzenia publikacyjnego”, które wynika z tego, że badacze chętniej publikują prace, które coś udowadniają, niż donoszą o braku efektów lub dowodu, co również należy mieć na uwadze.
Eksperci komentujący dla brytyjskiego „Guardiana” również ten fakt podkreślają. Prof. David Spiegelhalter z Uniwersytetu Cambridge mówi, że ten skądinąd znakomity przegląd prac demonstruje, jak medialny szum wokół sztucznej inteligencji w medycynie przysłania niezmiernie niską jakość badań.
W komentarzu redakcyjnym „Lancet” zaś przestrzega przed wyciąganiem zbyt daleko idących wniosków. Liu i współpracownicy udowodnili, że wąski wycinek dostępnych publicznie prac wskazuje na to, że sztuczna inteligencja nie jest gorsza od lekarzy. Nie oznacza to jednak, że jest od nich lepsza, a dane na ten temat są i dość skąpe, i niewysokiej jakości.
Autorzy opublikowanego w „Lancecie” przeglądu są jednak optymistami, jeśli chodzi o potencjał sztucznej inteligencji w medycynie. Uważają, że może ona zlikwidować zatory, tam gdzie obrazów do diagnozowania jest zbyt dużo. Jest też bezcenna wszędzie tam, gdzie brakuje specjalistów do ich oceny.