Miliony zdjęć czekają w archiwach na swoje drugie, cyfrowe życie – trzeba je zeskanować i opisać. Dla ludzi to zadanie na setki lat. Ale od czego jest sztuczna inteligencja – pomyśleli młodzi polscy specjaliści. I zabrali się do roboty

W okrągłym jak rolka z kliszą fotograficzną budynku Narodowego Archiwum Cyfrowego przy ulicy Hankiewicza w Warszawie leży w pudłach prawie 16 milionów zdjęć. Czekają, aż ktoś je wyciągnie, uporządkuje i opisze. Ale kto miałby to zrobić?!

Wyobraźmy sobie, ilu archiwistów potrzeba, żeby opracować taką masę materiałów. Zwłaszcza że muszą to być ludzie znający się na rzeczy, o wyjątkowych kompetencjach.

Po latach żmudnej pracy specjalistów z archiwum zaledwie wycinek całej kolekcji został zdigitalizowany i opisany. W serwisie online udostępnionych jest obecnie około 250 tysięcy zdjęć, a nieopisanych zostało kilkadziesiąt razy więcej…

Roboty na stulecia

W tej sytuacji człowiekowi opadają ręce, natomiast swoje walory może pokazać sztuczna inteligencja. Do takiego wniosku doszło dwoje młodych pracowników działu przetwarzania obrazu i sztucznej inteligencji firmy Linux Polska, która świadczy usługi w obszarze technologii open sourcedata science – Natalia Ziemba-Jankowska i Adrian Boguszewski*.

Adrian Boguszewski i Natalia Ziemba-Jankowska

– Z pracownikami Narodowego Archiwum Cyfrowego mieliśmy okazję współpracować przy okazji innego projektu, ale pomyśleliśmy, że aż się prosi, żeby zaprezentować nasze możliwości instytucji, która ma tak ogromne zasoby fotografii. Pomysł na rozpoznawanie, kto jest kim na zdjęciu, wyszedł więc od nas – mówi Natalia Ziemba-Jankowska. – Wydało nam się, że dla sztucznej inteligencji powinno to być dość proste zadanie. SI potrafi przecież nadawać zdjęciom hasła przedmiotowe na podstawie klasyfikacji zdjęć, jak również rozpoznaje osoby, choć dopiero od niedawna – tłumaczy.

Pobrali więc zdjęcia – wraz z opisami stworzonymi przez archiwistów – powszechnie dostępne w serwisie administrowanym przez Archiwum i wytrenowali na nich odpowiednie algorytmy sieci neuronowych. Demo pokazujące, co ze zdjęciami są w stanie zrobić algorytmy sztucznej inteligencji, zrobiło duże wrażenie na pracownikach Archiwum.

– To był zaskakujący, ale bardzo interesujący dla nas pomysł – mówi Adam Waszkiewicz z NAC. – Co prawda podobne rozwiązania nie zastąpią w pełni pracy archiwisty, ale mogą ją wspomóc i przyspieszyć, chociażby poprzez weryfikację wprowadzonych opisów oraz przyspieszenie identyfikacji osób. Być może udałoby się rozpoznać osoby, które dotychczas były nierozpoznane. Choć oczywiście wielkim wyzwaniem jest dla nas również sama digitalizacja wspomnianych 16 milionów fotografii. Ten proces jest realizowany przez ludzi i nawet przy wprowadzeniu częściowej automatyzacji zajmie jeszcze wiele lat.

– Ludzie często boją się sztucznej inteligencji – mówi Natalia Ziemba-Jankowska. – Instytucje państwowe, których schemat działania jest ugruntowany, a metody od lat niezmienne – także. Sztuczna inteligencja kojarzy im się często z zastępowaniem ludzi maszynami. Ale tego akurat Archiwum się nie powinno obawiać, bo im raczej brakuje rąk do pracy i myślę, że chcieliby zautomatyzować niektóre czynności.

– Ile zdjęć jesteście w stanie opracować w ciągu roku? – pytam.

– W tym roku zaplanowaliśmy opisanie 7,5 tys. fotografii, a zostało nam jeszcze przeszło 15,5 mln. A przecież zdjęć przybywa.

– I to w tempie wykładniczym! Dzisiaj kto żyw produkuje tysiące zdjęć (nawet jeśli nie każde byłoby dla Archiwum interesujące).

– Dlatego zmiana jest potrzebna, i to już – zgadzają się oboje.

Stąd ich inicjatywa, która co prawda na razie jest tylko propozycją, lecz najwyraźniej może liczyć na przychylność władz NAC.

– Myślę, że narzędzie tego typu znalazłoby zastosowanie w Narodowym Archiwum Cyfrowym – mówi Adam Waszkiewicz. – Zakładamy, że w istotny sposób wpłynęłoby na szybkość naszej pracy, a w efekcie zyskaliby użytkownicy, którzy korzystają na co dzień z naszego zasobu. Myślę, że w przyszłości będziemy chcieli wdrażać technologie tego typu w polskich archiwach.

Trening czyni mistrza

Prace nad narzędziem sztucznej inteligencji, które byłoby zdolne wesprzeć opis 16 milionów zdjęć także z Narodowego Archiwum Cyfrowego, trwają już od czterech miesięcy; potrzeba jeszcze dwóch, żeby w pełni przygotować je do samodzielnej pracy.

– Po pierwsze tagujemy zdjęcia: opisujemy je hasłami przedmiotowymi, żeby było łatwiej je znaleźć. Pobraliśmy więc zdjęcia opisane i opublikowane przez specjalistów Archiwum i na nich wytrenowaliśmy własną sieć neuronową – tłumaczy Natalia Ziemba-Jankowska.

Skoro większość zdjęć z lat 20. XX wieku przedstawiała oficjalne uroczystości, sieć nauczyła się, że każde większe zgromadzenie ludzi oznacza oficjalną uroczystość. Kiedy dorzuciłam do zbioru zdjęcia z koncertów rockowych i z siłowni, kompletnie zgłupiała

Natalia Ziemba-Jankowska

– Po drugie – rozpoznajemy osoby ze zdjęć po twarzach. Tu użyliśmy gotowej sieci, ale musieliśmy zbudować zbiór zdjęć referencyjnych złożonych ze 125 postaci historycznych, aby umożliwić tej sieci zakodowanie ich cech szczególnych i możliwość rozpoznawania ich na kolejnych zdjęciach.

Na tej podstawie teraz możemy opisywać kolejne, nowe zdjęcia, które jeszcze nie mają żadnego opisu.

Sieć wyławia Sławka

– Co to za zbiór?

– To głównie fotografie z dwudziestolecia międzywojennego, dwóch wojen światowych i lat 70. XX wieku – opowiadają specjaliści. – Zdjęcia z międzywojnia to w większości zdjęcia państwowe, oficjalne, rządowe – święta państwowe, uroczystości, pogrzeby, defilady; mało jest zdjęć prywatnych, bo rzadko kto miał wtedy aparat fotograficzny. Jeśli zdarzy się zdjęcie prywatne, to jest to zwykle Józef Piłsudski z rodziną na wakacjach.

Z kolei na zdjęciach z lat 70. pełno rolników, spotkań, spółdzielczości, pracy. Takie czasy. Tu jest już także więcej fotografii rodzinnych; na przykład jedna z fotografek – Grażyna Rutowska – zapisała w testamencie Archiwum całe swoje prywatne zbiory.

– To powoduje niestety tzw. stronniczość w tagowaniu – mówi Ziemba-Jankowska. – Bo skoro większość zdjęć z lat 20. XX wieku przedstawiała oficjalne uroczystości, sieć nauczyła się, że każde większe zgromadzenie ludzi na zdjęciu oznacza oficjalną uroczystość. Kiedy dorzuciłam do zbioru zdjęcia z koncertów rockowych i z siłowni, to sieć kompletnie zgłupiała. Koncert rockowy podpisała jako architekturę, a siłownię jako szkolenia. Bo nie miała wcześniej okazji takich rzeczy zobaczyć.

Sieci neuronowej zdarza się podobno odkryć na zdjęciu osobę, w której opisie błąd popełnił ludzki archiwista.

– Tak. Na przykład na zdjęciu z gazety z międzywojnia, na którym było ze 20 osób, Walery Sławek został podpisany jako Eugeniusz Kwiatkowski. Błąd typowo ludzki, wynikający zapewne ze zmęczenia. Nasza sieć neuronowa bez problemu wykryła, że to Sławek. Ona nie wie, co to zmęczenie.

Najważniejsze, że działa

– Jak działa rozpoznawanie twarzy? – pytam.

– Cechy charakterystyczne twarzy kodowane są za pomocą liczb – tłumaczy Adrian Boguszewski. – W naszym przypadku dokładnie 512 liczb, które nazywamy wektorem cech. Przy rozpoznawaniu, do kogo należy twarz na zdjęciu, sieć porównuje ze sobą już tylko te wektory. Dodawanie kolejnych wektorów do bazy odbywa się bez dodatkowego treningu. To znaczy, że w każdej chwili możemy dodać kolejną osobę do zestawu zdjęć referencyjnych, co spowoduje rozpoznawanie tej osoby na zdjęciach.

– Jakie cechy dokładnie są zakodowane?

– Tego niestety nie wiadomo. Są co prawda metody, które pozwalają wizualizować, na co sieć neuronowa zwraca uwagę, ale nadal sieci neuronowe trzeba traktować jak czarne skrzynki. Nie da się tak w pełni zinterpretować tego, co się dzieje w środku, to zbyt skomplikowany mechanizm. Ale dlaczego tak bardzo nam to przeszkadza? Najważniejsze, że działają. Człowiek w końcu też jest czarną skrzynką.

Minister incognito

– Dawne zdjęcia są czarno-białe; czy to nie jest znaczne utrudnienie dla sieci?

– Tak, to w pewnym stopniu zmniejsza skuteczność – potwierdza Boguszewski.

– A co, jeśli na zdjęciach są bardzo podobni do siebie ludzie, na przykład rodzeństwo?
Czy algorytm nie uzna ich za jedną osobę?

– Jeśli my potrafimy ich od siebie odróżnić, to sieć też da radę, często lepiej od nas. Przy odpowiednio ustawionym progu podobieństwa wektorów twarzy odróżni od siebie nawet bliźnięta jednojajowe. Oczywiście sieć neuronowa też potrafi się pomylić. Raz znalazła nam Agnieszkę Osiecką na zdjęciu oficjeli III Rzeszy. Zmieniliśmy próg podobieństwa i dodaliśmy dodatkowe zdjęcia Agnieszki Osieckiej i sieć zadziałała prawidłowo – opowiada Ziemba-Jankowska.

– A co, jeśli ktoś na zdjęciach referencyjnych jest znacząco młodszy niż na tych, które dodajemy? Na przykład 30 lat starszy i 30 kilogramów cięższy, z wąsami i brodą?

– Wciąż sieć go rozpozna. Kiedyś do zbioru do tagowania wrzuciliśmy zdjęcie młodego żołnierza; nie mieliśmy pojęcia, kim on jest. Algorytm rozpoznał, że to Bolesław Wieniawa-Długoszowski, którego znaliśmy z dużo późniejszych zdjęć.

– A jeśli osoba na zdjęciu stoi bokiem?

– Kiedyś na zdjęciu widać było za plecami innego mężczyzny jakąś postać, widać było tylko część jego twarzy. Sieć nam mówi, że tam jest Józef Beck. Patrzymy, ano faktycznie

– Beck. Archiwiści mieli małe szanse, żeby go uchwycić.

– Co z dziećmi? Czy sieć rozpoznałaby małego Piłsudskiego?

– Tego nie testowaliśmy, nie mamy takich zdjęć. Ale wiem, że są sieci neuronowe, które potrafią stwierdzić na podstawie twarzy, że ktoś jest czyimś dzieckiem. Nawet jeśli ojciec na zdjęciu jest młodszy niż syn, to sieć poprawnie wskaże relacje.

Tak naprawdę raczkujemy dopiero w tym wszystkim. Kiedy klient przychodzi do nas z zadaniem, to my nie możemy zagwarantować rezultatów. Bo to cały czas obszar badań. Mówimy: „Słyszeliśmy, widzieliśmy, postaramy się”. Ale nie mamy pewności, że coś z tego wyjdzie. Postęp w tej dziedzinie jest niewiarygodnie szybki. Śledzenie tego, co się pojawia, to praca niemal na pełen etat. My się nieustannie, na bieżąco uczymy.


*Natalia ZiembaJankowska – matematyczka po Politechnice Warszawskiej, wcześniej pracowała jako nauczycielka matematyki.
Adrian Boguszewski – informatyk po Politechnice Gdańskiej, wcześniej pracował jako inżynier od głębokiego uczenia w przetwarzaniu obrazów.