Gdy szef dosłownie patrzy ci na ręce

Odkrycie na czasy pracy zdalnej i połączeń wideo! Ruch twoich ramion może zdradzić, co piszesz na klawiaturze. Sformułowanie „mowa ciała” nabiera nowego znaczenia

Wideokonferencje w czasie pracy zdalnej mają wiele wad: narzekamy na złe oświetlenie, wchodzące w kadr dzieci, małżonkowie lub rodzice, hałasy w tle, kiepska jakość połączenia. Właśnie dołącza do nich kolejna: szef i współpracownicy mogą odczytać, co piszemy na klawiaturze, choć widzą tylko nasze „popiersie”.

Jak donosi „New Scientist”, badaczom z University of Texas w San Antonio (UTSA) udało się odczytać niewidoczne – a dokładniej to, co piszemy na klawiaturze – z ruchów ramion w kadrze podczas transmisji lub z nagrań wideo.

Jak to działa? Odpowiednie oprogramowanie usuwa z wideo wszystko poza konturami ramion. „Mapę” ruchów ramion i przedramion naukowcy nanieśli na „mapę” uderzeń w klawiaturę. Okazało się, że na podstawie takich ruchów ciała można przewidzieć uderzenia palców w klawisze z dokładnością do centymetra – a dzięki temu odszyfrować wpisywane słowa.

Nie jest to oczywiście sposób doskonały – udaje się w ten sposób odtworzyć od 75 do 83 procent słów pisanych na klawiaturze. To jednak wystarczy, żeby (w kontrolowanych warunkach laboratoryjnych) zrekonstruować znakomitą większość tekstu. Nieco lepiej pod tym względem wypadają konferencje wideo na Skypie, na Zoomie (ze względu na inny algorytm kompresji obrazu) wyniki były gorsze, choć tylko o 3,4 procent.

Komentujący to odkrycie Alan Woodward z brytyjskiego University of Surrey powiedział „New Scientist”, że wyniki są alarmujące, bowiem „nie trzeba wiele, żeby uzupełnić brakujące wyrazy”. Peter Grad w serwisie TechXplore zauważa, że to ważne odkrycie – Zoom ma około 300 milionów użytkowników dziennie. Na domiar złego jego zabezpieczenia nie są doskonałe i dość łatwo jest dostać się na wideokonferencję, nie będąc na nią zaproszonym (zjawisko to nazwano „zoom-bombingiem”, przez analogię do „photo bombingu”, czyli pojawienia się w kadrze zdjęcia nieoczekiwanej osoby).

Czy jest na to jakiś sposób? Szef zespołu badaczy z UTSA Murtuza Jadliwala komentuje, że można by rozmazywać zarys sylwetki od szyi w dół, choć dodaje, że przecież wideokonferencje polegają właśnie na tym, żeby widzieć rozmówcę. Innym prostym rozwiązaniem (to już nasz pomysł) jest takie ustawienie kamery obrazu, by widać było tylko naszą twarz.

Nie jest to pierwszy raz, kiedy „mikroszpiegowanie” za pomocą algorytmów śledzących z pozoru niewinne ruchy okazuje się niezwykle skuteczne, przypomina Peter Grad. Dane z akcelerometrów i żyroskopów smartfonów pozwalają „trojańskim koniom” odczytać kody PIN wprowadzane podczas transakcji na telefonach. Kilka zaś lat temu opracowano algorytmy pozwalające podsłuchać odległą rozmowę w zamkniętym pomieszczeniu dzięki odczytowi drgań żarówki czy paczki chipsów leżącej na stole. W lutym tego roku opisywaliśmy zaś algorytmiczne metody odtwarzania obrazów ukrytych w cieniach na ścianie.

Pocieszające jest to, że wysoką skuteczność rozpoznawania tekstu z ruchów ramion osiągnięto (na razie) w kontrolowanych warunkach laboratorium. W rzeczywistych sytuacjach algorytmy rozpoznawały tylko jedno słowo na pięć. Na wszelki wypadek lepiej nie logujcie się do banku podczas wideokonferencji. Oraz, rzecz jasna, nie piszcie nic niepochlebnego o szefie.

Badanie zamieszono w serwisie ArXiv, gdzie naukowcy dzielą się pracami naukowymi przed recenzją i publikacją.