Ivona, Alexa, Vika, czyli inteligentne dziewczyny z Gdańska

Mieliśmy po dwadzieścia parę lat i byliśmy odważni. Wiedzieliśmy, że świat nie śpi, że wszyscy teraz pracują nad syntezą mowy lepszej jakości. A my tu, w Gdańsku, w pięć osób ledwo wiązaliśmy koniec z końcem – opowiada Łukasz Osowski, współtwórca asystenta głosowego Amazona, w rozmowie z Moniką Redzisz.

Monika Redzisz: Pamiętam moje zdziwienie, kiedy dowiedziałam się, że Alexa, najpopularniejszy dziś asystent głosowy na świecie, powstała w dużej mierze w Trójmieście, na bazie polskiego syntetyzatora mowy Ivona. Kiedy pan stworzył Ivonę? I jak to się stało, że przemieniła się w Alexę?

Łukasz Osowski*: Na pomysł wpadłem podczas studiów na wydziale Elektroniki, Telekomunikacji i Informatyki Politechniki Gdańskiej. Byłem chyba na czwartym roku, kiedy zainteresowało mnie rozpoznawanie mowy. To był 2000 rok. Wiadomo już było mniej więcej, jak powinien być zbudowany system rozpoznawania mowy, ale nie było jeszcze na świecie żadnego dobrego produktu. W ramach projektu studenckiego zrobiłem wtedy razem kolegą z roku prosty system rozpoznawania mowy. Zrozumiałem, że to bardzo trudne, i postanowiłem zająć się czymś trochę łatwiejszym, lecz wówczas także jeszcze nierozwiniętym: syntezą mowy. Znalazłem opensource’owy system Festival z Dublina. Był super, więc postanowiłem zająć się syntezą mowy w ramach mojej pracy magisterskiej.

Czy istniały wtedy jakieś dobrze działające syntezatory mowy?

Parę, ale brzmiały tragicznie, jak roboty ze starych filmów science fiction. Trudno było coś zrozumieć. W Festivalu można było osiągnąć lepszą jakość.

Ale zdarzyło się wtedy jeszcze coś… Jeden z naszych profesorów zrobił nam testy osobowości, opracowane w Stanach w latach 60. dla żołnierzy wracających z Wietnamu. Miały im pomóc na nowo odnaleźć się w społeczeństwie. Wyszło mi, że mam cechy predysponujące do budowy własnego przedsięwzięcia.

Nie spodziewał się pan tego?

Zupełnie, to było totalne zaskoczenie. Ale pomyślałem, że warto pójść za tą wskazówką, bo może szansa na to, że będę robił w życiu coś satysfakcjonującego, zwiększy się. Miałem więc fajny temat – temat na pracę magisterską, ale i taki, który można przekuć w działalność komercyjną, w swoją firmę. Prawdopodobnie to idealna dla mnie ścieżka rozwoju osobistego. Zaczęliśmy pracować nad projektem we trójkę: ja, kolega ze studiów Michał Kaszczuk i jeszcze jeden kolega, który wycofał się po kilku miesiącach. Fragment tego rozwiązania był podstawą mojej pracy magisterskiej, ale pracowaliśmy z Michałem dalej po 12-14 godzin na dobę, aż po kilku miesiącach mieliśmy pierwszą wersję produktu. Nazwaliśmy go Spiker. A Michał kilka miesięcy później obronił swoją pracę magisterską, której tematem także był syntezator mowy.

Jak rozumiem, o asystentach głosowych nikt jeszcze wtedy nie słyszał.

Nie, ale miałem w głowie wizje rodem z filmów science fiction, choćby z „Odysei kosmicznej 2001”, gdzie jest komputer, który rozmawia i rozumie, pierwowzór asystenta głosowego.

Pamiętam do dzisiaj, kiedy Ivona przemówiła po raz pierwszy. Wow!

Chcieliśmy rozwijać jednocześnie i syntezę mowy, i rozpoznawanie mowy, żeby móc takiego asystenta zrobić, oczywiście przyjaznego. Ale takie wyzwanie byłoby dla nas zbyt duże, przede wszystkim finansowo. Skupiliśmy się na syntezie.

Jaka była wtedy wasza syntetyczna mowa?

Lepsza od innych dostępnych na rynku, choć to nie była jeszcze mowa naturalna, której słuchałoby się z przyjemnością. Założyliśmy jednak firmę i zaczęliśmy Spikera sprzedawać. Odbiorcami były wyłącznie osoby niedowidzące lub niewidome. Spiker czytał im to, co było na ekranie komputera, w mailach, na stronach internetowych. Sprzedaliśmy kilkadziesiąt egzemplarzy, przychody były bardzo niskie.

Z czego żyliście?

Byliśmy wtedy studentami i jeszcze finansowali nas rodzice, a nasze koszty były minimalne.

Miał pan wtedy wizję, do czego jeszcze to się może przydać? Na co pan liczył?

Doszliśmy z Michałem do wniosku, że nigdy nie będziemy w stanie stworzyć porządnej firmy, sprzedając produkt tak wąskiej grupie odbiorców; po prostu z tego nie wyżyjemy. Postanowiliśmy więc zacząć pracę nad zupełnie nową jakością syntezy. Tak naturalną, żeby nie tylko niewidomi i niedowidzący chcieli z niej korzystać. Uznaliśmy, że w sumie jest bardzo wiele sytuacji, w których także osoby widzące nie mogą czytać z ekranu, na przykład podczas prowadzenia samochodu, na dworcach, lotniskach, w tramwajach i autobusach. Chcieliśmy stworzyć syntezator mowy na tyle dobry, by ludzie chcieli go słuchać wszędzie, nie zauważając szczególnej różnicy między nim a lektorem. Problemem było jednak to, że nikt jeszcze czegoś takiego nie zbudował.

Dlaczego nazwaliście go Ivona?

Na początku to był Ivo – skrót od intelligent voice. Ale potem zrozumieliśmy, że skoro głos, który stworzymy, ma być możliwie najbardziej ludzki, musi też mieć ludzkie imię.

Ivonę zaczęliśmy tworzyć w 2002 roku. Nie było lekko. Studia się skończyły, więc musieliśmy się już jakoś sami utrzymywać, sprzedając Spikera. Z drugiej strony musieliśmy zatrudnić jeszcze parę osób, aby powiększyć zespół tworzący Ivonę. Jakoś udało nam się przetrwać, ale ze cztery lata balansowaliśmy na krawędzi.

Nie było inwestorów chętnych, żeby zainwestować w coś tak innowacyjnego?

Nie. To były trudne lata dla inwestycji, świeżo po krachu tzw. dot-comów na giełdach światowych. Ludzie patrzyli z nieufnością na wszelkie przedsięwzięcia informatyczne. Ale powoli zaczynaliśmy mieć dowody na to, że coś będzie z tej naszej technologii. Pamiętam do dzisiaj, kiedy Ivona przemówiła po raz pierwszy. Wow! Przeskok pomiędzy nią a Spikerem był wielki.

Dlaczego?

Wykorzystaliśmy znacznie więcej nagrań – wynajęliśmy lektora i przez kilka dni pracowaliśmy z nim w studiu. To była baza dla syntezatora mowy. Syntezator składa swoją wypowiedź z fragmentów nagrań, łącząc je i tworząc nową wypowiedź. Im więcej nagrań, tym jakość mowy jest lepsza. Spiker wykorzystywał około 1,5 tysiąca słów, Ivona – kilkaset razy więcej. Jednak najtrudniejsze było stworzenie algorytmu, który przeszukiwałby te nagrania, ciął je i gładko łączył ze sobą, by stworzyć nową wypowiedź. Przy czym chodziło nie tylko o same słowa, ale także o intonację, rozłożenie pauz i akcentów, które sprawiają, że wypowiedź jest dla nas zrozumiała. Chodzi o różnice między pytaniem i twierdzeniem, ale także w ogóle o melodię języka. Każde zdanie ma swoją melodię; w zdaniach złożonych jest ona bardziej skomplikowana.

I to w tym właśnie celu wykorzystaliśmy m.in. analizę fourierowską i szereg rozwiązań z dziedziny sztucznej inteligencji: drzewa decyzyjne, sieci neuronowe, logikę rozmytą. Musieliśmy stworzyć algorytmy, które same wszystkiego się nauczą i wykorzystają tę wiedzę w syntezatorze. Ich rolą było zaproponowanie naturalnej melodii dla danego zdania.

Komputerowe modelowanie tego, co nigdzie nie zostało zapisane, musi być trudne.

Bardzo. Około 2000 roku przewidywano, że naturalna synteza mowy jako jedno z trudniejszych wyzwań sztucznej inteligencji zostanie zbudowana około 2010 roku. Nam udało się to osiągnąć w 2006. Nasza synteza niewiele się różniła od nagrań lektora.

W tym samym czasie pracowały nad tym Microsoft, Google, Apple. Miały nieporównanie więcej ludzi i pieniędzy. Jak to możliwe, że ich wyprzedziliście?

Sam się często nad tym zastanawiam. Cóż, mieliśmy po dwadzieścia parę lat i byliśmy odważni. Na pewno byliśmy bardzo zdeterminowani – to było przecież nasze przedsięwzięcie, pracowaliśmy dla siebie. Wiedzieliśmy, że świat nie śpi, że wszyscy teraz pracują nad syntezą mowy lepszej jakości. A my tu, w Gdańsku, w pięć osób ledwo wiązaliśmy koniec z końcem. Byliśmy niemal zupełnie oderwani od świata – nie mogliśmy jeździć na konferencje naukowe, nie mieliśmy pieniędzy, by zatrudnić więcej ludzi. Oczywiście, czytaliśmy z Michałem publikacje, każdego dnia rozwijaliśmy Ivonę, wymyślając i sprawdzając nowe pomysły, ale bardzo trudno było nam oszacować, na jakim etapie są inni.

Kiedy się okazało, że jesteście najlepsi?

W 2006 roku. Wiedzieliśmy już, jak mówi nasza Ivona, i byliśmy bardzo tym podekscytowani. Wiedzieliśmy, że jest dobra, ale nie wiedzieliśmy, jak bardzo. Jak zmierzyć jej jakość, jak porównać do tego, co robią inni? Wtedy dowiedzieliśmy się, że zespół, który stworzył syntezator mowy Festival, organizuje konkurs Blizzard Challenge. Chodziło o to, żeby zbudować syntezator oparty o nagrania, które dostarczą organizatorzy. „Świetna okazja, by przekonać się, jak dobrzy jesteśmy” – pomyśleliśmy. Dostaliśmy kilkugodzinne nagrania lektora, z których musieliśmy błyskawicznie zbudować syntezator mowy mówiący po angielsku. Następnie nadesłano nam tekst – kilkaset zdań. Uruchomiliśmy dopiero co zbudowany syntezator, który odczytał te zdania, zapisaliśmy je do plików audio mp3 i odesłaliśmy do organizatorów. Na wszystko mieliśmy kilkadziesiąt godzin. Wyniki miały być ogłoszone po kilku tygodniach na konferencji w Stanach, ale znacznie wcześniej zadzwonił do nas Alan Black, kierownik konkursu, i poprosił, żebyśmy koniecznie przyjechali do Stanów na ogłoszenie wyników.

Musieliśmy stworzyć algorytmy, które same wszystkiego się nauczą i wykorzystają tę wiedzę w syntezatorze mowy. Ich rolą było zaproponowanie naturalnej melodii dla danego zdania

Domyśliliśmy się, że wypadliśmy dobrze. Polecieliśmy do Stanów. Wygraliśmy. Ivona była najlepsza, mimo że w konkursie brały udział dwa zespoły IBM, z Nowego Jorku i z Izraela, Microsoft, uniwersytety z Tokio, Pekinu, Barcelony – zespoły z całego świata. To był dla nas przełom. Uwierzyliśmy, że niewielkim nakładem środków, tutaj, w Polsce, można stworzyć innowacyjny produkt i wygrać z gigantami.

Co się wtedy zmieniło?

Po powrocie wysłaliśmy do PAP-u informację prasową. Po 15 minutach ktoś oddzwonił i zapytał, czy możemy to udowodnić. Skontaktowaliśmy go z profesorem Alanem Blackiem i dwie godziny później cała prasa już pisała, że Polacy są najlepsi na świecie. To był moment przełomowy. Ivonę kupiło od nas PKP do pociągów, komunikacja miejska do autobusów, tramwajów, trolejbusów, polskie wojsko do systemów symulacyjnych, producenci systemów telefonicznych i ponownie niewidomi i niedowidzący. Ze 100 tysięcy złotych przychodu skoczyliśmy w ciągu paru lat do kilku milionów. Zaczęliśmy myśleć o wyjściu z Polski. W Stanach zaczęliśmy sprzedawać Ivonę w 2008. Pozyskaliśmy fajnych klientów, na przykład BlackBerry, niegdyś jednego z największych producentów telefonów, czy słynną księgarnię elektroniczną Barnes & Noble, konkurentkę Amazona. W 2010 roku zgłosił się do nas Amazon, który szukał syntetyzatora mowy do swojego Kindle’a. Wkrótce okazało się, że Amazon nie tyle chce kupić od nas Ivonę, co chce kupić nas, całą firmę. I proponuje, żebyśmy dalej w niej pracowali, rozwijali syntezę mowy do zupełnie nowego produktu – asystenta głosowego. Myśleliśmy o tym kilka lat wcześniej, teraz moglibyśmy to zrealizować dzięki środkom Amazona.

Nie było wam żal sprzedawać firmę?

Mocno wtedy się nad tym z Michałem zastanawialiśmy. Stwierdziliśmy, że to jest bardzo dobry moment.

Dlaczego?

Ponieważ znaleźliśmy się wtedy w bardzo niebezpiecznej sytuacji. Wchodząc na rynek amerykański, nastąpiliśmy na odcisk konkurencji, największemu wówczas producentowi syntezy i rozpoznawania mowy na świecie. Firma ta wtedy miała 2 miliardy dolarów przychodu, ich głosem mówiła Siri Apple. Kiedy zabraliśmy im kontrakt z BlackBerry, postanowili z nami powalczyć. A znani byli z tego, że są jedną z najbardziej agresywnych firm w Stanach. Pozywają małe firmy, które weszły im w drogę, a następnie je przejmują. Między 1995 a 2010 rokiem dokonali kilkudziesięciu przejęć.

Ale muszą mieć za co pozwać.

Mogą pozywać za cokolwiek, na przykład za podejrzenie naruszenia czyjejś własności intelektualnej. W Stanach, nawet jeśli się ma oczywistą rację, trzeba się bronić, bo bardzo łatwo jest przegrać. Taka obrona, zwłaszcza w przypadku komercyjnego pozwu, kosztuje gigantyczne pieniądze. Małych firm na to nie stać, a gigant z USA był wtedy w stanie wytoczyć kilka pozwów równolegle. Jeśli firmy nie było stać na obronę w sądzie, proponowano jej ugodę, ale w jej ramach przejmowano ją i niszczono. Taki scenariusz spotkał naszego klienta: firmę VLingo z USA. Nas też to mogło czekać.

Skąd wiedzieliście?

Dzwonił do nas sam szef owego giganta. Nie odebraliśmy, ale sprawa była oczywista – byliśmy na radarze i w każdej chwili mogliśmy spodziewać się pozwu, a nie mielibyśmy szans, żeby się obronić. Mniej więcej wtedy zgłosił się Amazon. Poinformowaliśmy więc także innych, że jesteśmy na sprzedaż. Zgłosiło się sporo firm z całego świata. To były chyba najbardziej intensywne miesiące mojego życia. Wylataliśmy z Michałem kilkaset tysięcy mil, pomiędzy Polską, Koreą, Stanami i różnymi innymi miejscami na świecie. Prowadziliśmy rozmowy. Propozycja Amazona była najlepsza. Niosła ze sobą również gwarancję, że zespół Ivony będzie dalej rozwijał syntezę mowy, a dodatkowo pracował nad nowym, niesamowitym produktem.

Około 2000 roku przewidywano, że naturalna synteza mowy jako jedno z trudniejszych wyzwań sztucznej inteligencji zostanie zbudowana około 2010 roku. Nam udało się to osiągnąć w 2006

Założyliśmy biuro w Gdańsku, w którym dzisiaj pracuje blisko tysiąc osób. Kiedy dołączyliśmy do Amazona, nad Alexą pracowało może kilkanaście. Razem z nami powstał 50-osobowy zespół. Tworzyliśmy i zarządzaliśmy z Michałem Amazon Development Center w Trójmieście; naszym szefem był m.in. zastępca Jeffa Bezosa. Tworzyliśmy Alexę w Gdańsku, choć pracowano nad nią także w Seattle, a w ciągu następnych miesięcy także w Bostonie, Cambridge i kilku innych miejscach na świecie. W kilka lat zespół Alexy rozrósł się do tysięcy inżynierów. Alexa zdobyła setki milionów użytkowników i została wbudowana w tysiące różnych urządzeń.

I ostatecznie brand Ivona zniknął?

Naturalne było to, że w ciągu następnych lat Amazon będzie chciał powoli wygaszać naszą markę, zastępując ją własną. Firma nie nazywa się już Ivona, tylko Amazon Development Center Poland, a nasz syntezator – Amazon Polly. W międzyczasie Amazon Polly została rozwinięta o nowe technologie i jest jeszcze lepsza. Mam poczucie, że sprawy potoczyły się w najlepszy możliwy sposób.

Dlaczego pan odszedł?

Chyba przez ten mój charakter: nie lubię mieć szefów. Stwierdziłem, że jestem już usatysfakcjonowany. Z drugiej strony chciałem spędzać więcej czasu z rodziną, a mam piątkę dzieci, i zająć się moim hobby, czyli pływaniem na małych, szybkich łódkach. Dwa lata temu dojrzałem, aby zacząć coś nowego. Postanowiliśmy z przyjaciółmi: Tomkiem, który tworzył m.in. Gmaila w Google Szwajcaria, oraz Piotrem – lekarzem i naukowcem z GUMED, zająć się długością życia i zdrowia w życiu. W kilka miesięcy zbudowaliśmy zespół złożony z naukowców, lekarzy, psychologów, dietetyków i inżynierów. Naszym hasłem jest „milion lat zdrowia więcej w Polsce”. Pod koniec czerwca pokażemy Polsce nasz produkt – aplikację Vika, która pomoże ludziom sprawdzić swoje zdrowie i dłużej się nim cieszyć. Cóż może być fajniejszego do robienia w życiu niż badania nad sposobem na dłuższe, zdrowe życie?

Na czym polega to rozwiązanie?

Kluczowy wpływ na nasze zdrowie ma styl życia. Na zdrowie pracujemy przez całe życie – przez odżywianie, ruch, sen, szczepienia i badania profilaktyczne. Sami możemy o wiele lat wydłużyć sobie zdrowie i życie; medycyna i leki już tego za nas nie załatwią. Miażdżyca, nadciśnienie czy cukrzyca wystąpią w wyniku złego odżywiania i zbyt małej ilości ruchu; leki temu nie zapobiegną. Musimy zadziałać sami –- zmianą stylu życia.

Teoretycznie wszyscy o tym wiemy, ale w praktyce z trudem zmieniamy styl życia. Ma pan nadzieję, że to się zmieni?

Tak. Statystyczny Hiszpan cieszy się zdrowiem o siedem lat dłużej niż Polak. Podobnie Włoch. Są to nacje słynne z radosnego, pełnego życia. Nasz zespół naukowy zbadał setki tysięcy przypadków osób i wytypował czynniki, które pozwalają dłużej cieszyć się zdrowiem. Wiemy, że Polacy także mogą! Vika najpierw zadaje szereg pytań i na podstawie odpowiedzi jest w stanie oszacować, ile lat będę się jeszcze cieszyć zdrowiem. Następnie proponuje mi misje zdrowotne, w trakcie których dostaję nowe zadania, wyzwania, zdobywam nowe poziomy zdrowego stylu życia i… dni, miesiące, a nawet lata zdrowia. Z czasem okazuje się, że zbudowałem trwałe nawyki, m.in. zdrowego odżywiania, aktywności fizycznej, snu.

To będzie taki wirtualny trener?

Ja bym powiedział, że nasza aplikacja działa jak gra – zbudowana przez trenerów, psychologów, dietetyków. W tej grze można wygrać zdrowie.

Gra o życie?

Dobre hasło.

A jednak… aplikacji jest bardzo dużo. Nie boi się pan, że będzie wam trudno zdobyć użytkowników?

Zleciliśmy przeprowadzenie badań opinii społecznej, w których postawiliśmy pytanie: „Czy zainstalował(a)byś bezpłatną aplikację mobilną opartą o wyniki badań medycznych, pomagającą wydłużyć okres zdrowia i pełni sił w moim życiu?”. Blisko 70 procent respondentów odpowiedziało „Zdecydowanie Tak” lub „Raczej Tak”. Wydaje mi się, że każdy będzie chciał sprawdzić, co go czeka w przyszłości. A jak już sprawdzi i zobaczy, ile może zyskać, to będzie chciał zadbać o swoje zdrowie. Vika teraz właśnie jest testowana przez kilkuset testerów. Widzimy, z jakim zapałem grają, dbając o swoje zdrowie. To działa.

*Łukasz Osowski – absolwent Wydziału Elektroniki, Telekomunikacji i Informatyki Politechniki Gdańskiej. Współzałożyciel firmy IVONA Software kupionej przez Amazona, współtwórca technologii syntezy mowy Ivona. Rok temu założył firmę Lab4Life, w której buduje aplikację pomagającą ludziom dłużej cieszyć się zdrowiem.

Read the English version of this text HERE