Kto nie marzy o kombinezonie Iron Mana? Nieskończone źródło energii – Vibranium Arc Reactor, możliwość latania i nurkowania dzięki Repulsorom i zapasom tlenu, niemal niezniszczalna jednokrystaliczna tytanowa zbroja z niezwykle groźną bronią.
Ponieważ wciąż jesteśmy lata, a nawet dekady (czyżby?) od posiadania choćby prototypu latającego metalowego kombinezonu, jest jeden jego element, który może być bliżej niż nam się wydaje.
Podczas gdy Vibranium Arc Reactor jest sercem kombinezonu Iron Mana, równie ważny jest jego mózg – Jarvis.
„Jarvis jest wysoce zaawansowanym komputerowym A.I. stworzonym przez Tony’ego Starka, (…) aby zarządzać niemal wszystkim, zwłaszcza sprawami związanymi z technologią, w życiu Tony’ego.” Czy to brzmi znajomo?
Na ostatniej konferencji wielkie G pokazało nam kilka rzeczy #MadeByGoogle. Na początku Sundar Pichai mówił o nowej koncepcji: AI-first. Żyjąc w czasach napędzanych przez strategie mobile-first wielu z nas przyzwyczaiło się do używania urządzeń kieszonkowych w wielu aspektach naszego życia – obliczeniach, notatkach, informacjach, rozrywce, komunikacji, nawigacji i wielu innych. Jednak urządzenie mobilne to tylko narzędzie w naszych rękach – wszechstronne, ale wciąż narzędzie. W większości przypadków po prostu zwiększa nasze możliwości – możemy szybciej podróżować (nawigacja, informacje o ruchu drogowym), rozmawiać z ludźmi znajdującymi się daleko od nas, oczyszczać nasz mózg robiąc notatki. Ale kolejność działań jest zawsze taka sama – mamy zamiar, a urządzenie mobilne robi to za nas. Mamy zapytanie, a wyszukiwarka zwraca nam odpowiedź.
AI-first
Teraz powoli przechodzimy do kolejnej koncepcji po mobile-first: AI-first. Oznacza to, że nasze narzędzia takie jak urządzenia mobilne (ale nie tylko!) są w stanie uczyć się naszych nawyków, planów. I to nie tylko od nas, ale także od całego kontekstu wokół: aktualnej lokalizacji, pory dnia, pogody. To dlatego Google jest w stanie podpowiedzieć nam, żebyśmy wyszli wcześniej na zaplanowane spotkanie, bo są korki. Albo Nest może ustawić najlepszą temperaturę, byśmy czuli się komfortowo, ale też byśmy oszczędzali jak najwięcej energii w ciągu dnia. Aplikacja Reminder mówi nam, żebyśmy kupili chleb, kiedy jesteśmy w piekarni, a Google Now przypomina nam o parasolu, kiedy pada deszcz. I nie potrzebujemy do tego wszystkiego intencji. Nasze urządzenia, a może lepiej powiedzieć: osobiści asystenci, znają nas bardzo dobrze.
„Ok, Jarvis…”
Wejście głosowe jest z nami już od dawna. Twoje obecne urządzenie mobilne na pewno je posiada, nie ważne czy jest to iPhone, Android czy Windows Phone. Jest też spora szansa, że poprzednie, a nawet wcześniejsze, które leży na Twoim biurku również obsługuje komendy głosowe.
W urządzeniach starszej generacji komendy były tylko komendami, np. „zadzwoń do mamy”. Ale obecnie dzięki Siri, Cortanie czy Google Now możemy zapytać nasze urządzenie mobilne o pogodę (nie trzeba podawać lokalizacji – telefon już ją zna), zaplanować spotkanie w kalendarzu czy zrobić notatkę. I można to zrobić bardziej naturalnie niż kiedykolwiek wcześniej: „Hej Siri, czy powinienem wziąć jutro parasol?”, „Ok Google, obudzić mnie za godzinę?”. Te i podobne zdania zadziałają dzięki Natural Language Processing. Jasne, część zdań (i ich wariacji) jest zakodowana gdzieś na serwerach, ale część może być dynamicznie interpretowana przez Speech-to-text i intention recognisers jak api.ai czy wit.ai.
„Znajdź (kup) najtańszy lot z Nowego Jorku do Londynu w 3 dni” da nam:
- Źródło, cel: Nowy Jork, Londyn
- Data: 3 dni od dzisiaj (+ data dzisiejsza pobrana z bieżącego kontekstu)
- Kryteria: najtańszy
- Intencja: Znajdź (kup) lot
Posiadanie tych wszystkich informacji prawdopodobnie zaowocuje tylko 1 wywołaniem API, np. do Skyscannera. Co to oznacza? To, że technologia już nas nie ogranicza. Jesteśmy w stanie zaplanować lot za pomocą komend głosowych.
Dla użytkownika końcowego oznacza to:
- Powiedz, co musisz zrobić
- Nie otwieraj swojego urządzenia mobilnego/komputera
- Nie otwieraj wyszukiwarki (podróży)
- Nie dopasowuj zapytania do swoich potrzeb
- Nie porównuj wyników
- Ciesz się swoim lotem.
Personalny asystent, nie urządzenie
Terapia mowy na tekst staje się teraz coraz lepsza. Także dzięki nam – użytkownikom. Rozmawiając z Google czy Siri zasilamy sieci neuronowe nowymi próbkami danych, dzięki czemu stają się one coraz lepsze i dokładniejsze. Oczywiście, nadal nie chcemy rozmawiać na głos z naszymi telefonami czy tabletami. Wspomniał o tym Fred Wilson i opublikował ankietę na swoim Twitterze:
Co jest tego powodem? To wciąż nie jest dla nas naturalne. Przez lata używaliśmy naszych telefonów na tabletach dotykając ich. Jasne, zawsze rozmawiamy przez telefon, ale mówienie do niego nadal wygląda na przewodowe.
Ale teraz na horyzoncie pojawia się nowy rodzaj rozwiązania. Google Home czy Amazon Echo – urządzenia, dla których interfejs głosowy jest domyślny. W końcu mamy urządzenia, którym każemy zapalić światło, odtworzyć ulubiony film czy zasięgnąć informacji z Wikipedii. I w końcu mówienie za pomocą urządzeń stanie się dla nas naturalne. Właściwie to nie będzie tylko urządzenie, ale Twój asystent. Twój osobisty Jarvis.
Zabierz Jarvisa ze sobą
Powróćmy na chwilę do urządzeń mobilnych. Po pewnym czasie i kilku rozmowach z Amazon Echo czy Android Auto, systemem samochodowym, spojrzymy na urządzenia mobilne z zupełnie innej strony. Nie będą to tylko telefony z funkcją sterowania głosem, ale bardziej urządzenia, które pozwolą nam zabrać ze sobą domowego asystenta. A rozmowa z nimi nie będzie już dziwna.
Co więcej, nie będziemy musieli wyciągać urządzenia z kieszeni. Dzięki AirPods i dziesiątkom innych słuchawek (które nawet nie wymagają portu słuchawkowego Jack) będziemy mogli rozmawiać z naszym asystentem z ograniczeniami. A urządzenie ukryte w kieszeni, wsparte usługami cloud computing zrobi wszystko za nas, potwierdzając „Zrobione, Tony” i koniec.
Przyszłość hologramów
Na koniec w naszym osobistym Jarvisie wciąż brakuje jednego wielkiego elementu – wizualnego sprzężenia zwrotnego. Wciąż nie wynaleźliśmy technologii, która byłaby w stanie rysować projekcje 3d w powietrzu za pomocą światła. Ale nie ma się co martwić – są projekty takie jak Hololens, które będą mieszać rzeczywistość z hologramami, dzięki czemu będziemy mogli zobaczyć cały wszechświat na swoim stole, projekcję brakujących części przy budowie silnika, a nawet ludzi oddalonych od nas o tysiące kilometrów. Siedzących w naszym autokarze.
A co jest najbardziej fascynujące w tych wszystkich rozwiązaniach i technologiach? To, że wszyscy mamy do nich dostęp. Wszyscy możemy je budować – tworząc boty do aplikacji messagingowych, integrując API do przetwarzania języka naturalnego, budując aplikacje na: urządzenia mobilne, asystentów domowych, samochody, a nawet Hololens. To już nie jest wiedza tajemna – to tylko elementy, które trzeba odpowiednio połączyć.
Nigdy nie było lepszego momentu w całej historii świata, żeby coś wymyślić (← bardzo polecam ten wpis!).