Chi non sogna la tuta di Iron Man? Fonte di energia infinita – Vibranium Arc Reactor, capacità di volare e immergersi grazie ai Repulsori e alle scorte di ossigeno, armatura di titanio monocristallo quasi indistruttibile con armi estremamente pericolose.
Siccome siamo ancora lontani anni o addirittura decenni (vero?) dall’avere almeno il prototipo della suite di metallo volante, c’è un pezzo di essa che può essere più vicino di quanto pensiamo.
Mentre il Vibranium Arc Reactor è un cuore dell’armatura di Iron Man, la cosa altrettanto importante è il suo cervello – Jarvis.
“Jarvis è un’intelligenza artificiale computerizzata altamente avanzata sviluppata da Tony Stark, (…) per gestire quasi tutto, specialmente le questioni legate alla tecnologia, nella vita di Tony”. Vi suona familiare?
Nell’ultima conferenza big G ci ha mostrato un paio di cose #MadeByGoogle. All’inizio Sundar Pichai ha parlato di un nuovo concetto: AI-first. Vivendo in un’epoca guidata da strategie mobile-first, molti di noi si sono abituati a usare il dispositivo tascabile in molti aspetti della nostra vita – calcoli, note, informazioni, intrattenimento, comunicazione, navigazione e molto altro. Ma il dispositivo mobile è solo uno strumento nelle nostre mani – versatile, ma pur sempre uno strumento. Nella maggior parte dei casi aumenta solo le nostre capacità – possiamo viaggiare più velocemente (navigazione, informazioni sul traffico), parlare con persone lontane da noi, pulire il nostro cervello prendendo appunti. Ma l’ordine di azione è sempre lo stesso – abbiamo un’intenzione e poi il dispositivo mobile fa la cosa per noi. Abbiamo una domanda e il motore di ricerca ci dà la risposta.
AI-first
Ora ci stiamo lentamente muovendo verso un altro concetto dopo il mobile-first: AI-first. Significa che i nostri strumenti come i dispositivi mobili (ma non solo!) sono in grado di imparare le nostre abitudini, i nostri piani. E non solo da noi ma anche da tutto il contesto circostante: posizione attuale, ora del giorno, tempo. Ecco perché Google è in grado di dirci di uscire prima per una riunione programmata, a causa degli ingorghi. Oppure Nest può impostare la temperatura migliore per farci sentire a nostro agio ma anche per risparmiare quanta più energia possibile durante il giorno. L’app Reminder ci dice di comprare il pane quando siamo in panetteria e Google Now ci ricorda l’ombrello quando piove. E non abbiamo bisogno di intenzione per tutto questo. I nostri dispositivi, o forse meglio dire: gli assistenti personali, ci conoscono molto bene.
“Ok, Jarvis…”
L’input vocale è con noi da molto tempo ormai. Il tuo attuale dispositivo mobile ce l’ha di sicuro, non importa se è iPhone, Android o Windows Phone. C’è una grande possibilità che anche il precedente, o anche quello precedente, che giace nella vostra scrivania supporti i comandi vocali.
Nei dispositivi di vecchia generazione i comandi erano solo i comandi, per esempio “chiama mamma”. Ma attualmente grazie a Siri, Cortana o Google Now possiamo chiedere al nostro dispositivo mobile un meteo (non c’è bisogno di fornire una posizione – il telefono lo sa già), programmare una riunione nel calendario o prendere una nota. E lo si può fare in modo più naturale che mai: “Ehi Siri, devo prendere l’ombrello domani?”, “Ok Google, mi svegli tra un’ora?”. Queste e altre frasi simili funzioneranno grazie al Natural Language Processing. Certo, alcune frasi (e le loro variazioni) sono hardcoded da qualche parte sui server, ma alcune possono essere interpretate dinamicamente da Speech-to-text e riconoscitori di intenzioni come api.ai o wit.ai.
“Trova (compra) il volo più economico da New York a Londra in 3 giorni” ci darà:
- Fonte, destinazione: Now York, Londra
- Data: 3 giorni da oggi (+ data odierna presa dal contesto attuale)
- Criteri: il più economico
- Intenzione: Trovare (comprare) un volo
Avere tutte queste informazioni sarà probabilmente il risultato di una sola chiamata API, per esempio a Skyscanner. Che cosa significa? Che la tecnologia non ci limita più. Siamo in grado di programmare un volo con un semplice comando vocale.
Per l’utente finale significa:
- Dire cosa devi fare
- Non aprire il tuo dispositivo mobile/computer
- Non aprire il motore di ricerca (di viaggi)
- Non adattare la query alle tue esigenze
- Non confrontare i risultati
- Goditi il tuo volo.
Assistente personale, non un dispositivo
L’elaborazione vocale del testo diventa sempre migliore. Anche grazie a noi – gli utenti. Conversando con Google o Siri alimentiamo le reti neurali con un nuovo campione di dati che le rende migliori e più accurate. Certo, non vogliamo ancora parlare ad alta voce con i nostri telefoni o tablet. Fred Wilson ne ha parlato e ha pubblicato un sondaggio sul suo Twitter:
Qual è la ragione? Non è ancora naturale per noi. Nel corso degli anni abbiamo usato i nostri telefoni su tablet toccandoli. Certo, parliamo sempre con il telefono, ma parlare con esso sembra ancora cablato.
Ma ora un nuovo tipo di soluzione appare all’orizzonte. Google Home o Amazon Echo – i dispositivi per i quali l’interfaccia vocale è quella predefinita. Finalmente abbiamo dispositivi a cui diremo di accendere le luci, riprodurre il nostro film preferito o ottenere informazioni da Wikipedia. E finalmente parlare con un dispositivo diventa naturale per noi. In realtà non sarà solo un dispositivo, ma il tuo assistente. Il tuo Jarvis personale.
Porta Jarvis con te
Torniamo per un attimo al dispositivo mobile. Dopo un po’ di tempo e un paio di conversazioni con Amazon Echo o Android Auto, il sistema dell’auto, vedremo i dispositivi mobili da una prospettiva completamente nuova. Non saranno solo dei telefoni con controllo vocale, ma più che altro dei dispositivi per portare il vostro assistente domestico con voi. E parlare con loro non sarà più strano.
Inoltre, non avremo bisogno di tirare fuori il dispositivo dalla nostra tasca. Grazie agli AirPods e a decine di altri auricolari (che addirittura non richiedono la porta Jack per le cuffie) saremo in grado di parlare con il nostro assistente con costrizioni. E il dispositivo nascosto in tasca, supportato da servizi di cloud computing farà tutto per voi, confermando con “È fatta, Tony”, e fine.
Il futuro degli ologrammi
Alla fine manca ancora un grande pezzo nel nostro Jarvis personale: il feedback visivo. Non abbiamo ancora inventato la tecnologia che sarebbe in grado di disegnare proiezioni in 3d nell’aria con una semplice luce. Ma non preoccupatevi – ci sono progetti come Hololens che mescoleranno la realtà con gli ologrammi, così potrete vedere l’intero universo sul vostro tavolo, la proiezione delle parti mancanti quando costruite un motore, o anche persone che sono a migliaia di chilometri da noi. Seduti sul nostro pullman.
E qual è la cosa più affascinante in tutte queste soluzioni e tecnologie? Che tutti abbiamo accesso ad esse. Tutti possiamo costruirle – creando bot per le app di messaggistica, integrando API di elaborazione del linguaggio naturale, costruendo app per: dispositivi mobili, assistenti domestici, automobili, persino Hololens. Questa non è più una conoscenza segreta – sono solo pezzi che devono essere collegati correttamente.
Non c’è mai stato un momento migliore in tutta la storia del mondo per inventare qualcosa (← consiglio davvero questo post!).