Wer träumt nicht von Iron Man’s Anzug? Unendliche Energiequelle – Vibranium Arc Reactor, die Fähigkeit zu fliegen und zu tauchen dank Repulsoren und Sauerstoffversorgung, eine fast unzerstörbare Einkristall-Titan-Rüstung mit extrem gefährlichen Waffen.
Da wir noch Jahre oder sogar Jahrzehnte (oder?) davon entfernt sind, zumindest einen Prototyp der fliegenden Metall-Suite zu haben, gibt es ein Teil davon, das näher sein kann, als wir denken.
Während der Vibranium Arc Reactor das Herzstück des Iron Man-Anzugs ist, ist das ebenso wichtige Ding sein Gehirn – Jarvis.
„Jarvis ist eine hochentwickelte computerisierte KI, die von Tony Stark entwickelt wurde, (…) um fast alles in Tonys Leben zu verwalten, vor allem Angelegenheiten, die mit der Technologie zu tun haben.“ Kommt Ihnen das bekannt vor?
Auf der jüngsten Konferenz zeigte uns Big G ein paar Dinge #MadeByGoogle. Zu Beginn sprach Sundar Pichai über ein neues Konzept: AI-first. Wir leben in einer Zeit, die von Mobile-First-Strategien angetrieben wird, und viele von uns haben sich daran gewöhnt, das Taschengerät in vielen Aspekten unseres Lebens zu nutzen – Berechnungen, Notizen, Informationen, Unterhaltung, Kommunikation, Navigation und vieles mehr. Aber das mobile Gerät ist nur ein Werkzeug in unseren Händen – vielseitig, aber immer noch ein Werkzeug. In den meisten Fällen erweitert es nur unsere Fähigkeiten – wir können schneller reisen (Navigation, Verkehrsinformationen), mit Menschen sprechen, die weit von uns entfernt sind, unser Gehirn reinigen, indem wir Notizen machen. Aber die Reihenfolge des Handelns ist immer die gleiche – wir haben eine Absicht und dann erledigt das mobile Gerät die Sache für uns. Wir haben eine Anfrage und dann liefert die Suchmaschine die Antwort.
AI-first
Nun bewegen wir uns langsam zu einem anderen Konzept nach mobile-first: AI-first. Es bedeutet, dass unsere Werkzeuge wie mobile Geräte (aber nicht nur!) in der Lage sind, unsere Gewohnheiten und Pläne zu lernen. Und zwar nicht nur von uns, sondern auch aus dem gesamten Kontext um uns herum: aktueller Standort, Tageszeit, Wetter. Deshalb kann Google uns sagen, dass wir früher zu einem geplanten Treffen gehen sollen, weil wir im Stau stehen. Oder Nest kann die beste Temperatur einstellen, damit wir uns wohlfühlen, aber auch um so viel Energie wie möglich während des Tages zu sparen. Eine Erinnerungs-App sagt uns, dass wir ein Brot kaufen sollen, wenn wir in der Bäckerei sind und Google Now erinnert uns an einen Regenschirm, wenn es regnet. Und für all das brauchen wir keine Absicht. Unsere Geräte, oder vielleicht besser gesagt: persönliche Assistenten, kennen uns sehr gut.
„Ok, Jarvis…“
Die Spracheingabe begleitet uns schon lange. Ihr aktuelles mobiles Gerät verfügt mit Sicherheit darüber, egal ob es sich um ein iPhone, Android oder Windows Phone handelt. Die Wahrscheinlichkeit ist groß, dass auch Ihr Vorgänger oder sogar das frühere Gerät, das bei Ihnen auf dem Schreibtisch liegt, Sprachbefehle unterstützt.
In älteren Gerätegenerationen waren es nur Befehle, wie z.B. „Mama anrufen“. Aber heute können wir dank Siri, Cortana oder Google Now unser mobiles Gerät nach dem Wetter fragen (Sie müssen keinen Standort angeben – Ihr Telefon kennt ihn bereits), einen Termin in Ihrem Kalender eintragen oder eine Notiz machen. Und Sie können dies natürlicher als je zuvor tun: „Hey Siri, soll ich morgen einen Regenschirm mitnehmen?“, „Ok Google, weck mich in einer Stunde?“. Diese und ähnliche Sätze werden dank Natural Language Processing funktionieren. Sicher, einige der Sätze (und ihre Variationen) sind irgendwo auf den Servern hart kodiert, aber einige können dynamisch von Speech-to-Text und Intentionserkennern wie api.ai oder wit.ai interpretiert werden.
„Finde (kaufe) den günstigsten Flug von New York nach London in 3 Tagen“ wird uns liefern:
- Quelle, Ziel: New York, London
- Datum: 3 Tage ab heute (+ heutiges Datum aus aktuellem Kontext)
- Kriterien: der billigste
- Absicht: Einen Flug finden (kaufen)
Wenn man all diese Informationen hat, reicht wahrscheinlich ein einziger API-Aufruf aus, z.B. an Skyscanner. Was bedeutet das? Dass die Technologie uns nicht mehr einschränkt. Wir sind in der Lage, einen Flug mit nur einem Sprachbefehl zu planen.
Für den Endbenutzer bedeutet es:
- Sagen Sie, was Sie tun müssen
- Öffnen Sie nicht Ihr mobiles Gerät/Computer
- Öffnen Sie nicht die (Reise-)Suchmaschine
- Passen Sie die Abfrage an Ihre Bedürfnisse an
- Vergleichen Sie nicht die Ergebnisse
- Genießen Sie Ihren Flug.
Persönlicher Assistent, kein Gerät
Die Sprache-zu-Text-Verarbeitung wird jetzt immer besser. Auch dank uns – den Nutzern. Indem wir uns mit Google oder Siri unterhalten, füttern wir die neuronalen Netzwerke mit neuen Datenmustern, was sie besser und genauer macht. Sicher, wir wollen immer noch nicht laut mit unseren Telefonen oder Tablets sprechen. Fred Wilson hat dies erwähnt und eine Umfrage auf seinem Twitter veröffentlicht:
Was ist der Grund? Es ist immer noch nicht natürlich für uns. Über die Jahre hinweg haben wir unsere Telefone auf Tablets durch Berührung bedient. Sicher, wir sprechen immer mit dem Telefon, aber es wirkt immer noch verkabelt.
Aber jetzt taucht eine neue Art von Lösung am Horizont auf. Google Home oder Amazon Echo – die Geräte, bei denen die Sprachsteuerung der Standard ist. Endlich haben wir Geräte, denen wir sagen, dass sie das Licht einschalten, unseren Lieblingsfilm abspielen oder Informationen aus Wikipedia holen sollen. Und schließlich wird das Sprechen mit einem Gerät für uns ganz natürlich. Eigentlich wird es nicht nur ein Gerät sein, sondern Ihr Assistent. Ihr persönlicher Jarvis.
Nehmen Sie Jarvis mit
Lassen Sie uns für eine Weile zurück zum mobilen Gerät gehen. Nach einiger Zeit und ein paar Gesprächen mit Amazon Echo oder Android Auto werden wir mobile Geräte aus einem völlig neuen Blickwinkel sehen. Sie werden nicht mehr nur ein Telefon mit Sprachsteuerung sein, sondern eher ein Gerät, mit dem man seinen Assistenten mit nach Hause nehmen kann. Und mit ihnen zu sprechen, wird nicht mehr seltsam sein.
Außerdem werden wir das Gerät nicht mehr aus der Tasche ziehen müssen. Dank der AirPods und dutzender anderer Ohrhörer (die sogar keinen Kopfhöreranschluss benötigen) werden wir in der Lage sein, mit unserem Assistenten zwanglos zu sprechen. Und das Gerät, das in der Tasche versteckt ist und von Cloud-Computing-Diensten unterstützt wird, wird alles für Sie erledigen und mit „Es ist erledigt, Tony“ das Ende bestätigen.
Die Zukunft der Hologramme
Am Ende fehlt noch ein großes Stück in unserem persönlichen Jarvis – visuelles Feedback. Wir haben immer noch keine Technologie erfunden, die in der Lage wäre, 3D-Projektionen mit einem Licht in die Luft zu zeichnen. Aber keine Sorge – es gibt Projekte wie Hololens, die die Realität mit Hologrammen mischen werden, so dass Sie das ganze Universum auf Ihrem Tisch sehen können, die Projektion von fehlenden Teilen, wenn Sie einen Motor bauen, oder sogar Menschen, die Tausende von Kilometern von uns entfernt sind. Die in unserem Bus sitzen.
Und was ist das Faszinierendste an all diesen Lösungen und Technologien? Dass wir alle Zugang zu ihnen haben. Wir alle können sie bauen – indem wir Bots für Messaging-Apps erstellen, APIs für die Verarbeitung natürlicher Sprache integrieren, Apps bauen für: mobile Geräte, Heimassistenten, Autos, sogar Hololens. Das ist kein Geheimwissen mehr – das sind nur Teile, die richtig verbunden werden müssen.
Es gab noch nie eine bessere Zeit in der ganzen Weltgeschichte, um etwas zu erfinden (← Ich empfehle diesen Beitrag wirklich!).