Voice Interfaces: Sprechen statt Tippen

Von Wearables zu Hearables: Mit Voice Interfaces bricht eine neue Ära der Mensch-Maschine-Interaktion an.

Von Christian Schuldt (09/2016)

Foto: Amazon.com, Inc. / Amazon Echo

2007 revolutionierte Apple mit dem iPhone die Technologienutzung: Das Internet wurde mobil, der Mensch erlernte das Swipen. Eines aber blieb unverändert: Unsere Interaktion mit Maschinen erfolgt weiterhin hauptsächlich über Keyboards und Screens, auch wenn diese immer berührungssensitiver werden. Viele Anzeichen sprechen jedoch dafür, dass uns eine weitere Interface-Revolution bevorsteht, die eine neue, unkompliziertere und intuitivere Art und Weise, mit Technologie zu interagieren, schaffen wird. Und eine zentrale Rolle wird dabei die Sprache spielen.

Den Rahmen für diese Entwicklung biIdet die immer umfassendere Vernetzung und Smartifizierung unserer Lebenswelten. Das Internet der Dinge nimmt Form an, unsere Umwelt wird sukzessive mit Sensoren ausgestattet – und dieser enorme Komplexitätsanstieg weckt auch das Bedürfnis nach intuitiveren Interfaces, die neue Simplexity-Potenziale erschließen: simpel zu bedienende Schnittstellen, die komplexe Anwendungsmöglichkeiten eröffnen. Neben der Steuerung durch Gesten oder Eye-Tracking steht dabei vor allem menschliche Stimme im Fokus.

Ein Indiz dafür sind die Entwicklungen im Bereich des maschinellen Lernens: Die größten Fortschritte fanden hier zuletzt bei der Spracherkennung statt, im Wahrnehmen und Erkennen von Mustern und gesprochenen Worten. So will Google mit der "Voice Search"-Forschung die Internetsuche so intelligent machen, dass sie auch komplexe Interaktionen bewältigen kann. Auch das K-I.-Programm Watson von IBM funktioniert als semantische Suchmaschine, die über natürliche Sprache gesteuert wird. Die Suchmaschine der Zukunft wird gesprächig sein und immer mehr in der Lage, individuelle Aufgaben zu übernehmen.

Eine entscheidende Rolle bei der Verbreitung dieser neuen, auf Spracherkennung basierten Technologien und Schnittstellen spielen Wearable Computing Devices. Dabei zeichnet sich ein neuer Trend ab: Aus Wearables werden Earables. Zum Beispiel der smarte Ohrhörer Moto Hint aus dem Hause Motorola/Google, der "Moto X"-Nutzern die sprachliche Kommunikation mit ihrem Smartphone ermöglicht. Ein Sensor erkennt, ob sich das Headset im Ohr befindet und stellt automatische eine Verbindung mit dem Handy her.

Wearables werden auch deshalb künftig ganz Ohr sein, weil damit bessere Trackingfunktionalitäten verbunden sind: Das Ohr ist weniger in Bewegung als das Handgelenk und ermöglicht deshalb eine sehr viel detailliertere Datenmessung. Vor allem aber umgehen Earables eine der größten Hürden, an denen die Massentauglichkeit vieler Wearables bislang scheiterte: soziale Akzeptanz. Denn im Gegensatz zu futuristischen Datenbrillen à la Google Glass sind Ohrhörer ein "gelerntes" Device. Analog zu smarten Armbändern und Uhren tragen wir sie schon lange zum Musikhören und verwenden sie zunehmend auch zum Telefonieren im öffentlichen Raum.

Eine kontinuierliche Sprachverbindung zum maschinellen Personal Assistants im Ohr wollen digitale Sprachassistenten herstellen. Erst 2014, lange nach Google Now und Apples Siri, präsentierte Microsoft sein Assistenzsystem, das weit mehr sein soll als "just another voice assistant". Die Vision: Cortana lernt die Nutzerbedürfnisse deuten, etwa in Form von App-Vorschlägen basierend auf vergangenen Downloads und der tatsächlichen Nutzung.

Wie eine solche Hearables-Zukunft dann aussehen könnte, zeigte Spike Jonze in seinem Film "Her": Der Protagonist verliebt sich in sein intelligentes Betriebssystem Samantha, mit dem er über einen Ohrhörer kommuniziert. Ganz bewusst verzichtete Production Designer K.K. Barrett auf jegliche physische Interaktion zwischen Mensch und Maschine. Denn: "Es sollte natürlich sein."

Einen weiteren Vorzug bieten Voice-Interfaces in mobilen Kontexten, weil sie eine enorme Steigerung der Verkehrssicherheit ermöglichen. Sprachgesteuerte Head-up-Displays (HUD) in Autos oder Helmen erlauben es dem Fahrer, die Hände am Steuer und die Augen auf der Straße zu haben, anstatt von Displays abgelenkt zu werden. Ein technisch avanciertes Beispiel ist der Motorradhelmen Skully AR-1. Über Bluetooth ist er mit dem Smartphone verknüpft und bietet die eine zeitgemäße, vernetzte User Experience: Im Sichtschutz befindet sich ein ausgefeiltes HUD inklusive diverser Applikationen, die über Sprachkontrolle bedient werden.

Der nächste Evolutionsschritt in Sachen Voice Computing ist bereits eingeläutet: Das "Internet der Dinge" wird zum "Internet der sprechenden Dinge". Beispielhaft für diese Entwicklung ist Nuance, die Firma hinter Apples Sprachassistent Siri: Weil Spracherkennung für einzelne Computer schwierig ist, hat Nuance ein cloudbasiertes Voice-Control-System entwickelt. Als eine Art akustisches Betriebssystem für das Internet der Dinge macht es die Software möglich, dass prinzipiell alle Dinge sprachfähig werden und ganz "natürlich" mit uns plaudern können, vom Thermostat bis zum Auto.

Im Mai 2016 stellten die Siri-Entwickler den Sprachassistenten Viv vor, der mit anderen Diensten interagieren und alle möglichen Aufgaben übernehmen kann, von Einkaufen bis zu Geldüberweisungen. Die App reagiert auf Sprachkommandos und kommuniziert direkt mit den entsprechenden Dienstleistern, es müssen also keine weiteren Apps installiert werden.

Wie sich eine Umwelt anfühlt und -hört, die ständig kommunikationsbereit ist, zeigt "Amazon Echo" bereits seit Ende 2014. Der kabellose Bluetooth- und WLAN-Lautsprecher mit dem integrierten Sprachassistenten "Alexa" ist ständig im Lauschmodus und gesprächsbereit und kann sich mit allen Devices verbinden. Als Quasi-Familienmitglied soll "Echo" das Zuhause smarter machen. Die nächste Ausbaustufe sind Voice Biometrics: Dann wird etwa ein Smart TV in der Lage sein, individuelle Stimmen zu unterscheiden und seine Konfiguration entsprechend anzupassen. Mitte Mai hat nun auch Google sein Konkurrenzprodukt "Google Home" vorgestellt. Ab Herbst diesen Jahres soll das Gerät den Markt erreichen und revolutionieren. Voll integriert in den Alltag hilft "Google Home" an Termine zu erinnern, errechnet bei Stau Alternativrouten zum Arbeitsplatz und weckt die Kinder mit ihrer Lieblingsmusik.

Eine der größten Herausforderungen wird künftig in der Geschwindigkeit der Datenübertragung bestehen, denn schon minimale Verzögerungen in der Verbindung zur Cloud erlebt der Endnutzer als Usability-Desaster. Die Hoffnung ruht hier auf Superprozessoren, die keine Cloud-Verbindung mehr benötigen.

Weil das Prinzip "Sprechen statt Tippen" sicherer, exakter und vor allem einfacher ist, werden sprachbasierte Mensch-Maschine-Interaktionen relevanter und Screens zur technologischen Peripherie: Bildschirme, Tastaturen und Touchscreens werden künftig nur noch ein Interface unter vielen sein. Bei diesem Prozess, der vergleichbar ist mit der Evolution vom Keypad zu Touchscreens, werden nicht nur die Maschinen, sondern auch wir Menschen neue Sprachkompetenzen erlernen.

Und vielleicht werden wir einmal auf das frühe 21. Jahrhundert zurückblicken als eine seltsame Epoche der Däumlinge und der gesenkten Köpfe: eine Zeit, bevor die Hände befreit wurden – und die mündliche Sprache ermächtigt.

Mehr zum Thema

Fintech Future: Finanzservices von morgen

Fintech Future: Finanzservices von morgen

Fintechs treiben die Automatisierung der Finanzbranche voran, Robo-Advisors spielen eine immer wichtigere Rolle. Welche Konsequenzen hat der Fintech-Boom für etablierte Player?

3D-Druck: The Future of Fashion

3D-Druck: The Future of Fashion

Drucken wir uns unsere Kleidung künftig ganz einfach zuhause aus? Ambitionierte Designer und Forscher zeigen das Potenzial dieser Technologie für die Modebranche auf.

Industrie 4.0? Offene Fabriken!

Industrie 4.0? Offene Fabriken!

Kollaborative Konzepte als Treiber gesellschaftlicher Innovation: Im Projekt “Open Factory” werden Produktionsstätten zu Kollaborationsräumen erweitert.