Digitale Sprachassistenten sind auf dem Vormarsch. Doch Überschriften wie “Alexa belauscht Ehepaar” oder “Siri hört schlecht zu”, lassen aufhorchen. Die einen finden die neuen digitalen Helfer sehr praktisch, anderen kommt so ein Gerät wegen der Datensammelwut der Hersteller nicht ins Haus oder sie sehen für sich einfach keinen Nutzen darin. Im Bestatteralltag jedenfalls sind die Geräte noch nicht angekommen. Vermutlich wird das noch eine ganze Weile so bleiben, wie diese Übersicht über die Möglichkeiten und Grenzen der Assistenzsysteme zeigt.

Was digitale Sprachassistenten leisten

Schon heute können die digitalen Helfer eine ganze Menge. Sie starten per Zuruf das gewünschte Musikstück oder eine ganze Playlists. Die Steuerung von Geräten ist per Sprache möglich, vorausgesetzt, Lichtschalter, Heizung oder Saugroboter sind bereits smart, das heißt mit dem Internet verbunden. Informationen, die der Nutzer bisher am Bildschirm per Suchmaschine ausfindig gemacht hat, bekommt er automatisch vorgelesen, sobald die Frage an das Gerät ergeht.

Erste Ansätze eines persönlichen Assistenten sind vorhanden. So kann etwa der eigene Kalender per Sprache abgefragt oder ein Termin eingetragen werden. Das ist praktisch, wenn man bei der Arbeit gerade keine Hand freihat und sich etwas notieren will. Alle großen Internetunternehmen investieren in die Weiterentwicklung ihrer Assistenzsysteme per Sprachsteuerung. Das Versprechen, die Welt smarter, intelligenter und Service-orientierter zu machen vereint die Anbieter. Im Einzelnen unterscheiden sich die Anwendungen aber erheblich. Deshalb ein kurzer Überblick über die verschiedenen Systeme.

Die Sprachassistenten im Überblick

Alexa wurde von Amazon entwickelt. Anders als die Anwendungen der Konkurrenz, empfängt die freundliche Stimme den Nutzer von Anfang an nicht per Smartphone, sondern mittels eines Lausprechers mit dem Namen Echo. Der Lautsprecher steht zuhause auf der Anrichte oder der im Büro auf dem Schreitisch und startet durch den Zuruf “Alexa”. Stellt man eine Frage oder erteilt einen Befehl, bekommt man eine Zugverbindung der Deutschen Bahn genannt, kann ein Taxi bestellen, den aktuellen Spielstand eines Fußballspiels erfragen oder sich einen Wissensartikel auf Wikipedia vorlesen lassen. Allerdings schalten sich Alexa auch an, wenn man seinen Freunden beim Essen erzählt, dass man jetzt “Alexa” nutzt. Von einem kuriosen Fall berichtet die FAZ im Mai dieses Jahres. Alexa habe die Unterhaltung eines Ehepaares mit Befehlen verwechselt und einer Person aus der Kontaktliste eine E-Mail geschickt.

Siri, das Assistenzsystem von Apple dagegen ist eine Software, die auf Apples Betriebssystem iOS läuft. Siri wird mit “Hey, Siri” aktiviert. Auch hier liefert das System die passenden Antworten auf Fragen des Nutzers. Statt auf einen Bildschirm zu schauen und Kommandos manuell einzugeben, wir der Auftrag auf Zuruf ausgeführt. Das ist praktisch für alle, die die Hände freihaben müssen, sei es beim Autofahren oder bei der Arbeit. Entfernungen zwischen zwei Orten werden berechnet, die Wettervorhersage vorgelesen oder ein Anruf zu einem Kontakt aus dem Telefonbuch aufgebaut. Hier heißt die nahtlos in die Gerätelandschaft von Apple eingepasste Klangbox HomePod.

Windows-Nutzer kennen Cortana, den Dienst von Microsoft für Windows Phone 8.1, Windows 10, Android, iOS und Xbox One. Auch Cortana kann Befehle in natürlich gesprochener Sprache empfangen und verarbeiten. Vielen ist bereits ein Ärgernis, dass sich die Software vom Windows 10 Rechner nicht deinstallieren lässt. Immerhin lässt sich der Dienst deaktivieren, was aber nach jedem Windows-Update erneut zu überprüfen ist. Da Cortana auf dem Computer installiert ist, lassen sich Apps und Desktop-Programme per Sprachbefehl öffnen und bedienen. In vielen Unternehmen ist ausdrücklich nicht vorgesehen, Cortana Zugriff auf alle Daten zu gewähren. Der Zugriff kann eingeschränkt werden. Textinformationen werden im Cortana-Dialog eingeblendet. Bei Fragen, die die Sprachassistentin nicht versteht, wird die Anfrage an die Suchmaschine BING weitergeleitet, die Ergebnisse werden dann in Microsoft Edge präsentiert. So bleiben die Anfragen alle im Universum von Microsoft.

Auch Google, als viertes Unternehmen im Bunde der Internetgiganten, hat ein eigenes sprachgesteuertes Assistenzsystem entwickelt. Um den Google Assistant zu nutzen, sollte die neuste Version der Google-App auf dem Smartphone installiert sein. Aktiviert wird die Sprachsteuerung in der App mit der Phrase „Ok Google“. Dann steht die schier grenzenlose Sammlung des Google-Wissens zur Verfügung. Ansatzweise funktioniert das sogar in einer Art Konversation. Das bedeutet, dass der Bezugsrahmen bei weiterführenden Fragen nicht erneut genannt werden muss. Wird nach einem Film mit Til Schweiger gefragt, kann einer der angezeigten Filme ausgewählt und mit der Frage nach dem Regisseur oder dem Filmtrailer ergänzt werden, ohne den konkreten Film noch einmal nennen zu müssen. Das ist bei Amazons Alexa nicht der Fall. Andererseits hat Google mit Google Home ähnlich wie Amazon einen Lautsprecher geschaffen, um das Assistenzsystem unabhängig von Smartphone oder Computer zu nutzen.

Aktuell springen auch Samsung mit Bixby und die Telekom mit dem Magenta Smart Speaker (angekündigt für Herst 2018) auf den Zug der digitalen Sprachassisstenz auf.

Die Grenzen der digitalen Sprachassistenz

Natürliche Sprache zu verstehen ist ein hochkomplexer Vorgang. Nicht jeder spricht annähernd Hochdeutsch. Mit regionalen Dialekten sind die Systeme schnell überfordert. Sucht man nach einem englischen Musiktitel, wenn die Sprachassistenz auf Deutsch eingestellt ist, muss man den Titel auf Deutsch artikulieren. Den Wechsel zwischen zwei Sprachen beherrschen die Systeme nicht. Kein Assistent versteht jede Fragestellung immer richtig. Immer wieder entstehen Situationen, in denen der Nutzer doch die Suchmaschine selbst bedienen muss, weil einfach keine Antwort geliefert wird. Wenn die Antwort umfangreicher ausfällt, ist ein Bildschirm, der Bilder und Grafiken anzeigt, halt doch ganz schön.

Die Assistenten funktionieren nicht in Echtzeit, teilweise muss man mehrere Sekunden auf eine Antwort warten. Wer dann in der Öffentlichkeit eine Abfrage startet, sollte einen Kopfhörer nutzen, um nicht alle Welt mit seinen Fragen und den Antworten zu belästigen - oder zu belustigen, wenn Alexa & Co. seltsame Ergebnisse ausspucken. Während einer Trauerfeier ist es auch keine gute Idee, die Musik per Sprachbefehl in Gang zu setzen.

Da Sprachassistenten keine menschlichen Akteure sind, sondern softwaregesteuerte Geräte, müssen sie sehr präzise Anweisungen bekommen. Sie finden kein Buch, das beschrieben wird mit “Ich habe vor zwei Jahren einen Krimi gelesen, in dem eine Bestatterin die Hauptperson war, wie heißt die Autorin doch gleich nochmal?”

Über allem schwebt die Frage nach dem Datenschutz

Die Befehle an Alexa werden alle gespeichert. Zwar kann man den Verlauf löschen, so wie man bei einem Browser die besuchten Seiten löschen kann. Dazu muss man sich aber auf einer Webseite einloggen oder die App auf dem Smartphone öffnen und in den Einstellungen navigieren. Wer es versucht, bekommt von Amazon den Hinweis, dass weniger Sprachdaten das „Erlebnis mit dem Gerät“ verschlechtern. Will man ja auch nicht. Am Ende wird die Bequemlichkeit siegen. Google, Apple, Microsoft und Amazon bekommen einen noch detaillierteren Einblick, was den Nutzer so alles interessiert. Auch auf herkömmlichem Weg per Bildschirm und Tastatur kommt man zu den Informationen. Wer seinen Browser und die Apps auf seinem Rechner entsprechend eingerichtet hat, kann die aber Datenkraken weitgehend aussperren.

Die Geräte sind auf Standby und werden per Zuruf aktiviert “Hey, Siri”, “Alexa”, “OK Google”. Das Problem ist, dass sie sich aktivieren, wenn sie etwas hören, das sie als Aktivierung verstehen. Dann zeichnen sie das Gespräch auf und versuchen etwas daraus zu machen. Dem kann man entgehen, wenn man das Mikrofon stummschaltet. Allerdings ist das Gerät dann nicht mehr auf Zuruf aktivierbar. Da beißt sich die Katze in den Schwanz.

Wer also einen digitalen Sprachassistenten nutzen möchte, sollte sich vorher gut über die Möglichkeiten und Grenzen des jeweiligen Angebotes informieren. Ganz umsonst ist keiner der Dienste. Die Lautsprecher Echo der Google Home haben ihren Preis. Auf alle Fälle zahlt man mit seinen persönlichen Informationen, die es den Unternehmen erlauben, immer detailliertere Profile über Menschen anzulegen. Vor allem die Frage nach dem Datenschutz geht weit über die praktische Frage hinaus, ob eine digitale Sprachassistenz einen wirklichen Nutzen hat oder doch nur technische Spielerei ist.