Entwerfen einer VUI – Voice User Interface

Veröffentlicht: 2022-03-11

Immer mehr sprachgesteuerte Geräte wie der Apple HomePod, Google Home und Amazon Echo stürmen den Markt. Sprachbasierte Benutzeroberflächen tragen dazu bei, alle möglichen Arten von Benutzererfahrungen zu verbessern, und einige glauben, dass Sprache bis 2020 50 % aller Suchanfragen ausmachen wird.

Sprachgesteuerte KI kann fast alles im Handumdrehen erledigen.

"Was steht als nächstes in meinem Kalender?"
„Buch mir ein Taxi zur Oxford Street.“
„Spiel mir Jazz auf Spotify!“

Alle fünf der „Big Five“-Technologieunternehmen – Microsoft, Google, Amazon, Apple und Facebook – haben sprachgesteuerte KI-Assistenten entwickelt (oder entwickeln sie derzeit). Siri, der KI-Assistent für Apple iOS- und HomePod-Geräte, hilft mehr als 40 Millionen Benutzern pro Monat, und laut ComScore besitzt jeder zehnte Haushalt in den USA heute bereits einen intelligenten Lautsprecher.

Ob wir über VUIs (Voice User Interfaces) für mobile Apps oder für Smart-Home-Lautsprecher sprechen, Sprachinteraktionen werden in der heutigen Technologie immer häufiger, zumal die Bildschirmermüdung ein Problem darstellt.

Amazonas — Echo Spot ist Amazons neuester intelligenter Lautsprecher, der eine VUI mit einer GUI kombiniert, vergleichbar mit Echo Show.

Was können Benutzer mit Sprachbefehlen tun?

Alexa ist der KI-Assistent für sprachgesteuerte Amazon-Geräte wie den Echo Smart Speaker und das Kindle Fire-Tablet – Amazon ist derzeit führend bei der Sprachtechnologie (in Bezug auf den Verkauf).

Im Alexa Store konzentrieren sich einige der trendigsten Apps (sogenannte „Skills“) auf Unterhaltung, Übersetzung und Nachrichten, obwohl Benutzer auch Aktionen ausführen können, wie z Bestellen Sie sogar eine Pizza über die Fertigkeit des Dominos.

Ein weiteres interessantes Beispiel kommt von der Geschäftsbank Capital One, die 2016 als erste Bank einen Alexa-Skill eingeführt hat. Durch das Hinzufügen des Capital One-Skills über Alexa können Kunden ihren Kontostand und Fälligkeitstermine überprüfen und sogar ihre Kreditkartenrechnung begleichen. PayPal ging mit dem Konzept noch einen Schritt weiter, indem es Benutzern ermöglichte, Zahlungen über Siri entweder auf iOS oder dem Apple HomePod zu tätigen, und es gibt auch eine Alexa-Fähigkeit für PayPal, die dies bewerkstelligen kann.

Aber was VUIs können und wofür Benutzer sie tatsächlich verwenden, sind zwei verschiedene Dinge.

ComScore gab an, dass über die Hälfte der Benutzer, die einen intelligenten Lautsprecher besitzen, ihr Gerät verwenden, um allgemeine Fragen zu stellen, das Wetter zu überprüfen und Musik zu streamen, dicht gefolgt von der Verwaltung ihres Weckers, ihrer Aufgabenliste und ihres Kalenders (beachten Sie, dass diese Aufgaben fair sind basisch von Natur aus).

Wie Sie sehen können, beinhalten viele dieser Aufgaben das Stellen einer Frage (z. B. Sprachsuche).

Statistiken zur Nutzung von Smart Speakers in den USA — Nutzung intelligenter Lautsprecher in den USA laut ComScore.

Wonach suchen Benutzer mit der Sprachsuche?

Menschen verwenden die Sprachsuche meistens beim Autofahren, obwohl jede Situation, in der der Benutzer nicht in der Lage ist, einen Bildschirm zu berühren (z. B. beim Kochen oder Trainieren oder wenn er versucht, bei der Arbeit Multitasking zu betreiben), eine Möglichkeit für Sprachinteraktionen bietet. Hier ist die vollständige Aufschlüsselung nach HigherVisibility.

Android Auto Sprach-App und Sprachbenutzeroberfläche — Dank Google Assistant und Android Auto werden Echtzeit-Verkehrsinformationen während der Fahrt viel einfacher.

Durchführung von Benutzerforschung für Voice User Interfaces

Obwohl es nützlich ist zu wissen, wie Benutzer im Allgemeinen Sprache verwenden, ist es für UX-Designer wichtig, ihre eigene Benutzerrecherche speziell für die VUI-App durchzuführen, die sie entwerfen.

Customer-Journey-Mapping

Bei der Nutzerforschung geht es darum, die Bedürfnisse, Verhaltensweisen und Motivationen des Nutzers durch Beobachtung und Feedback zu verstehen. Eine Customer Journey Map, die Sprache als Kanal beinhaltet, kann User Experience Researchern nicht nur dabei helfen, die Bedürfnisse der Benutzer in den verschiedenen Phasen des Engagements zu identifizieren, sondern ihnen auch dabei helfen, zu erkennen, wie und wo Sprache eine Interaktionsmethode sein kann.

In dem Szenario, in dem noch eine Customer Journey Map erstellt werden muss, sollte der Designer hervorheben, wo Sprachinteraktionen in den Benutzerfluss einfließen würden (dies könnte als Chance, Kanal oder Berührungspunkt hervorgehoben werden). Wenn für das Unternehmen bereits eine Customer Journey Map vorhanden ist, sollten Designer prüfen, ob der Benutzerfluss durch Sprachinteraktionen verbessert werden kann.

Wenn Kunden zum Beispiel immer eine bestimmte Frage über Social Media oder Live-Support-Chat stellen, dann ist das vielleicht ein Gespräch, das in die Voice-App integriert werden kann.

Kurz gesagt, Design sollte Probleme lösen. Auf welche Reibungen und Frustrationen stoßen Nutzer während einer Customer Journey?

VUI Wettbewerbsanalyse

Durch Wettbewerbsanalysen sollten Designer versuchen herauszufinden, ob und wie Wettbewerber Sprachinteraktionen implementieren. Die wichtigsten Fragen sind:

Was ist der Anwendungsfall für ihre App?
Welche Sprachbefehle verwenden sie?
Was sagen Kunden in den App-Bewertungen und was können wir daraus lernen?

Freiberuflicher UI-Designer in Vollzeit in den USA gesucht ### Erfassung von Anforderungen

Um eine Voice-User-Interface-App zu entwerfen, müssen wir zunächst die Anforderungen der Benutzer definieren. Neben der Erstellung einer Customer Journey Map und der Durchführung von Wettbewerbsanalysen (wie oben erwähnt) können auch andere Forschungsaktivitäten wie Interviews und Benutzertests nützlich sein.

Für das VUI-Design sind diese schriftlichen Anforderungen umso wichtiger, da sie die meisten Designspezifikationen für Entwickler umfassen. Der erste Schritt besteht darin, die verschiedenen Szenarien zu erfassen, bevor sie in einen Dialogfluss zwischen dem Benutzer und dem Sprachassistenten umgewandelt werden.

Eine beispielhafte User Story für die Nachrichtenanwendung könnte wie folgt aussehen:

„Als Benutzer möchte ich, dass der Sprachassistent die neuesten Nachrichtenartikel vorliest, damit ich über das Geschehen informiert bin, ohne auf meinen Bildschirm schauen zu müssen.“

Mit dieser User Story im Hinterkopf können wir dann einen Dialogablauf dafür entwerfen.

Ausgeben eines Sprachbefehls für eine sprachgesteuerte Benutzerschnittstelle

Die Anatomie eines Sprachbefehls

Bevor ein Dialogfluss erstellt werden kann, müssen Designer zunächst die Anatomie eines Sprachbefehls verstehen. Beim Entwerfen von VUIs müssen Designer ständig über das Ziel der Sprachinteraktionen nachdenken (dh was versucht der Benutzer in diesem Szenario zu erreichen? ).

Der Sprachbefehl eines Benutzers besteht aus drei Schlüsselfaktoren: der Absicht , der Äußerung und dem Slot .

Analysieren wir die folgende Anfrage: „Spiel entspannende Musik auf Spotify.“

Absicht (das Ziel der Sprachinteraktion)

Die Absicht stellt das breitere Ziel des Sprachbefehls eines Benutzers dar, und dies kann entweder eine Interaktion mit geringem Nutzen oder mit hohem Nutzen sein .

Bei einer Interaktion mit hohem Nutzen geht es darum, eine ganz bestimmte Aufgabe auszuführen, z. B. darum zu bitten, dass das Licht im Wohnzimmer ausgeschaltet wird oder dass die Dusche eine bestimmte Temperatur hat. Das Entwerfen dieser Anforderungen ist unkompliziert, da sehr klar ist, was vom KI-Assistenten erwartet wird.

Low-Utility-Anfragen sind vager und schwerer zu entziffern. Wenn der Benutzer beispielsweise mehr über Amsterdam erfahren möchte, möchten wir zuerst prüfen, ob dies in den Umfang des Dienstes passt oder nicht, und dem Benutzer dann weitere Fragen stellen, um die Anfrage besser zu verstehen.

In dem gegebenen Beispiel ist die Absicht offensichtlich: Der Benutzer möchte Musik hören.

Äußerung (Wie der Benutzer einen Befehl formuliert)

Eine Äußerung spiegelt wider, wie der Benutzer seine Anfrage formuliert. In dem gegebenen Beispiel wissen wir, dass der Benutzer Musik auf Spotify abspielen möchte, indem er „Spiel mich…“ sagt, aber dies ist nicht die einzige Möglichkeit, wie ein Benutzer diese Anfrage stellen könnte. Beispielsweise könnte der Benutzer auch sagen: „Ich möchte Musik hören …“.

Designer müssen jede Variation der Äußerung berücksichtigen. Dies hilft der KI-Engine, die Anfrage zu erkennen und mit der richtigen Aktion oder Antwort zu verknüpfen.

Slots (die erforderlichen oder optionalen Variablen)

Manchmal reicht eine Absicht allein nicht aus und es werden weitere Informationen vom Benutzer benötigt, um die Anfrage zu erfüllen. Alexa nennt dies einen „Slot“, und Slots sind wie traditionelle Formularfelder in dem Sinne, dass sie optional oder erforderlich sein können, je nachdem, was zum Abschließen der Anfrage erforderlich ist.

In unserem Fall ist der Slot „entspannend“, aber da die Anfrage auch ohne ihn abgeschlossen werden kann, ist dieser Slot optional. In dem Fall jedoch, dass der Benutzer ein Taxi buchen möchte, wäre der Slot das Ziel, und es wäre erforderlich. Optionale Eingaben überschreiben alle Standardwerte; Beispielsweise würde ein Benutzer, der um 16:00 Uhr ein Taxi bestellen möchte, den Standardwert „so schnell wie möglich“ überschreiben.

Prototyping von VUI-Gesprächen mit Dialogflüssen

Prototyping-Designer müssen wie ein Drehbuchautor denken und Dialogabläufe für jede dieser Anforderungen entwerfen. Ein Dialogablauf ist ein Ergebnis, das Folgendes umreißt:

Schlüsselwörter, die zur Interaktion führen
Zweige, die darstellen, wohin die Konversation führen könnte
Beispieldialoge für den Benutzer und den Assistenten

Ein Dialogablauf ist ein Skript, das die Hin- und Her-Konversation zwischen dem Benutzer und dem Sprachassistenten veranschaulicht. Ein Dialogablauf ist wie ein Prototyp und kann als Illustration dargestellt werden (wie im Beispiel unten), oder es gibt Prototyping-Apps, die zum Erstellen von Dialogabläufen verwendet werden können.

Eine Illustration eines Dialogablaufs für das VUI-Design — Ein Beispiel für einen Dialogablauf, der die Absicht, den Slot und die gesamte Konversation veranschaulicht.

Apps für das Prototyping von VUIs

Nachdem Sie die Dialogabläufe entworfen haben, können Sie die Sprachinteraktionen mithilfe einer App prototypisieren. Einige Prototyping-Tools sind bereits auf den Markt gekommen; Beispielsweise macht es Sayspring Designern leicht, einen funktionierenden Prototyp für sprachgesteuerte Amazon- und Google-Apps zu erstellen.

Prototyping von VUI-Apps mit Sayspring — Sayspring ist ein Tool, das es einfach macht, einen Alexa Skill oder eine Google Home Action zu prototypisieren.

Amazon bietet auch einen eigenen Alexa Skill Builder an, der es Designern leicht macht, neue Alexa Skills zu erstellen. Google bietet ein SDK an; Dies richtet sich jedoch an Google Action- Entwickler . Apple hat sein konkurrierendes Tool noch nicht auf den Markt gebracht, aber sie werden bald SiriKit auf den Markt bringen.

UX Analytics für Voice-Apps

Sobald Sie einen „Skill“ für Alexa (oder eine „Aktion“ für Google) eingeführt haben, können Sie mithilfe von Analysen nachverfolgen, wie die App verwendet wird. Beide Unternehmen bieten ein integriertes Analysetool an; Sie können jedoch auch einen Drittanbieterdienst für ausgefeiltere Analysen integrieren (z. B. voicelabs.co für Amazon Alexa oder dashbot.io für Google Assistant). Einige der wichtigsten Kennzahlen, die Sie im Auge behalten sollten, sind:

Engagement-Metriken wie Sitzungen pro Benutzer oder Nachrichten pro Sitzung
Verwendete Sprachen
Verhalten fließt
Nachrichten, Absichten und Äußerungen

Praktische Tipps für das VUI-Design

Halten Sie die Kommunikation einfach und gesprächig

Beim Entwerfen mobiler Apps und Websites müssen Designer darüber nachdenken, welche Informationen primär und welche Informationen sekundär (dh nicht so wichtig) sind. Benutzer möchten sich nicht überlastet fühlen, benötigen aber gleichzeitig genügend Informationen, um ihre Aufgabe zu erledigen.

Bei der Sprache müssen Designer noch vorsichtiger sein, da Worte (und vielleicht eine relativ einfache GUI) alles sind, womit kommuniziert werden kann. Das macht es besonders schwierig, komplexe Informationen und Daten zu übermitteln. Das bedeutet, dass weniger Worte besser sind, und Designer müssen sicherstellen, dass die App das Ziel der Benutzer erfüllt und streng dialogorientiert bleibt.

Bestätigen, wenn eine Aufgabe abgeschlossen wurde

Beim Entwerfen eines E-Commerce-Checkout-Flows ist einer der wichtigsten Bildschirme die endgültige Bestätigung. Dadurch weiß der Kunde, dass die Transaktion erfolgreich erfasst wurde.

Dasselbe Konzept gilt für das VUI-Design. Wenn ein Benutzer beispielsweise im Wohnzimmer wäre und seinen Sprachassistenten ohne Bestätigung bitten würde, das Licht im Badezimmer auszuschalten, müsste er ins Wohnzimmer gehen und nachsehen, was das Objekt eines „Hände-weg“ zunichte machen würde ” VUI-App vollständig.

In diesem Szenario reicht die Antwort „Badezimmerbeleuchtung ausgeschaltet“ aus.

Erstellen Sie eine starke Fehlerstrategie

Als VUI-Designer ist es wichtig, eine starke Fehlerstrategie zu haben. Gestalten Sie immer für das Szenario, in dem der Assistent nichts versteht oder gar nichts hört. Mit Analytics lassen sich auch Fehlabbiegungen und Fehlinterpretationen identifizieren, sodass die Fehlerstrategie verbessert werden kann.

Einige der wichtigsten Fragen, die Sie stellen sollten, wenn Sie nach alternativen Dialogen suchen:

Haben Sie das Ziel der Interaktion identifiziert?
Kann die KI die vom Benutzer gesprochenen Informationen interpretieren?
Benötigt die KI weitere Informationen vom Benutzer, um die Anfrage zu erfüllen?
Können wir liefern, was der Benutzer verlangt hat?

Fügen Sie eine zusätzliche Sicherheitsebene hinzu

Google Assistant, Siri und Alexa können jetzt einzelne Stimmen erkennen. Dies fügt eine Sicherheitsebene hinzu, ähnlich wie bei Face ID oder Touch ID. Die Spracherkennungssoftware wird ständig verbessert, und es wird immer schwieriger, die Stimme zu imitieren. Allerdings ist es zu diesem Zeitpunkt möglicherweise nicht sicher genug und es kann eine zusätzliche Authentifizierung erforderlich sein. Bei der Arbeit mit sensiblen Daten müssen Designer möglicherweise einen zusätzlichen Authentifizierungsschritt wie Fingerabdruck, Passwort oder Gesichtserkennung einbeziehen. Dies gilt insbesondere für persönliche Nachrichten und Zahlungen.

Duer Sprachassistent mit Gesichtserkennungssoftware — Der Sprachassistent Duer von Baidu wird in mehreren KFC-Restaurants verwendet und verwendet die Gesichtserkennung, um Essensvorschläge basierend auf dem Alter oder früheren Bestellungen zu machen.

Der Beginn der VUI-Revolution

VUIs sind hier, um zu bleiben und werden in den kommenden Jahren in immer mehr Produkte integriert. Einige sagen voraus, dass wir in 10 Jahren keine Tastaturen verwenden werden, um mit Computern zu interagieren.

Wenn wir jedoch an „Benutzererfahrung“ denken, neigen wir dazu, darüber nachzudenken, was wir sehen und berühren können. Infolgedessen wird die Stimme als Interaktionsmethode selten in Betracht gezogen. Sprache und visuelle Elemente schließen sich bei der Gestaltung von Benutzererlebnissen jedoch nicht gegenseitig aus – beide schaffen einen Mehrwert.

Die Benutzerforschung muss die Frage beantworten, ob Sprache die UX verbessert oder nicht, und wenn man bedenkt, wie schnell der Marktanteil für sprachaktivierte Geräte steigt, könnte sich diese Forschung lohnen und den Wert und die Qualität einer deutlich steigern App.

• • •

Weiterführende Literatur im Toptal Design Blog:

eCommerce UX – Best Practices im Überblick (mit Infografik)
Die Bedeutung von Human-Centered Design im Produktdesign
Die besten UX-Designer-Portfolios – inspirierende Fallstudien und Beispiele
Heuristische Prinzipien für mobile Schnittstellen
Antizipatorisches Design: Wie man magische Benutzererlebnisse schafft