Conception d'une VUI - Interface utilisateur vocale

Publié: 2022-03-11

De plus en plus d'appareils à commande vocale, tels que Apple HomePod, Google Home et Amazon Echo, prennent d'assaut le marché. Les interfaces utilisateur vocales contribuent à améliorer toutes sortes d'expériences utilisateur différentes, et certains pensent que la voix alimentera 50 % de toutes les recherches d'ici 2020.

L'IA à commande vocale peut s'occuper de presque tout en un instant.

  • « Quelle est la prochaine étape dans mon calendrier ? »
  • "Réservez-moi un taxi pour Oxford Street."
  • « Mettez-moi du jazz sur Spotify ! »

Les cinq entreprises technologiques des « Big Five » – Microsoft, Google, Amazon, Apple et Facebook – ont développé (ou sont en train de développer) des assistants IA à commande vocale. Siri, l'assistant IA pour les appareils Apple iOS et HomePod, aide plus de 40 millions d'utilisateurs par mois, et selon ComScore, un foyer sur 10 aux États-Unis possède déjà un haut-parleur intelligent aujourd'hui.

Qu'il s'agisse de VUI (Voice User Interfaces) pour les applications mobiles ou pour les haut-parleurs domestiques intelligents, les interactions vocales sont de plus en plus courantes dans la technologie d'aujourd'hui, d'autant plus que la fatigue de l'écran est une préoccupation.

Amazone
Echo Spot est le dernier haut-parleur intelligent d'Amazon qui combine un VUI avec une interface graphique, comparable à l'Echo Show.

Que peuvent faire les utilisateurs avec les commandes vocales ?

Alexa est l'assistant IA pour les appareils Amazon à commande vocale tels que le haut-parleur intelligent Echo et la tablette Kindle Fire. Amazon est actuellement en tête avec la technologie vocale (en termes de ventes).

Sur la boutique Alexa, certaines des applications les plus en vogue (appelées « compétences ») sont axées sur le divertissement, la traduction et les actualités, bien que les utilisateurs puissent également effectuer des actions telles que demander une course via la compétence Uber, écouter de la musique via la compétence Spotify, ou même commander une pizza via la compétence du Domino.

Un autre exemple intéressant vient de la banque commerciale Capital One, qui a introduit une compétence Alexa en 2016 et a été la première banque à le faire. En ajoutant la compétence Capital One via Alexa, les clients peuvent vérifier leur solde et leurs échéances et même régler leur facture de carte de crédit. PayPal a poussé le concept un peu plus loin en permettant aux utilisateurs d'effectuer des paiements via Siri sur iOS ou Apple HomePod, et il existe également une compétence Alexa pour PayPal qui peut accomplir cela.

Mais ce que les VUI peuvent faire et ce pour quoi les utilisateurs les utilisent réellement sont deux choses différentes.

ComScore a déclaré que plus de la moitié des utilisateurs qui possèdent un haut-parleur intelligent utilisent leur appareil pour poser des questions générales, vérifier la météo et diffuser de la musique, suivis de près par la gestion de leur alarme, de leur liste de tâches et de leur calendrier (notez que ces tâches sont assez basique par nature).

Comme vous pouvez le constater, bon nombre de ces tâches impliquent de poser une question (par exemple, une recherche vocale).

Statistiques sur l'utilisation des haut-parleurs intelligents aux États-Unis
Utilisation des haut-parleurs intelligents aux États-Unis selon ComScore.

Que recherchent les utilisateurs avec la recherche vocale ?

Les gens utilisent principalement la recherche vocale lorsqu'ils conduisent, bien que toute situation où l'utilisateur ne peut pas toucher un écran (par exemple, lorsqu'il cuisine ou fait de l'exercice, ou lorsqu'il essaie d'effectuer plusieurs tâches au travail), offre une opportunité d'interactions vocales. Voici la répartition complète par HigherVisibility.

Application vocale Android Auto et interface utilisateur vocale
Les mises à jour du trafic en temps réel deviennent beaucoup plus faciles pendant la conduite grâce à Google Assistant et Android Auto.

Recherche d'utilisateurs pour les interfaces utilisateur vocales

Bien qu'il soit utile de savoir comment les utilisateurs utilisent généralement la voix, il est important que les concepteurs UX mènent leurs propres recherches sur les utilisateurs spécifiques à l'application VUI qu'ils conçoivent.

Cartographie du parcours client

La recherche utilisateur consiste à comprendre les besoins, les comportements et les motivations de l'utilisateur par l'observation et la rétroaction. Une carte du parcours client qui inclut la voix comme canal peut non seulement aider les chercheurs en expérience utilisateur à identifier les besoins des utilisateurs aux différentes étapes de l'engagement, mais elle peut également les aider à voir comment et où la voix peut être une méthode d'interaction.

Dans le cas où une carte de parcours client n'a pas encore été créée, le concepteur doit mettre en évidence où les interactions vocales seraient prises en compte dans le flux d'utilisateurs (cela pourrait être mis en évidence comme une opportunité, un canal ou un point de contact). Si une carte de parcours client existe déjà pour l'entreprise, les concepteurs doivent voir si le flux d'utilisateurs peut être amélioré avec des interactions vocales.

Par exemple, si les clients posent toujours une certaine question via les réseaux sociaux ou le chat d'assistance en direct, il s'agit peut-être d'une conversation qui peut être intégrée à l'application vocale.

En bref, le design doit résoudre les problèmes. Quelles frictions et frustrations les utilisateurs rencontrent-ils lors d'un parcours client ?

Analyse des concurrents VUI

Grâce à l'analyse des concurrents, les concepteurs doivent essayer de savoir si et comment les concurrents mettent en œuvre les interactions vocales. Les questions clés à se poser sont :

  • Quel est le cas d'utilisation de leur application ?
  • Quelles commandes vocales utilisent-ils ?
  • Que disent les clients dans les avis sur l'application et que pouvons-nous en apprendre ?

Nous recherchons des concepteurs d'interface utilisateur indépendants à temps plein basés aux États-Unis ### Rassemblement des exigences

Afin de concevoir une application d'interface utilisateur vocale, nous devons d'abord définir les besoins des utilisateurs. Outre la création d'une carte du parcours client et l'analyse des concurrents (comme mentionné ci-dessus), d'autres activités de recherche telles que les entretiens et les tests d'utilisateurs peuvent également être utiles.

Pour la conception de VUI, ces exigences écrites sont d'autant plus importantes qu'elles engloberont la plupart des spécifications de conception pour les développeurs. La première étape consiste à capturer les différents scénarios avant de les transformer en un flux de dialogue conversationnel entre l'utilisateur et l'assistant vocal.

Un exemple de user story pour l'application d'actualités pourrait être :

"En tant qu'utilisateur, je souhaite que l'assistant vocal lise les derniers articles d'actualité afin que je puisse être informé de ce qui se passe sans avoir à regarder mon écran."

Avec cette user story à l'esprit, nous pouvons ensuite concevoir un flux de dialogue pour celle-ci.

émission d'une commande vocale pour une interface utilisateur à commande vocale

L'anatomie d'une commande vocale

Avant de pouvoir créer un flux de dialogue, les concepteurs doivent d'abord comprendre l'anatomie d'une commande vocale. Lors de la conception de VUI, les concepteurs doivent constamment réfléchir à l'objectif des interactions vocales (c'est-à-dire, qu'est-ce que l'utilisateur essaie d'accomplir dans ce scénario ? ).

La commande vocale d'un utilisateur se compose de trois facteurs clés : l' intention , l' énoncé et l' emplacement .

Analysons la requête suivante : "Mettez de la musique relaxante sur Spotify".

Intention (l'objectif de l'interaction vocale)

L'intention représente l'objectif plus large de la commande vocale d'un utilisateur, et il peut s'agir d'une interaction à faible utilité ou à utilité élevée .

Une interaction hautement utilitaire consiste à effectuer une tâche très spécifique, comme demander que les lumières du salon soient éteintes ou que la douche soit à une certaine température. La conception de ces requêtes est simple car ce qui est attendu de l'assistant IA est très clair.

Les demandes de faible utilité sont plus vagues et plus difficiles à déchiffrer. Par exemple, si l'utilisateur souhaite en savoir plus sur Amsterdam, nous voudrions d'abord vérifier si cela correspond ou non à l'étendue du service, puis lui poser plus de questions pour mieux comprendre la demande.

Dans l'exemple donné, l'intention est évidente : l'utilisateur veut entendre de la musique.

Énoncé (comment l'utilisateur formule une commande)

Un énoncé reflète la façon dont l'utilisateur formule sa requête. Dans l'exemple donné, nous savons que l'utilisateur veut jouer de la musique sur Spotify en disant « Joue-moi… », mais ce n'est pas la seule façon pour un utilisateur de faire cette demande. Par exemple, l'utilisateur peut également dire : "Je veux écouter de la musique…".

Les concepteurs doivent tenir compte de chaque variation d'énoncé. Cela aidera le moteur d'IA à reconnaître la demande et à la lier à la bonne action ou réponse.

Emplacements (les variables obligatoires ou facultatives)

Parfois, une intention seule ne suffit pas et l'utilisateur a besoin de plus d'informations pour répondre à la demande. Alexa appelle cela un "emplacement", et les emplacements sont comme des champs de formulaire traditionnels dans le sens où ils peuvent être facultatifs ou obligatoires, selon ce qui est nécessaire pour compléter la demande.

Dans notre cas, le créneau est "relaxant", mais comme la demande peut toujours être complétée sans lui, ce créneau est facultatif. Cependant, dans le cas où l'utilisateur souhaite réserver un taxi, le créneau serait la destination, et il serait obligatoire. Les entrées facultatives écrasent toutes les valeurs par défaut ; par exemple, un utilisateur demandant qu'un taxi arrive à 16 h écraserait la valeur par défaut "dès que possible".

Prototypage de conversations VUI avec des flux de dialogue

Les concepteurs de prototypes doivent penser comme un scénariste et concevoir des flux de dialogue pour chacune de ces exigences. Un flux de dialogue est un livrable qui décrit les éléments suivants :

  • Mots-clés qui mènent à l'interaction
  • Branches qui représentent où la conversation pourrait mener
  • Exemples de dialogues pour l'utilisateur et l'assistant

Un flux de dialogue est un script qui illustre la conversation aller-retour entre l'utilisateur et l'assistant vocal. Un flux de dialogue est comme un prototype, et il peut être représenté comme une illustration (comme dans l'exemple ci-dessous), ou il existe des applications de prototypage qui peuvent être utilisées pour créer des flux de dialogue.

Une illustration d'un flux de dialogue pour la conception de VUI
Un exemple de flux de dialogue illustrant l'intention, l'emplacement et la conversation globale.

Applications pour le prototypage de VUI

Une fois que vous avez cartographié les flux de dialogue, vous êtes prêt à prototyper les interactions vocales à l'aide d'une application. Quelques outils de prototypage sont déjà entrés sur le marché ; par exemple, Sayspring permet aux concepteurs de créer facilement un prototype fonctionnel pour les applications Amazon et Google à commande vocale.

Prototypage d'applications VUI avec Sayspring
Sayspring est un outil qui facilite le prototypage d'une compétence Alexa ou d'une action Google Home.

Amazon propose également son propre Alexa Skill Builder, qui permet aux concepteurs de créer facilement de nouvelles compétences Alexa. Google propose un SDK ; cependant, cela s'adresse aux développeurs de Google Action . Apple n'a pas encore lancé son outil concurrent, mais ils lanceront bientôt SiriKit.

Amazone
Alexa Skill Builder d'Amazon, où les concepteurs peuvent prototyper des VUI pour les appareils compatibles Alexa.

UX Analytics pour les applications vocales

Une fois que vous avez déployé une "compétence" pour Alexa (ou une "action" pour Google), vous pouvez suivre la façon dont l'application est utilisée avec des analyses. Les deux sociétés proposent un outil d'analyse intégré ; cependant, vous pouvez également intégrer un service tiers pour des analyses plus élaborées (comme voicelabs.co pour Amazon Alexa ou dashbot.io pour Google Assistant). Certaines des mesures clés à surveiller sont les suivantes :

  • Mesures d'engagement, telles que les sessions par utilisateur ou les messages par session
  • Langues utilisées
  • Flux de comportement
  • Messages, intentions et énoncés

Alexa
Le tableau de bord Alexa Metrics d'Amazon affiche des métriques telles que les sessions, les énoncés et les intentions.

Conseils pratiques pour la conception de VUI

Gardez la communication simple et conversationnelle

Lors de la conception d'applications mobiles et de sites Web, les concepteurs doivent réfléchir aux informations primaires et aux informations secondaires (c'est-à-dire moins importantes). Les utilisateurs ne veulent pas se sentir surchargés, mais en même temps, ils ont besoin de suffisamment d'informations pour accomplir leur tâche.

Avec la voix, les concepteurs doivent être encore plus prudents car les mots (et peut-être une interface graphique relativement simple) sont tout ce qu'il y a pour communiquer. Cela rend la tâche particulièrement difficile dans le cas de la transmission d'informations et de données complexes. Cela signifie que moins de mots sont meilleurs, et les concepteurs doivent s'assurer que l'application remplit l'objectif des utilisateurs et reste strictement conversationnelle.

Confirmer qu'une tâche est terminée

Lors de la conception d'un flux de paiement de commerce électronique, l'un des écrans clés sera la confirmation finale. Cela permet au client de savoir que la transaction a été enregistrée avec succès.

Le même concept s'applique à la conception VUI. Par exemple, si un utilisateur se trouvait dans le salon et demandait à son assistant vocal d'éteindre les lumières de la salle de bain, sans confirmation, il devrait entrer dans le salon et vérifier, en vainquant l'objet d'un "sans intervention". ” Application VUI entièrement.

Dans ce scénario, une réponse "Lumières de la salle de bain éteintes" fera l'affaire.

Créer une stratégie d'erreur forte

En tant que concepteur de VUI, il est important d'avoir une stratégie d'erreur solide. Concevez toujours pour le scénario où l'assistant ne comprend pas ou n'entend rien du tout. L'analyse peut également être utilisée pour identifier les mauvais virages et les mauvaises interprétations afin d'améliorer la stratégie d'erreur.

Certaines des questions clés à poser lors de la recherche de boîtes de dialogue alternatives :

  • Avez-vous identifié l'objectif de l'interaction ?
  • L'IA peut-elle interpréter les informations prononcées par l'utilisateur ?
  • L'IA a-t-elle besoin de plus d'informations de la part de l'utilisateur pour répondre à la demande ?
  • Sommes-nous en mesure de fournir ce que l'utilisateur a demandé ?

Ajoutez une couche de sécurité supplémentaire

Google Assistant, Siri et Alexa peuvent désormais reconnaître les voix individuelles. Cela ajoute une couche de sécurité similaire à Face ID ou Touch ID. Les logiciels de reconnaissance vocale s'améliorent constamment et il devient de plus en plus difficile d'imiter la voix. cependant, à ce moment précis, il se peut qu'il ne soit pas suffisamment sécurisé et qu'une authentification supplémentaire soit nécessaire. Lorsqu'ils travaillent avec des données sensibles, les concepteurs peuvent avoir besoin d'inclure une étape d'authentification supplémentaire telle que l'empreinte digitale, le mot de passe ou la reconnaissance faciale. Cela est particulièrement vrai dans le cas de la messagerie personnelle et des paiements.

Assistant vocal Duer avec logiciel de reconnaissance faciale
L'assistant vocal Duer de Baidu est utilisé dans plusieurs restaurants KFC et utilise la reconnaissance faciale pour faire des suggestions de repas en fonction de l'âge ou des commandes précédentes.

L'aube de la révolution VUI

Les VUI sont là pour rester et seront intégrées dans de plus en plus de produits dans les années à venir. Certains prédisent que nous n'utiliserons plus de claviers dans 10 ans pour interagir avec les ordinateurs.

Pourtant, lorsque nous pensons « expérience utilisateur », nous avons tendance à penser à ce que nous pouvons voir et toucher. Par conséquent, la voix comme méthode d'interaction est rarement considérée. Cependant, la voix et les visuels ne s'excluent pas mutuellement lors de la conception d'expériences utilisateur - ils ajoutent tous deux de la valeur.

La recherche sur les utilisateurs doit répondre à la question de savoir si la voix améliorera ou non l'UX et, compte tenu de la rapidité avec laquelle la part de marché des appareils à commande vocale augmente, cette recherche pourrait valoir la peine et augmenter considérablement la valeur et la qualité d'un application.

• • •

Pour en savoir plus sur le blog Toptal Design :

  • eCommerce UX - Un aperçu des meilleures pratiques (avec infographie)
  • L'importance de la conception centrée sur l'humain dans la conception de produits
  • Les meilleurs portefeuilles de concepteurs UX - Études de cas et exemples inspirants
  • Principes heuristiques pour les interfaces mobiles
  • Conception anticipative : comment créer des expériences utilisateur magiques