Diseño de una VUI: interfaz de usuario de voz

Publicado: 2022-03-11

Cada vez más dispositivos controlados por voz, como Apple HomePod, Google Home y Amazon Echo, están irrumpiendo en el mercado. Las interfaces de usuario de voz están ayudando a mejorar todo tipo de experiencias de usuario diferentes, y algunos creen que la voz impulsará el 50 % de todas las búsquedas para 2020.

La IA habilitada por voz puede encargarse de casi cualquier cosa en un instante.

  • "¿Qué sigue en mi Calendario?"
  • "Resérvame un taxi a Oxford Street".
  • "¡Tócame un poco de Jazz en Spotify!"

Las cinco empresas de tecnología de las "Cinco Grandes" (Microsoft, Google, Amazon, Apple y Facebook) han desarrollado (o están desarrollando actualmente) asistentes de IA habilitados para voz. Siri, el asistente de inteligencia artificial para dispositivos Apple iOS y HomePod, está ayudando a más de 40 millones de usuarios por mes y, según ComScore, uno de cada 10 hogares en los EE. UU. ya posee un altavoz inteligente en la actualidad.

Ya sea que estemos hablando de VUI (interfaces de usuario de voz) para aplicaciones móviles o para altavoces domésticos inteligentes, las interacciones de voz son cada vez más comunes en la tecnología actual, especialmente porque la fatiga de la pantalla es una preocupación.

Amazonas
Echo Spot es el último altavoz inteligente de Amazon que combina una VUI con una GUI, comparable al Echo Show.

¿Qué pueden hacer los usuarios con los comandos de voz?

Alexa es el asistente de inteligencia artificial para los dispositivos de Amazon habilitados para voz, como el altavoz inteligente Echo y la tableta Kindle Fire. Actualmente, Amazon lidera el camino con la tecnología de voz (en términos de ventas).

En la tienda de Alexa, algunas de las aplicaciones más modernas (llamadas "habilidades") se centran en el entretenimiento, la traducción y las noticias, aunque los usuarios también pueden realizar acciones como solicitar un viaje a través de la habilidad de Uber, reproducir música a través de la habilidad de Spotify o incluso pedir una pizza a través de la habilidad de Domino.

Otro ejemplo interesante proviene del banco comercial Capital One, que introdujo una habilidad de Alexa en 2016 y fue el primer banco en hacerlo. Al agregar la habilidad Capital One a través de Alexa, los clientes pueden verificar su saldo y fechas de vencimiento e incluso liquidar la factura de su tarjeta de crédito. PayPal llevó el concepto un paso más allá al permitir a los usuarios realizar pagos a través de Siri en iOS o Apple HomePod, y también hay una habilidad de Alexa para PayPal que puede lograr esto.

Pero lo que pueden hacer las VUI y para qué las usan los usuarios son dos cosas diferentes.

ComScore indicó que más de la mitad de los usuarios que poseen un altavoz inteligente usan su dispositivo para hacer preguntas generales, verificar el clima y transmitir música, seguido de cerca por administrar su alarma, lista de tareas y calendario (tenga en cuenta que estas tareas son bastante básico por naturaleza).

Como puede ver, muchas de estas tareas implican hacer una pregunta (es decir, búsqueda por voz).

Estadísticas sobre el uso de altavoces inteligentes en los EE. UU.
Uso de altavoces inteligentes en EE. UU. según ComScore.

¿Qué buscan los usuarios con la búsqueda por voz?

La mayoría de las personas usan la búsqueda por voz cuando conducen, aunque cualquier situación en la que el usuario no pueda tocar una pantalla (por ejemplo, cuando cocina o hace ejercicio, o cuando intenta realizar varias tareas en el trabajo) ofrece una oportunidad para las interacciones de voz. Aquí está el desglose completo de HigherVisibility.

Aplicación de voz de Android Auto e interfaz de usuario de voz
Las actualizaciones de tráfico en tiempo real se están volviendo mucho más fáciles mientras conduces gracias al Asistente de Google y Android Auto.

Realización de investigaciones de usuarios para interfaces de usuario de voz

Si bien es útil saber cómo los usuarios usan la voz en general, es importante que los diseñadores de UX realicen su propia investigación de usuarios específica para la aplicación VUI que están diseñando.

Mapeo del viaje del cliente

La investigación de usuarios se trata de comprender las necesidades, los comportamientos y las motivaciones del usuario a través de la observación y la retroalimentación. Un mapa de viaje del cliente que incluya la voz como canal no solo puede ayudar a los investigadores de la experiencia del usuario a identificar las necesidades de los usuarios en las diversas etapas del compromiso, sino que también puede ayudarlos a ver cómo y dónde la voz puede ser un método de interacción.

En el caso de que aún no se haya creado un mapa de viaje del cliente, el diseñador debe resaltar dónde las interacciones de voz influirían en el flujo del usuario (esto podría resaltarse como una oportunidad, un canal o un punto de contacto). Si ya existe un mapa de viaje del cliente para la empresa, los diseñadores deben ver si el flujo de usuarios se puede mejorar con interacciones de voz.

Por ejemplo, si los clientes siempre hacen una determinada pregunta a través de las redes sociales o el chat de soporte en vivo, entonces tal vez esa sea una conversación que se pueda integrar en la aplicación de voz.

En resumen, el diseño debe resolver problemas. ¿Qué fricciones y frustraciones encuentran los usuarios durante el recorrido del cliente?

Análisis de la competencia VUI

A través del análisis de la competencia, los diseñadores deben tratar de averiguar si los competidores están implementando interacciones de voz y cómo lo hacen. Las preguntas clave que debe hacerse son:

  • ¿Cuál es el caso de uso de su aplicación?
  • ¿Qué comandos de voz utilizan?
  • ¿Qué dicen los clientes en las reseñas de la aplicación y qué podemos aprender de esto?

Se buscan diseñadores de interfaz de usuario independientes a tiempo completo con sede en EE. UU. ### Recopilación de requisitos

Para diseñar una aplicación de interfaz de usuario de voz, primero debemos definir los requisitos de los usuarios. Además de crear un mapa de viaje del cliente y realizar un análisis de la competencia (como se mencionó anteriormente), también pueden ser útiles otras actividades de investigación, como entrevistas y pruebas de usuarios.

Para el diseño de VUI, estos requisitos escritos son aún más importantes ya que abarcarán la mayoría de las especificaciones de diseño para los desarrolladores. El primer paso es capturar los diferentes escenarios antes de convertirlos en un flujo de diálogo conversacional entre el usuario y el asistente de voz.

Una historia de usuario de ejemplo para la aplicación de noticias podría ser:

“Como usuario, quiero que el asistente de voz lea los últimos artículos de noticias para que pueda estar actualizado sobre lo que sucede sin tener que mirar mi pantalla”.

Con esta historia de usuario en mente, podemos diseñar un flujo de diálogo para ella.

emisión de un comando de voz para la interfaz de usuario controlada por voz

La anatomía de un comando de voz

Antes de que se pueda crear un flujo de diálogo, los diseñadores primero deben comprender la anatomía de un comando de voz. Al diseñar VUI, los diseñadores deben pensar constantemente en el objetivo de las interacciones de voz (es decir, ¿qué intenta lograr el usuario en este escenario? ).

El comando de voz de un usuario consta de tres factores clave: la intención , la expresión y el espacio .

Analicemos la siguiente solicitud: “Pon música relajante en Spotify”.

Intención (el objetivo de la interacción de voz)

La intención representa el objetivo más amplio del comando de voz de un usuario, y puede ser una interacción de baja o alta utilidad.

Una interacción de alta utilidad consiste en realizar una tarea muy específica, como solicitar que se apaguen las luces de la sala de estar o que la ducha tenga una temperatura determinada. Diseñar estas solicitudes es sencillo, ya que está muy claro lo que se espera del asistente de IA.

Las solicitudes de baja utilidad son más vagas y difíciles de descifrar. Por ejemplo, si el usuario quisiera saber más sobre Ámsterdam, primero querríamos verificar si esto se ajusta o no al alcance del servicio y luego hacerle más preguntas al usuario para comprender mejor la solicitud.

En el ejemplo dado, la intención es evidente: el usuario quiere escuchar música.

Expresión (cómo el usuario expresa un comando)

Un enunciado refleja cómo el usuario expresa su solicitud. En el ejemplo dado, sabemos que el usuario quiere reproducir música en Spotify diciendo "Ponme...", pero esta no es la única forma en que un usuario puede realizar esta solicitud. Por ejemplo, el usuario también podría decir: “Quiero escuchar música…”.

Los diseñadores deben considerar cada variación de expresión. Esto ayudará al motor de IA a reconocer la solicitud y vincularla a la acción o respuesta correcta.

Ranuras (las variables requeridas u opcionales)

A veces, una intención por sí sola no es suficiente y se requiere más información del usuario para cumplir con la solicitud. Alexa llama a esto un "espacio", y los espacios son como campos de formulario tradicionales en el sentido de que pueden ser opcionales u obligatorios, según lo que se necesite para completar la solicitud.

En nuestro caso, el espacio es "relajante", pero dado que la solicitud aún se puede completar sin él, este espacio es opcional. Sin embargo, en el caso de que el usuario quiera reservar un taxi, el slot sería el destino, y sería obligatorio. Las entradas opcionales sobrescriben los valores predeterminados; por ejemplo, un usuario que solicite un taxi para llegar a las 4 p. m. sobrescribirá el valor predeterminado de "lo antes posible".

Creación de prototipos de conversaciones VUI con flujos de diálogo

Los diseñadores de prototipos deben pensar como un guionista y diseñar flujos de diálogo para cada uno de estos requisitos. Un flujo de diálogo es un entregable que describe lo siguiente:

  • Palabras clave que conducen a la interacción
  • Ramas que representan hacia dónde podría conducir la conversación
  • Diálogos de ejemplo para el usuario y el asistente

Un flujo de diálogo es un guión que ilustra la conversación de ida y vuelta entre el usuario y el asistente de voz. Un flujo de diálogo es como un prototipo y se puede representar como una ilustración (como en el ejemplo a continuación), o existen aplicaciones de creación de prototipos que se pueden usar para crear flujos de diálogo.

Una ilustración de un flujo de diálogo para el diseño de VUI
Un flujo de diálogo de muestra que ilustra la intención, el espacio y la conversación en general.

Aplicaciones para prototipos de VUI

Una vez que haya mapeado los flujos de diálogo, estará listo para crear un prototipo de las interacciones de voz mediante una aplicación. Algunas herramientas de creación de prototipos ya han ingresado al mercado; por ejemplo, Sayspring facilita a los diseñadores la creación de un prototipo funcional para las aplicaciones de Amazon y Google habilitadas para voz.

Creación de prototipos de aplicaciones VUI con Sayspring
Sayspring es una herramienta que facilita la creación de prototipos de Alexa Skill o Google Home Action.

Amazon también ofrece su propio Alexa Skill Builder, que facilita a los diseñadores la creación de nuevas Alexa Skills. Google ofrece un SDK; sin embargo, esto está dirigido a los desarrolladores de Google Action. Apple aún no ha lanzado su herramienta competidora, pero pronto lanzarán SiriKit.

Amazonas
Alexa Skill Builder de Amazon, donde los diseñadores pueden crear prototipos de VUI para dispositivos habilitados para Alexa.

Análisis de UX para aplicaciones de voz

Una vez que haya implementado una "habilidad" para Alexa (o una "acción" para Google), puede realizar un seguimiento de cómo se utiliza la aplicación con análisis. Ambas empresas ofrecen una herramienta de análisis integrada; sin embargo, también puede integrar un servicio de terceros para análisis más elaborados (como voicelabs.co para Amazon Alexa o dashbot.io para Google Assistant). Algunas de las métricas clave a tener en cuenta son:

  • Métricas de participación, como sesiones por usuario o mensajes por sesión
  • Idiomas utilizados
  • Flujos de comportamiento
  • Mensajes, intenciones y expresiones

Alexa
El panel de métricas de Alexa de Amazon muestra métricas como sesiones, declaraciones e intenciones.

Consejos prácticos para el diseño de VUI

Mantenga la comunicación simple y conversacional

Al diseñar aplicaciones móviles y sitios web, los diseñadores tienen que pensar en qué información es primaria y qué información es secundaria (es decir, no tan importante). Los usuarios no quieren sentirse sobrecargados, pero al mismo tiempo necesitan suficiente información para completar su tarea.

Con la voz, los diseñadores deben ser aún más cuidadosos porque las palabras (y tal vez una GUI relativamente simple) es todo lo que hay para comunicarse. Esto lo hace especialmente difícil en el caso de transmitir información y datos complejos. Esto significa que menos palabras son mejores, y los diseñadores deben asegurarse de que la aplicación cumpla con el objetivo de los usuarios y se mantenga estrictamente conversacional.

Confirmar cuando se ha completado una tarea

Al diseñar un flujo de pago de comercio electrónico, una de las pantallas clave será la confirmación final. Esto le permite al cliente saber que la transacción se ha registrado con éxito.

El mismo concepto se aplica al diseño de VUI. Por ejemplo, si un usuario estuviera en la sala de estar pidiéndole a su asistente de voz que apague las luces del baño, sin una confirmación, tendría que entrar a la sala de estar y verificar, anulando el objeto de una "no intervención". Aplicación VUI por completo.

En este escenario, una respuesta de "Luces del baño apagadas" funcionará bien.

Crear una estrategia de error fuerte

Como diseñador de VUI, es importante contar con una sólida estrategia de errores. Diseñe siempre para el escenario en el que el asistente no entiende o no oye nada en absoluto. Los análisis también se pueden usar para identificar giros incorrectos y malas interpretaciones para que se pueda mejorar la estrategia de error.

Algunas de las preguntas clave que se deben hacer al buscar cuadros de diálogo alternativos:

  • ¿Ha identificado el objetivo de la interacción?
  • ¿Puede la IA interpretar la información hablada por el usuario?
  • ¿La IA requiere más información del usuario para cumplir con la solicitud?
  • ¿Podemos entregar lo que el usuario ha pedido?

Agregue una capa adicional de seguridad

El Asistente de Google, Siri y Alexa ahora pueden reconocer voces individuales. Esto agrega una capa de seguridad similar a Face ID o Touch ID. El software de reconocimiento de voz mejora constantemente y cada vez es más difícil imitar la voz; sin embargo, en este momento, es posible que no sea lo suficientemente seguro y que se requiera una autenticación adicional. Al trabajar con datos confidenciales, es posible que los diseñadores deban incluir un paso de autenticación adicional, como la huella digital, la contraseña o el reconocimiento facial. Esto es especialmente cierto en el caso de mensajes y pagos personales.

Asistente de voz Duer con software de reconocimiento facial
El asistente de voz Duer de Baidu se usa en varios restaurantes de KFC y utiliza el reconocimiento facial para hacer sugerencias de comidas según la edad o los pedidos anteriores.

El amanecer de la revolución VUI

Las VUI llegaron para quedarse y se integrarán en más y más productos en los próximos años. Algunos predicen que no usaremos teclados en 10 años para interactuar con computadoras.

Aún así, cuando pensamos en la "experiencia del usuario", tendemos a pensar en lo que podemos ver y tocar. Como consecuencia, rara vez se considera la voz como método de interacción. Sin embargo, la voz y las imágenes no se excluyen mutuamente cuando se diseñan experiencias de usuario: ambas agregan valor.

La investigación del usuario debe responder a la pregunta de si la voz mejorará o no la experiencia de usuario y, teniendo en cuenta la rapidez con la que aumenta la cuota de mercado de los dispositivos habilitados para voz, hacer esta investigación bien podría valer la pena y aumentar significativamente el valor y la calidad de un producto. aplicación

• • •

Lectura adicional en el blog de diseño de Toptal:

  • eCommerce UX: una descripción general de las mejores prácticas (con infografía)
  • La importancia del diseño centrado en el ser humano en el diseño de productos
  • Los mejores portafolios de diseñadores de UX: estudios de casos y ejemplos inspiradores
  • Principios heurísticos para interfaces móviles
  • Diseño anticipatorio: cómo crear experiencias de usuario mágicas