Projetando uma VUI – Interface de usuário de voz

Publicados: 2022-03-11

Mais e mais dispositivos controlados por voz, como o Apple HomePod, Google Home e Amazon Echo, estão invadindo o mercado. As interfaces de usuário de voz estão ajudando a melhorar todos os tipos de experiências de usuário diferentes, e alguns acreditam que a voz alimentará 50% de todas as pesquisas até 2020.

A IA habilitada por voz pode cuidar de quase tudo em um instante.

  • "O que vem a seguir no meu Calendário?"
  • “Agende-me um táxi para Oxford Street.”
  • “Toque-me um pouco de Jazz no Spotify!”

Todas as cinco empresas de tecnologia “Big Five” – Microsoft, Google, Amazon, Apple e Facebook – desenvolveram (ou estão desenvolvendo) assistentes de IA habilitados para voz. Siri, o assistente de IA para dispositivos Apple iOS e HomePod, está ajudando mais de 40 milhões de usuários por mês e, de acordo com a ComScore, uma em cada 10 residências nos EUA já possui um alto-falante inteligente hoje.

Quer estejamos falando de VUIs (Voice User Interfaces) para aplicativos móveis ou para alto-falantes domésticos inteligentes, as interações de voz estão se tornando mais comuns na tecnologia atual, especialmente porque a fadiga da tela é uma preocupação.

Amazonas
O Echo Spot é o mais recente alto-falante inteligente da Amazon que combina uma VUI com uma GUI, comparável ao Echo Show.

O que os usuários podem fazer com comandos de voz?

Alexa é o assistente de IA para dispositivos Amazon habilitados para voz, como o alto-falante inteligente Echo e o tablet Kindle Fire - a Amazon está atualmente liderando o caminho com tecnologia de voz (em termos de vendas).

Na loja Alexa, alguns dos aplicativos mais modernos (chamados de “habilidades”) são focados em entretenimento, tradução e notícias, embora os usuários também possam realizar ações como solicitar uma carona pela habilidade Uber, tocar algumas músicas pela habilidade Spotify ou até mesmo pedir uma pizza através da habilidade do Domino.

Outro exemplo interessante vem do banco comercial Capital One, que introduziu uma habilidade Alexa em 2016 e foi o primeiro banco a fazê-lo. Ao adicionar a habilidade Capital One via Alexa, os clientes podem verificar seu saldo e datas de vencimento e até mesmo liquidar sua fatura de cartão de crédito. O PayPal levou o conceito um passo adiante, permitindo que os usuários fizessem pagamentos via Siri no iOS ou no Apple HomePod, e também há uma habilidade do Alexa para o PayPal que pode fazer isso.

Mas o que as VUIs podem fazer e para que os usuários realmente as estão usando são duas coisas diferentes.

A ComScore afirmou que mais da metade dos usuários que possuem um alto-falante inteligente usam seu dispositivo para fazer perguntas gerais, verificar o clima e transmitir música, seguidos de perto pelo gerenciamento de alarme, lista de tarefas e calendário (observe que essas tarefas são bastante básico por natureza).

Como você pode ver, muitas dessas tarefas envolvem fazer uma pergunta (ou seja, pesquisa por voz).

Estatísticas de uso de alto-falantes inteligentes nos EUA
Uso de alto-falante inteligente nos EUA de acordo com a ComScore.

O que os usuários pesquisam com a pesquisa por voz?

As pessoas usam principalmente a pesquisa por voz ao dirigir, embora qualquer situação em que o usuário não consiga tocar uma tela (por exemplo, ao cozinhar ou se exercitar, ou ao tentar realizar várias tarefas no trabalho) oferece uma oportunidade para interações por voz. Aqui está o detalhamento completo da HigherVisibility.

Aplicativo de voz Android Auto e interface de usuário de voz
As atualizações de trânsito em tempo real estão se tornando muito mais fáceis durante a condução, graças ao Google Assistant e ao Android Auto.

Realização de pesquisas de usuários para interfaces de usuário de voz

Embora seja útil saber como os usuários geralmente usam a voz, é importante que os designers de UX conduzam sua própria pesquisa de usuário específica para o aplicativo VUI que estão projetando.

Mapeamento da jornada do cliente

A pesquisa do usuário é sobre a compreensão das necessidades, comportamentos e motivações do usuário por meio de observação e feedback. Um mapa de jornada do cliente que inclua a voz como canal pode não apenas ajudar os pesquisadores de experiência do usuário a identificar as necessidades dos usuários nos vários estágios de engajamento, mas também ajudá-los a ver como e onde a voz pode ser um método de interação.

No cenário em que um mapa de jornada do cliente ainda não foi criado, o designer deve destacar onde as interações de voz afetariam o fluxo do usuário (isso pode ser destacado como uma oportunidade, um canal ou um ponto de contato). Se já existe um mapa de jornada do cliente para a empresa, os designers devem ver se o fluxo do usuário pode ser melhorado com interações de voz.

Por exemplo, se os clientes estão sempre fazendo uma determinada pergunta via mídia social ou chat de suporte ao vivo, talvez seja uma conversa que possa ser integrada ao aplicativo de voz.

Em suma, o design deve resolver problemas. Quais atritos e frustrações os usuários encontram durante a jornada do cliente?

Análise do Concorrente da VUI

Por meio da análise da concorrência, os designers devem tentar descobrir se e como os concorrentes estão implementando interações de voz. As principais perguntas a serem feitas são:

  • Qual é o caso de uso para o aplicativo deles?
  • Quais comandos de voz eles usam?
  • O que os clientes estão dizendo nas avaliações do aplicativo e o que podemos aprender com isso?

Procuravam-se designers de UI freelancers em tempo integral nos EUA ### Levantamento de requisitos

Para projetar um aplicativo de interface de usuário de voz, primeiro precisamos definir os requisitos dos usuários. Além de criar um mapa de jornada do cliente e realizar análises de concorrentes (como mencionado acima), outras atividades de pesquisa, como entrevistas e testes de usuários, também podem ser úteis.

Para o design VUI, esses requisitos escritos são ainda mais importantes, pois abrangem a maioria das especificações de design para desenvolvedores. O primeiro passo é capturar os diferentes cenários antes de transformá-los em um fluxo de diálogo conversacional entre o usuário e o assistente de voz.

Um exemplo de história de usuário para o aplicativo de notícias pode ser:

“Como usuário, quero que o assistente de voz leia os artigos de notícias mais recentes para que eu possa estar atualizado sobre o que está acontecendo sem ter que olhar para minha tela.”

Com essa história de usuário em mente, podemos projetar um fluxo de diálogo para ela.

emitindo um comando de voz para interface de usuário controlada por voz

A anatomia de um comando de voz

Antes que um fluxo de diálogo possa ser criado, os designers primeiro precisam entender a anatomia de um comando de voz. Ao projetar VUIs, os designers precisam pensar constantemente sobre o objetivo das interações de voz (ou seja, o que o usuário está tentando realizar neste cenário? ).

O comando de voz de um usuário consiste em três fatores principais: a intenção , o enunciado e o slot .

Vamos analisar a seguinte solicitação: “Toque uma música relaxante no Spotify”.

Intenção (o objetivo da interação de voz)

A intenção representa o objetivo mais amplo do comando de voz de um usuário, e isso pode ser uma interação de baixa ou alta utilidade .

Uma interação de alta utilidade diz respeito à execução de uma tarefa muito específica, como solicitar que as luzes da sala de estar sejam desligadas ou que o chuveiro tenha uma determinada temperatura. Projetar essas solicitações é simples, pois fica muito claro o que se espera do assistente de IA.

As solicitações de baixa utilidade são mais vagas e mais difíceis de decifrar. Por exemplo, se o usuário quiser saber mais sobre Amsterdã, primeiro gostaríamos de verificar se isso se encaixa ou não no escopo do serviço e, em seguida, fazer mais perguntas ao usuário para entender melhor a solicitação.

No exemplo dado, a intenção é evidente: o usuário quer ouvir música.

Enunciado (como o usuário formula um comando)

Um enunciado reflete como o usuário formula sua solicitação. No exemplo dado, sabemos que o usuário quer tocar música no Spotify dizendo "Toque-me...", mas essa não é a única maneira de um usuário fazer essa solicitação. Por exemplo, o usuário também pode dizer: “Quero ouvir música…”.

Os designers precisam considerar todas as variações do enunciado. Isso ajudará o mecanismo de IA a reconhecer a solicitação e vinculá-la à ação ou resposta correta.

Slots (as variáveis ​​obrigatórias ou opcionais)

Às vezes, uma intenção por si só não é suficiente e mais informações são necessárias do usuário para atender à solicitação. Alexa chama isso de "slot", e os slots são como campos de formulário tradicionais no sentido de que podem ser opcionais ou obrigatórios, dependendo do que é necessário para concluir a solicitação.

No nosso caso, o slot é "relaxante", mas como a solicitação ainda pode ser concluída sem ele, esse slot é opcional. No entanto, caso o usuário queira reservar um táxi, o slot seria o destino, e seria necessário. As entradas opcionais substituem quaisquer valores padrão; por exemplo, um usuário solicitando que um táxi chegue às 16h substituiria o valor padrão de “o mais rápido possível”.

Prototipando conversas de VUI com fluxos de diálogo

Os designers de prototipagem precisam pensar como um roteirista e projetar fluxos de diálogo para cada um desses requisitos. Um fluxo de diálogo é uma entrega que descreve o seguinte:

  • Palavras-chave que levam à interação
  • Ramos que representam para onde a conversa pode levar
  • Diálogos de exemplo para o usuário e o assistente

Um fluxo de diálogo é um script que ilustra a conversa entre o usuário e o assistente de voz. Um fluxo de diálogo é como um protótipo e pode ser representado como uma ilustração (como no exemplo abaixo), ou existem aplicativos de prototipagem que podem ser usados ​​para criar fluxos de diálogo.

Uma ilustração de um fluxo de diálogo para design VUI
Um fluxo de diálogo de amostra que ilustra a intenção, o slot e a conversa geral.

Aplicativos para prototipagem de VUIs

Depois de mapear os fluxos de diálogo, você estará pronto para prototipar as interações de voz usando um aplicativo. Algumas ferramentas de prototipagem já entraram no mercado; por exemplo, o Sayspring facilita para os designers a criação de um protótipo funcional para aplicativos da Amazon e do Google habilitados para voz.

Prototipando aplicativos VUI com Sayspring
Sayspring é uma ferramenta que facilita a criação de protótipos de Alexa Skill ou Google Home Action.

A Amazon também oferece seu próprio Alexa Skill Builder, que facilita a criação de novos Alexa Skills pelos designers. O Google oferece um SDK; no entanto, isso é destinado aos desenvolvedores do Google Action . A Apple ainda não lançou sua ferramenta concorrente, mas em breve lançará o SiriKit.

Amazonas
Alexa Skill Builder da Amazon, onde os designers podem prototipar VUIs para dispositivos habilitados para Alexa.

UX Analytics para aplicativos de voz

Depois de lançar uma “habilidade” para o Alexa (ou uma “ação” para o Google), você pode acompanhar como o aplicativo está sendo usado com análises. Ambas as empresas oferecem uma ferramenta de análise integrada; no entanto, você também pode integrar um serviço de terceiros para análises mais elaboradas (como voicelabs.co para Amazon Alexa ou dashbot.io para Google Assistant). Algumas das principais métricas a serem observadas são:

  • Métricas de engajamento, como sessões por usuário ou mensagens por sessão
  • Idiomas usados
  • Fluxos de comportamento
  • Mensagens, intenções e enunciados

Alexa
O Alexa Metrics Dashboard da Amazon mostra métricas como sessões, enunciados e intenções.

Dicas práticas para design VUI

Mantenha a comunicação simples e conversacional

Ao projetar aplicativos móveis e sites, os designers precisam pensar sobre quais informações são primárias e quais são secundárias (ou seja, não tão importantes). Os usuários não querem se sentir sobrecarregados, mas, ao mesmo tempo, precisam de informações suficientes para concluir sua tarefa.

Com a voz, os designers precisam ser ainda mais cuidadosos porque as palavras (e talvez uma GUI relativamente simples) são tudo o que há para se comunicar. Isso torna especialmente difícil no caso de transmitir informações e dados complexos. Isso significa que menos palavras são melhores, e os designers precisam garantir que o aplicativo atenda ao objetivo dos usuários e permaneça estritamente conversacional.

Confirmar quando uma tarefa foi concluída

Ao projetar um fluxo de checkout de comércio eletrônico, uma das telas principais será a confirmação final. Isso permite que o cliente saiba que a transação foi registrada com sucesso.

O mesmo conceito se aplica ao design VUI. Por exemplo, se um usuário estivesse na sala pedindo ao seu assistente de voz para desligar as luzes do banheiro, sem uma confirmação, ele precisaria entrar na sala e verificar, derrotando o objeto de um “hands-off ” aplicativo VUI inteiramente.

Nesse cenário, uma resposta “Luzes do banheiro desligadas” funcionará bem.

Crie uma estratégia de erro forte

Como designer de VUI, é importante ter uma forte estratégia de erro. Sempre projete para o cenário em que o assistente não entende ou não ouve nada. A análise também pode ser usada para identificar curvas erradas e interpretações errôneas para que a estratégia de erro possa ser aprimorada.

Algumas das principais perguntas a serem feitas ao verificar se há caixas de diálogo alternativas:

  • Você identificou o objetivo da interação?
  • A IA pode interpretar as informações faladas pelo usuário?
  • A IA exige mais informações do usuário para atender à solicitação?
  • Somos capazes de entregar o que o usuário pediu?

Adicione uma camada extra de segurança

Google Assistant, Siri e Alexa agora podem reconhecer vozes individuais. Isso adiciona uma camada de segurança semelhante ao Face ID ou Touch ID. O software de reconhecimento de voz está melhorando constantemente e está se tornando cada vez mais difícil imitar a voz; no entanto, neste momento, pode não ser suficientemente seguro e uma autenticação adicional pode ser necessária. Ao trabalhar com dados confidenciais, os designers podem precisar incluir uma etapa extra de autenticação, como impressão digital, senha ou reconhecimento facial. Isso é especialmente verdadeiro no caso de mensagens pessoais e pagamentos.

Assistente de voz Duer com software de reconhecimento facial
O assistente de voz Duer do Baidu é usado em vários restaurantes KFC e usa o reconhecimento facial para fazer sugestões de refeições com base na idade ou em pedidos anteriores.

O alvorecer da revolução VUI

As VUIs vieram para ficar e serão integradas em cada vez mais produtos nos próximos anos. Alguns preveem que não usaremos teclados em 10 anos para interagir com computadores.

Ainda assim, quando pensamos em “experiência do usuário”, tendemos a pensar no que podemos ver e tocar. Como consequência, a voz como método de interação raramente é considerada. No entanto, voz e recursos visuais não são mutuamente exclusivos ao projetar experiências do usuário – ambos agregam valor.

A pesquisa do usuário precisa responder à pergunta sobre se a voz melhorará ou não o UX e, considerando a rapidez com que a participação de mercado para dispositivos habilitados para voz está aumentando, fazer essa pesquisa pode valer a pena e aumentar significativamente o valor e a qualidade de um aplicativo.

• • •

Leia mais no Blog Toptal Design:

  • eCommerce UX – Uma visão geral das melhores práticas (com infográfico)
  • A Importância do Design Centrado no Homem no Design de Produto
  • Os melhores portfólios de UX Designer – Estudos de caso e exemplos inspiradores
  • Princípios heurísticos para interfaces móveis
  • Design Antecipatório: Como criar experiências de usuário mágicas