Projetando uma VUI – Interface de usuário de voz
Publicados: 2022-03-11Mais e mais dispositivos controlados por voz, como o Apple HomePod, Google Home e Amazon Echo, estão invadindo o mercado. As interfaces de usuário de voz estão ajudando a melhorar todos os tipos de experiências de usuário diferentes, e alguns acreditam que a voz alimentará 50% de todas as pesquisas até 2020.
A IA habilitada por voz pode cuidar de quase tudo em um instante.
- "O que vem a seguir no meu Calendário?"
- “Agende-me um táxi para Oxford Street.”
- “Toque-me um pouco de Jazz no Spotify!”
Todas as cinco empresas de tecnologia “Big Five” – Microsoft, Google, Amazon, Apple e Facebook – desenvolveram (ou estão desenvolvendo) assistentes de IA habilitados para voz. Siri, o assistente de IA para dispositivos Apple iOS e HomePod, está ajudando mais de 40 milhões de usuários por mês e, de acordo com a ComScore, uma em cada 10 residências nos EUA já possui um alto-falante inteligente hoje.
Quer estejamos falando de VUIs (Voice User Interfaces) para aplicativos móveis ou para alto-falantes domésticos inteligentes, as interações de voz estão se tornando mais comuns na tecnologia atual, especialmente porque a fadiga da tela é uma preocupação.
O que os usuários podem fazer com comandos de voz?
Alexa é o assistente de IA para dispositivos Amazon habilitados para voz, como o alto-falante inteligente Echo e o tablet Kindle Fire - a Amazon está atualmente liderando o caminho com tecnologia de voz (em termos de vendas).
Na loja Alexa, alguns dos aplicativos mais modernos (chamados de “habilidades”) são focados em entretenimento, tradução e notícias, embora os usuários também possam realizar ações como solicitar uma carona pela habilidade Uber, tocar algumas músicas pela habilidade Spotify ou até mesmo pedir uma pizza através da habilidade do Domino.
Outro exemplo interessante vem do banco comercial Capital One, que introduziu uma habilidade Alexa em 2016 e foi o primeiro banco a fazê-lo. Ao adicionar a habilidade Capital One via Alexa, os clientes podem verificar seu saldo e datas de vencimento e até mesmo liquidar sua fatura de cartão de crédito. O PayPal levou o conceito um passo adiante, permitindo que os usuários fizessem pagamentos via Siri no iOS ou no Apple HomePod, e também há uma habilidade do Alexa para o PayPal que pode fazer isso.
Mas o que as VUIs podem fazer e para que os usuários realmente as estão usando são duas coisas diferentes.
A ComScore afirmou que mais da metade dos usuários que possuem um alto-falante inteligente usam seu dispositivo para fazer perguntas gerais, verificar o clima e transmitir música, seguidos de perto pelo gerenciamento de alarme, lista de tarefas e calendário (observe que essas tarefas são bastante básico por natureza).
Como você pode ver, muitas dessas tarefas envolvem fazer uma pergunta (ou seja, pesquisa por voz).
O que os usuários pesquisam com a pesquisa por voz?
As pessoas usam principalmente a pesquisa por voz ao dirigir, embora qualquer situação em que o usuário não consiga tocar uma tela (por exemplo, ao cozinhar ou se exercitar, ou ao tentar realizar várias tarefas no trabalho) oferece uma oportunidade para interações por voz. Aqui está o detalhamento completo da HigherVisibility.
Realização de pesquisas de usuários para interfaces de usuário de voz
Embora seja útil saber como os usuários geralmente usam a voz, é importante que os designers de UX conduzam sua própria pesquisa de usuário específica para o aplicativo VUI que estão projetando.
Mapeamento da jornada do cliente
A pesquisa do usuário é sobre a compreensão das necessidades, comportamentos e motivações do usuário por meio de observação e feedback. Um mapa de jornada do cliente que inclua a voz como canal pode não apenas ajudar os pesquisadores de experiência do usuário a identificar as necessidades dos usuários nos vários estágios de engajamento, mas também ajudá-los a ver como e onde a voz pode ser um método de interação.
No cenário em que um mapa de jornada do cliente ainda não foi criado, o designer deve destacar onde as interações de voz afetariam o fluxo do usuário (isso pode ser destacado como uma oportunidade, um canal ou um ponto de contato). Se já existe um mapa de jornada do cliente para a empresa, os designers devem ver se o fluxo do usuário pode ser melhorado com interações de voz.
Por exemplo, se os clientes estão sempre fazendo uma determinada pergunta via mídia social ou chat de suporte ao vivo, talvez seja uma conversa que possa ser integrada ao aplicativo de voz.
Em suma, o design deve resolver problemas. Quais atritos e frustrações os usuários encontram durante a jornada do cliente?
Análise do Concorrente da VUI
Por meio da análise da concorrência, os designers devem tentar descobrir se e como os concorrentes estão implementando interações de voz. As principais perguntas a serem feitas são:
- Qual é o caso de uso para o aplicativo deles?
- Quais comandos de voz eles usam?
- O que os clientes estão dizendo nas avaliações do aplicativo e o que podemos aprender com isso?
### Levantamento de requisitos
Para projetar um aplicativo de interface de usuário de voz, primeiro precisamos definir os requisitos dos usuários. Além de criar um mapa de jornada do cliente e realizar análises de concorrentes (como mencionado acima), outras atividades de pesquisa, como entrevistas e testes de usuários, também podem ser úteis.
Para o design VUI, esses requisitos escritos são ainda mais importantes, pois abrangem a maioria das especificações de design para desenvolvedores. O primeiro passo é capturar os diferentes cenários antes de transformá-los em um fluxo de diálogo conversacional entre o usuário e o assistente de voz.
Um exemplo de história de usuário para o aplicativo de notícias pode ser:
“Como usuário, quero que o assistente de voz leia os artigos de notícias mais recentes para que eu possa estar atualizado sobre o que está acontecendo sem ter que olhar para minha tela.”
Com essa história de usuário em mente, podemos projetar um fluxo de diálogo para ela.
A anatomia de um comando de voz
Antes que um fluxo de diálogo possa ser criado, os designers primeiro precisam entender a anatomia de um comando de voz. Ao projetar VUIs, os designers precisam pensar constantemente sobre o objetivo das interações de voz (ou seja, o que o usuário está tentando realizar neste cenário? ).
O comando de voz de um usuário consiste em três fatores principais: a intenção , o enunciado e o slot .
Vamos analisar a seguinte solicitação: “Toque uma música relaxante no Spotify”.
Intenção (o objetivo da interação de voz)
A intenção representa o objetivo mais amplo do comando de voz de um usuário, e isso pode ser uma interação de baixa ou alta utilidade .
Uma interação de alta utilidade diz respeito à execução de uma tarefa muito específica, como solicitar que as luzes da sala de estar sejam desligadas ou que o chuveiro tenha uma determinada temperatura. Projetar essas solicitações é simples, pois fica muito claro o que se espera do assistente de IA.
As solicitações de baixa utilidade são mais vagas e mais difíceis de decifrar. Por exemplo, se o usuário quiser saber mais sobre Amsterdã, primeiro gostaríamos de verificar se isso se encaixa ou não no escopo do serviço e, em seguida, fazer mais perguntas ao usuário para entender melhor a solicitação.
No exemplo dado, a intenção é evidente: o usuário quer ouvir música.
Enunciado (como o usuário formula um comando)
Um enunciado reflete como o usuário formula sua solicitação. No exemplo dado, sabemos que o usuário quer tocar música no Spotify dizendo "Toque-me...", mas essa não é a única maneira de um usuário fazer essa solicitação. Por exemplo, o usuário também pode dizer: “Quero ouvir música…”.

Os designers precisam considerar todas as variações do enunciado. Isso ajudará o mecanismo de IA a reconhecer a solicitação e vinculá-la à ação ou resposta correta.
Slots (as variáveis obrigatórias ou opcionais)
Às vezes, uma intenção por si só não é suficiente e mais informações são necessárias do usuário para atender à solicitação. Alexa chama isso de "slot", e os slots são como campos de formulário tradicionais no sentido de que podem ser opcionais ou obrigatórios, dependendo do que é necessário para concluir a solicitação.
No nosso caso, o slot é "relaxante", mas como a solicitação ainda pode ser concluída sem ele, esse slot é opcional. No entanto, caso o usuário queira reservar um táxi, o slot seria o destino, e seria necessário. As entradas opcionais substituem quaisquer valores padrão; por exemplo, um usuário solicitando que um táxi chegue às 16h substituiria o valor padrão de “o mais rápido possível”.
Prototipando conversas de VUI com fluxos de diálogo
Os designers de prototipagem precisam pensar como um roteirista e projetar fluxos de diálogo para cada um desses requisitos. Um fluxo de diálogo é uma entrega que descreve o seguinte:
- Palavras-chave que levam à interação
- Ramos que representam para onde a conversa pode levar
- Diálogos de exemplo para o usuário e o assistente
Um fluxo de diálogo é um script que ilustra a conversa entre o usuário e o assistente de voz. Um fluxo de diálogo é como um protótipo e pode ser representado como uma ilustração (como no exemplo abaixo), ou existem aplicativos de prototipagem que podem ser usados para criar fluxos de diálogo.
Aplicativos para prototipagem de VUIs
Depois de mapear os fluxos de diálogo, você estará pronto para prototipar as interações de voz usando um aplicativo. Algumas ferramentas de prototipagem já entraram no mercado; por exemplo, o Sayspring facilita para os designers a criação de um protótipo funcional para aplicativos da Amazon e do Google habilitados para voz.
A Amazon também oferece seu próprio Alexa Skill Builder, que facilita a criação de novos Alexa Skills pelos designers. O Google oferece um SDK; no entanto, isso é destinado aos desenvolvedores do Google Action . A Apple ainda não lançou sua ferramenta concorrente, mas em breve lançará o SiriKit.
UX Analytics para aplicativos de voz
Depois de lançar uma “habilidade” para o Alexa (ou uma “ação” para o Google), você pode acompanhar como o aplicativo está sendo usado com análises. Ambas as empresas oferecem uma ferramenta de análise integrada; no entanto, você também pode integrar um serviço de terceiros para análises mais elaboradas (como voicelabs.co para Amazon Alexa ou dashbot.io para Google Assistant). Algumas das principais métricas a serem observadas são:
- Métricas de engajamento, como sessões por usuário ou mensagens por sessão
- Idiomas usados
- Fluxos de comportamento
- Mensagens, intenções e enunciados
Dicas práticas para design VUI
Mantenha a comunicação simples e conversacional
Ao projetar aplicativos móveis e sites, os designers precisam pensar sobre quais informações são primárias e quais são secundárias (ou seja, não tão importantes). Os usuários não querem se sentir sobrecarregados, mas, ao mesmo tempo, precisam de informações suficientes para concluir sua tarefa.
Com a voz, os designers precisam ser ainda mais cuidadosos porque as palavras (e talvez uma GUI relativamente simples) são tudo o que há para se comunicar. Isso torna especialmente difícil no caso de transmitir informações e dados complexos. Isso significa que menos palavras são melhores, e os designers precisam garantir que o aplicativo atenda ao objetivo dos usuários e permaneça estritamente conversacional.
Confirmar quando uma tarefa foi concluída
Ao projetar um fluxo de checkout de comércio eletrônico, uma das telas principais será a confirmação final. Isso permite que o cliente saiba que a transação foi registrada com sucesso.
O mesmo conceito se aplica ao design VUI. Por exemplo, se um usuário estivesse na sala pedindo ao seu assistente de voz para desligar as luzes do banheiro, sem uma confirmação, ele precisaria entrar na sala e verificar, derrotando o objeto de um “hands-off ” aplicativo VUI inteiramente.
Nesse cenário, uma resposta “Luzes do banheiro desligadas” funcionará bem.
Crie uma estratégia de erro forte
Como designer de VUI, é importante ter uma forte estratégia de erro. Sempre projete para o cenário em que o assistente não entende ou não ouve nada. A análise também pode ser usada para identificar curvas erradas e interpretações errôneas para que a estratégia de erro possa ser aprimorada.
Algumas das principais perguntas a serem feitas ao verificar se há caixas de diálogo alternativas:
- Você identificou o objetivo da interação?
- A IA pode interpretar as informações faladas pelo usuário?
- A IA exige mais informações do usuário para atender à solicitação?
- Somos capazes de entregar o que o usuário pediu?
Adicione uma camada extra de segurança
Google Assistant, Siri e Alexa agora podem reconhecer vozes individuais. Isso adiciona uma camada de segurança semelhante ao Face ID ou Touch ID. O software de reconhecimento de voz está melhorando constantemente e está se tornando cada vez mais difícil imitar a voz; no entanto, neste momento, pode não ser suficientemente seguro e uma autenticação adicional pode ser necessária. Ao trabalhar com dados confidenciais, os designers podem precisar incluir uma etapa extra de autenticação, como impressão digital, senha ou reconhecimento facial. Isso é especialmente verdadeiro no caso de mensagens pessoais e pagamentos.
O alvorecer da revolução VUI
As VUIs vieram para ficar e serão integradas em cada vez mais produtos nos próximos anos. Alguns preveem que não usaremos teclados em 10 anos para interagir com computadores.
Ainda assim, quando pensamos em “experiência do usuário”, tendemos a pensar no que podemos ver e tocar. Como consequência, a voz como método de interação raramente é considerada. No entanto, voz e recursos visuais não são mutuamente exclusivos ao projetar experiências do usuário – ambos agregam valor.
A pesquisa do usuário precisa responder à pergunta sobre se a voz melhorará ou não o UX e, considerando a rapidez com que a participação de mercado para dispositivos habilitados para voz está aumentando, fazer essa pesquisa pode valer a pena e aumentar significativamente o valor e a qualidade de um aplicativo.
• • •
Leia mais no Blog Toptal Design:
- eCommerce UX – Uma visão geral das melhores práticas (com infográfico)
- A Importância do Design Centrado no Homem no Design de Produto
- Os melhores portfólios de UX Designer – Estudos de caso e exemplos inspiradores
- Princípios heurísticos para interfaces móveis
- Design Antecipatório: Como criar experiências de usuário mágicas