Проектирование VUI — голосового пользовательского интерфейса

Опубликовано: 2022-03-11

Все больше и больше устройств с голосовым управлением, таких как Apple HomePod, Google Home и Amazon Echo, штурмуют рынок. Голосовые пользовательские интерфейсы помогают улучшить все виды пользовательского опыта, и некоторые считают, что к 2020 году голос будет обеспечивать 50% всех поисковых запросов.

Искусственный интеллект с поддержкой голоса может позаботиться практически обо всем в одно мгновение.

  • «Что дальше в моем календаре?»
  • «Закажите мне такси до Оксфорд-стрит».
  • «Включи мне джаз на Spotify!»

Все пять технологических компаний «большой пятерки» — Microsoft, Google, Amazon, Apple и Facebook — разработали (или в настоящее время разрабатывают) голосовых помощников с искусственным интеллектом. Siri, ИИ-помощник для устройств Apple iOS и HomePod, ежемесячно помогает более 40 миллионам пользователей, и, по данным ComScore, сегодня каждая десятая семья в США уже владеет умной колонкой.

Говорим ли мы о VUI (голосовых пользовательских интерфейсах) для мобильных приложений или для умных домашних динамиков, голосовые взаимодействия становятся все более распространенными в современных технологиях, особенно с учетом того, что усталость экрана вызывает беспокойство.

Амазонка
Echo Spot — это новейшая умная колонка Amazon, которая сочетает в себе VUI и GUI, сравнимый с Echo Show.

Что пользователи могут делать с помощью голосовых команд?

Alexa — это ИИ-помощник для голосовых устройств Amazon, таких как умная колонка Echo и планшет Kindle Fire. В настоящее время Amazon лидирует в области голосовых технологий (с точки зрения продаж).

В магазине Alexa некоторые из самых модных приложений (называемых «навыками») ориентированы на развлечения, перевод и новости, хотя пользователи также могут выполнять такие действия, как заказ поездки с помощью навыка Uber, воспроизведение музыки с помощью навыка Spotify или даже заказать пиццу с помощью навыка Домино.

Еще один интересный пример исходит от коммерческого банка Capital One, который представил навык Alexa в 2016 году и стал первым банком, сделавшим это. Добавляя навык Capital One через Alexa, клиенты могут проверять свой баланс и сроки погашения и даже оплачивать счета по кредитной карте. PayPal продвинул эту концепцию на шаг вперед, позволив пользователям совершать платежи через Siri либо на iOS, либо на Apple HomePod, а также есть навык Alexa для PayPal, который может это сделать.

Но то, что могут делать VUI, и то, для чего пользователи на самом деле их используют, — это две разные вещи.

ComScore заявил, что более половины пользователей, владеющих смарт-динамиком, используют свое устройство для того, чтобы задавать общие вопросы, узнавать погоду и слушать музыку в потоковом режиме, а затем управлять своим будильником, списком дел и календарем (обратите внимание, что эти задачи довольно просты). основной по своей природе).

Как видите, многие из этих задач включают в себя задавание вопроса (например, голосовой поиск).

Статистика использования умных динамиков в США
Использование умных динамиков в США по данным ComScore.

Что пользователи ищут с помощью голосового поиска?

Люди в основном используют голосовой поиск во время вождения, хотя любая ситуация, когда пользователь не может прикоснуться к экрану (например, во время приготовления пищи или занятий спортом, или при попытке одновременного выполнения нескольких задач на работе), дает возможность для голосового взаимодействия. Вот полная разбивка по HigherVisibility.

Голосовое приложение Android Auto и голосовой пользовательский интерфейс
Благодаря Google Assistant и Android Auto получать обновления трафика в режиме реального времени во время вождения становится намного проще.

Проведение исследований пользователей для голосовых пользовательских интерфейсов

Хотя полезно знать, как пользователи обычно используют голос, для дизайнеров UX важно проводить собственное исследование пользователей, специфичное для приложения VUI, которое они разрабатывают.

Карта пути клиента

Исследование пользователей заключается в понимании потребностей, поведения и мотивации пользователя посредством наблюдения и обратной связи. Карта пути клиента, включающая голос как канал, может не только помочь исследователям пользовательского опыта определить потребности пользователей на различных этапах взаимодействия, но также помочь им увидеть, как и где голос может быть методом взаимодействия.

В сценарии, когда карта пути клиента еще не создана, дизайнер должен выделить, где голосовое взаимодействие будет влиять на пользовательский поток (это может быть выделено как возможность, канал или точка взаимодействия). Если для бизнеса уже существует карта пути клиента, дизайнеры должны посмотреть, можно ли улучшить поток пользователей с помощью голосового взаимодействия.

Например, если клиенты всегда задают определенный вопрос в социальных сетях или в чате службы поддержки, возможно, это разговор, который можно интегрировать в голосовое приложение.

Короче говоря, дизайн должен решать проблемы. С какими трениями и разочарованиями сталкиваются пользователи во время пути клиента?

Анализ конкурентов VUI

С помощью анализа конкурентов дизайнеры должны попытаться выяснить, внедряют ли конкуренты голосовое взаимодействие и каким образом. Ключевые вопросы, которые следует задать:

  • Каков вариант использования их приложения?
  • Какие голосовые команды они используют?
  • Что говорят клиенты в отзывах о приложении и что мы можем из этого извлечь?

Требуются штатные внештатные дизайнеры пользовательского интерфейса из США ### Сбор требований

Чтобы спроектировать приложение голосового пользовательского интерфейса, нам сначала нужно определить требования пользователей. Помимо создания карты пути клиента и проведения анализа конкурентов (как упоминалось выше), могут быть полезны и другие исследовательские действия, такие как интервью и тестирование пользователей.

Для дизайна VUI эти письменные требования тем более важны, поскольку они охватывают большую часть спецификаций дизайна для разработчиков. Первый шаг — зафиксировать различные сценарии, прежде чем превратить их в диалоговый поток между пользователем и голосовым помощником.

Пример пользовательской истории для новостного приложения может быть таким:

«Как пользователь, я хочу, чтобы голосовой помощник читал последние новостные статьи, чтобы я мог быть в курсе того, что происходит, не глядя на экран».

Имея в виду эту пользовательскую историю, мы можем разработать для нее поток диалогов.

выдача голосовой команды для пользовательского интерфейса с голосовым управлением

Анатомия голосовой команды

Прежде чем можно будет создать диалоговый поток, дизайнеры должны сначала понять анатомию голосовой команды. При разработке VUI разработчики постоянно должны думать о цели голосовых взаимодействий (т. е. о том, что пользователь пытается выполнить в этом сценарии? ).

Голосовая команда пользователя состоит из трех ключевых факторов: намерения , произнесения и слота .

Давайте проанализируем следующий запрос: «Включи расслабляющую музыку на Spotify».

Намерение (цель голосового взаимодействия)

Намерение представляет собой более широкую цель голосовой команды пользователя, и это может быть взаимодействие с низкой или высокой полезностью .

Взаимодействие с высокой полезностью связано с выполнением очень специфической задачи, например, с просьбой выключить свет в гостиной или установить в душе определенную температуру. Разработка этих запросов проста, поскольку очень ясно, что ожидается от помощника ИИ.

Запросы с низкой полезностью более расплывчаты и их труднее расшифровать. Например, если пользователь хотел бы узнать больше об Амстердаме, мы сначала хотели бы проверить, соответствует ли это объему услуги, а затем задать пользователю дополнительные вопросы, чтобы лучше понять запрос.

В данном примере намерение очевидно: пользователь хочет слушать музыку.

Произношение (как пользователь формулирует команду)

Высказывание отражает то, как пользователь формулирует свой запрос. В данном примере мы знаем, что пользователь хочет воспроизвести музыку на Spotify, сказав «Включи меня…», но это не единственный способ, которым пользователь может сделать этот запрос. Например, пользователь также может сказать: «Я хочу послушать музыку…».

Дизайнеры должны учитывать каждую вариацию высказывания. Это поможет механизму ИИ распознать запрос и связать его с правильным действием или ответом.

Слоты (обязательные или необязательные переменные)

Иногда одного намерения недостаточно, и для выполнения запроса от пользователя требуется дополнительная информация. Alexa называет это «слотом», а слоты похожи на традиционные поля формы в том смысле, что они могут быть необязательными или обязательными, в зависимости от того, что необходимо для выполнения запроса.

В нашем случае слот «расслабляющий», но так как запрос все равно можно выполнить без него, этот слот необязателен. Однако в случае, если пользователь хочет заказать такси, слот будет пунктом назначения, и он будет необходим. Необязательные входные данные перезаписывают любые значения по умолчанию; например, пользователь, запрашивающий такси в 16:00, перезапишет значение по умолчанию «как можно скорее».

Прототип диалогов VUI с диалоговыми потоками

Разработчики прототипов должны думать как сценаристы и проектировать диалоговые потоки для каждого из этих требований. Диалоговый поток — это результат, который описывает следующее:

  • Ключевые слова, которые приводят к взаимодействию
  • Ветви, которые представляют, к чему может привести разговор
  • Примеры диалогов для пользователя и помощника

Диалоговый поток — это сценарий, иллюстрирующий двусторонний диалог между пользователем и голосовым помощником. Диалоговый поток похож на прототип, и его можно изобразить в виде иллюстрации (как в примере ниже), или существуют приложения для прототипирования, которые можно использовать для создания диалоговых потоков.

Иллюстрация диалогового потока для дизайна VUI
Образец диалогового потока, иллюстрирующий намерение, слот и общий разговор.

Приложения для прототипирования VUI

После того, как вы наметили диалоговые потоки, вы готовы создать прототип голосового взаимодействия с помощью приложения. Несколько инструментов прототипирования уже вышли на рынок; например, Sayspring позволяет дизайнерам легко создавать рабочие прототипы голосовых приложений Amazon и Google.

Прототип приложений VUI с помощью Sayspring
Sayspring — это инструмент, который позволяет легко создавать прототипы Alexa Skill или Google Home Action.

Amazon также предлагает собственный Alexa Skill Builder, который позволяет дизайнерам легко создавать новые Alexa Skills. Google предлагает SDK; однако это предназначено для разработчиков Google Action. Apple еще не запустила свой конкурирующий инструмент, но скоро запустит SiriKit.

Амазонка
Alexa Skill Builder от Amazon, где дизайнеры могут создавать прототипы VUI для устройств с поддержкой Alexa.

UX-аналитика для голосовых приложений

После того, как вы развернули «навык» для Alexa (или «действие» для Google), вы можете отслеживать, как приложение используется с помощью аналитики. Обе компании предлагают встроенный инструмент аналитики; однако вы также можете интегрировать сторонний сервис для более сложной аналитики (например, voicelabs.co для Amazon Alexa или dashbot.io для Google Assistant). Вот некоторые из ключевых показателей, на которые следует обратить внимание:

  • Метрики взаимодействия, такие как количество сеансов на пользователя или количество сообщений на сеанс.
  • Используемые языки
  • Поведенческие потоки
  • Сообщения, намерения и высказывания

Алекса
На панели Amazon Alexa Metrics Dashboard отображаются такие показатели, как сеансы, высказывания и намерения.

Практические советы по дизайну VUI

Держите общение простым и разговорным

При разработке мобильных приложений и веб-сайтов дизайнеры должны думать о том, какая информация является первичной, а какая вторичной (т. е. не столь важной). Пользователи не хотят чувствовать себя перегруженными, но в то же время им нужно достаточно информации для выполнения своей задачи.

С голосом дизайнеры должны быть еще более осторожными, потому что слова (и, возможно, относительно простой графический интерфейс) — это все, с чем можно общаться. Это особенно затрудняет передачу сложной информации и данных. Это означает, что чем меньше слов, тем лучше, и дизайнеры должны убедиться, что приложение соответствует цели пользователя и остается строго диалоговым.

Подтвердить выполнение задачи

При разработке процесса оформления заказа в электронной коммерции один из ключевых экранов будет окончательным подтверждением. Это позволяет клиенту знать, что транзакция была успешно зарегистрирована.

Та же концепция применима к дизайну VUI. Например, если пользователь находится в гостиной и просит своего голосового помощника выключить свет в ванной без подтверждения, ему нужно будет пройти в гостиную и проверить, преодолев объект «невмешательства». Приложение VUI полностью.

В этом случае подойдет ответ «Свет в ванной выключен».

Создайте сильную стратегию ошибок

Как разработчику VUI важно иметь сильную стратегию ошибок. Всегда проектируйте сценарий, в котором помощник ничего не понимает или вообще ничего не слышит. Аналитику также можно использовать для выявления неправильных поворотов и неправильных толкований, чтобы можно было улучшить стратегию ошибок.

Некоторые из ключевых вопросов, которые следует задать при проверке альтернативных диалогов:

  • Вы определили цель взаимодействия?
  • Может ли ИИ интерпретировать информацию, произнесенную пользователем?
  • Требует ли ИИ больше информации от пользователя, чтобы выполнить запрос?
  • Можем ли мы предоставить то, что просил пользователь?

Добавьте дополнительный уровень безопасности

Google Assistant, Siri и Alexa теперь могут распознавать отдельные голоса. Это добавляет уровень безопасности, аналогичный Face ID или Touch ID. Программное обеспечение для распознавания голоса постоянно совершенствуется, и имитировать голос становится все труднее; однако в данный момент он может быть недостаточно безопасным, и может потребоваться дополнительная аутентификация. При работе с конфиденциальными данными разработчикам может потребоваться дополнительный этап аутентификации, такой как отпечаток пальца, пароль или распознавание лица. Особенно это касается личных сообщений и платежей.

Голосовой помощник Duer с программным обеспечением для распознавания лиц
Голосовой помощник Baidu Duer используется в нескольких ресторанах KFC и использует распознавание лиц, чтобы предлагать блюда в зависимости от возраста или предыдущих заказов.

Рассвет революции VUI

VUI никуда не денутся, и в ближайшие годы они будут интегрированы во все больше и больше продуктов. Некоторые предсказывают, что через 10 лет мы не будем использовать клавиатуру для взаимодействия с компьютерами.

Тем не менее, когда мы думаем о «пользовательском опыте», мы склонны думать о том, что мы можем увидеть и потрогать. Как следствие, голос как метод взаимодействия редко рассматривается. Тем не менее, голос и визуальные эффекты не исключают друг друга при разработке пользовательского опыта — они оба добавляют ценность.

Исследование пользователей должно ответить на вопрос, улучшит ли голос UX, и, учитывая, как быстро растет доля рынка голосовых устройств, проведение этого исследования может стоить потраченного времени и значительно повысить ценность и качество приложение.

• • •

Дальнейшее чтение в блоге Toptal Design:

  • UX электронной коммерции — обзор лучших практик (с инфографикой)
  • Важность ориентированного на человека дизайна в дизайне продукта
  • Лучшие портфолио дизайнеров UX — вдохновляющие тематические исследования и примеры
  • Эвристические принципы для мобильных интерфейсов
  • Упреждающий дизайн: как создать волшебный пользовательский опыт