Projektowanie VUI – głosowy interfejs użytkownika

Opublikowany: 2022-03-11

Coraz więcej urządzeń sterowanych głosem, takich jak Apple HomePod, Google Home i Amazon Echo, szturmuje rynek. Głosowe interfejsy użytkownika pomagają ulepszyć wszelkiego rodzaju doświadczenia użytkowników, a niektórzy uważają, że do 2020 r. głos będzie obsługiwał 50% wszystkich wyszukiwań.

Sztuczna inteligencja z obsługą głosową może zająć się niemal wszystkim w jednej chwili.

  • „Co dalej w moim kalendarzu?”
  • „Zarezerwuj mi taksówkę na Oxford Street”.
  • „Włącz mi jazz na Spotify!”

Wszystkie pięć firm technologicznych „wielkiej piątki” — Microsoft, Google, Amazon, Apple i Facebook — opracowało (lub obecnie opracowują) asystentów sztucznej inteligencji z obsługą głosową. Siri, asystent AI dla urządzeń Apple iOS i HomePod, pomaga ponad 40 milionom użytkowników miesięcznie, a według ComScore, jedno na 10 gospodarstw domowych w USA posiada już dziś inteligentny głośnik.

Niezależnie od tego, czy mówimy o VUI (Voice User Interfaces) dla aplikacji mobilnych, czy o inteligentnych głośnikach domowych, interakcje głosowe stają się coraz bardziej powszechne w dzisiejszej technologii, zwłaszcza że problemem jest zmęczenie ekranu.

Amazonka
Echo Spot to najnowszy inteligentny głośnik Amazon, który łączy VUI z graficznym interfejsem użytkownika, porównywalnym do Echo Show.

Co użytkownicy mogą zrobić za pomocą poleceń głosowych?

Alexa jest asystentką AI dla urządzeń Amazon obsługujących głos, takich jak inteligentny głośnik Echo i tablet Kindle Fire — Amazon jest obecnie liderem w dziedzinie technologii głosowej (pod względem sprzedaży).

W sklepie Alexa niektóre z najmodniejszych aplikacji (zwanych „umiejętnościami”) koncentrują się na rozrywce, tłumaczeniu i wiadomościach, chociaż użytkownicy mogą również wykonywać czynności, takie jak żądanie przejazdu za pomocą umiejętności Uber, odtwarzanie muzyki za pomocą umiejętności Spotify lub nawet zamów pizzę za pomocą umiejętności Domino.

Inny interesujący przykład pochodzi z banku komercyjnego Capital One, który wprowadził umiejętność Alexa w 2016 roku i był pierwszym bankiem, który to zrobił. Dodając umiejętność Capital One za pośrednictwem Alexy, klienci mogą sprawdzić saldo i terminy płatności, a nawet uregulować rachunek z karty kredytowej. PayPal posunął tę koncepcję o krok dalej, umożliwiając użytkownikom dokonywanie płatności za pośrednictwem Siri na iOS lub Apple HomePod, a PayPal ma również umiejętność Alexa, która może to osiągnąć.

Ale to, co potrafią VUI i do czego faktycznie używają ich użytkownicy, to dwie różne rzeczy.

ComScore stwierdził, że ponad połowa użytkowników posiadających inteligentny głośnik używa ich do zadawania ogólnych pytań, sprawdzania pogody i przesyłania strumieniowego muzyki, a następnie uważnie zarządza alarmem, listą rzeczy do zrobienia i kalendarzem (należy pamiętać, że te zadania są dość podstawowe z natury).

Jak widać, wiele z tych zadań wiąże się z zadawaniem pytania (np. wyszukiwanie głosowe).

Statystyki użytkowania inteligentnych głośników w USA
Inteligentne użycie głośników w USA według ComScore.

Czego szukają użytkownicy za pomocą wyszukiwania głosowego?

Ludzie najczęściej używają wyszukiwania głosowego podczas prowadzenia pojazdu, chociaż każda sytuacja, w której użytkownik nie jest w stanie dotknąć ekranu (np. podczas gotowania, ćwiczeń lub podczas wykonywania wielu zadań w pracy), stwarza możliwość interakcji głosowych. Oto pełny podział według wyższej widoczności.

Aplikacja głosowa Android Auto i interfejs użytkownika głosowego
Aktualizacje ruchu drogowego w czasie rzeczywistym stają się dużo łatwiejsze podczas jazdy dzięki Asystentowi Google i Android Auto.

Przeprowadzanie badań użytkowników dla głosowych interfejsów użytkownika

Chociaż dobrze jest wiedzieć, w jaki sposób użytkownicy ogólnie używają głosu, ważne jest, aby projektanci UX przeprowadzili własne badania użytkowników dotyczące projektowanej aplikacji VUI.

Mapowanie podróży klienta

Badania użytkowników polegają na zrozumieniu potrzeb, zachowań i motywacji użytkownika poprzez obserwację i informację zwrotną. Mapa podróży klienta, która obejmuje głos jako kanał, może nie tylko pomóc badaczom doświadczeń użytkowników zidentyfikować potrzeby użytkowników na różnych etapach zaangażowania, ale może również pomóc im zobaczyć, jak i gdzie głos może być metodą interakcji.

W scenariuszu, w którym mapa podróży klienta nie została jeszcze utworzona, projektant powinien wskazać, gdzie interakcje głosowe miałyby wpływ na przepływ użytkownika (może to być wyróżnione jako szansa, kanał lub punkt kontaktu). Jeśli mapa podróży klienta już istnieje dla firmy, projektanci powinni sprawdzić, czy przepływ użytkownika można poprawić za pomocą interakcji głosowych.

Na przykład, jeśli klienci zawsze zadają określone pytanie za pośrednictwem mediów społecznościowych lub czatu wsparcia na żywo, być może jest to rozmowa, którą można zintegrować z aplikacją głosową.

Krótko mówiąc, projektowanie powinno rozwiązywać problemy. Jakie tarcia i frustracje napotykają użytkownicy podczas podróży klienta?

Analiza konkurencji VUI

Poprzez analizę konkurencji projektanci powinni spróbować dowiedzieć się, czy i jak konkurenci wdrażają interakcje głosowe. Kluczowe pytania, które należy zadać, to:

  • Jaki jest przypadek użycia ich aplikacji?
  • Jakich poleceń głosowych używają?
  • Co klienci mówią w recenzjach aplikacji i czego możemy się z tego nauczyć?

Poszukiwani niezależni projektanci UI z siedzibą w USA ### Zbieranie wymagań

Aby zaprojektować aplikację głosowego interfejsu użytkownika, musimy najpierw zdefiniować wymagania użytkowników. Oprócz tworzenia mapy podróży klienta i przeprowadzania analizy konkurencji (jak wspomniano powyżej), przydatne mogą być również inne działania badawcze, takie jak wywiady i testy użytkowników.

W przypadku projektowania VUI te pisemne wymagania są tym ważniejsze, ponieważ obejmują większość specyfikacji projektowych dla programistów. Pierwszym krokiem jest uchwycenie różnych scenariuszy przed przekształceniem ich w dialog między użytkownikiem a asystentem głosowym.

Przykładową historyjką użytkownika dla aplikacji wiadomości może być:

„Jako użytkownik chcę, aby asystent głosowy czytał najnowsze artykuły z wiadomościami, abym mógł być informowany o tym, co się dzieje, bez konieczności patrzenia na ekran”.

Mając na uwadze tę historyjkę użytkownika, możemy zaprojektować dla niej przepływ dialogu.

wydawanie polecenia głosowego dla interfejsu użytkownika sterowanego głosem

Anatomia polecenia głosowego

Zanim będzie można utworzyć przepływ dialogu, projektanci muszą najpierw zrozumieć anatomię polecenia głosowego. Projektując VUI, projektanci muszą stale myśleć o celu interakcji głosowych (tj. Co użytkownik próbuje osiągnąć w tym scenariuszu? ).

Polecenie głosowe użytkownika składa się z trzech kluczowych czynników: intencji , wypowiedzi i slotu .

Przeanalizujmy następujące żądanie: „Włącz relaksującą muzykę w Spotify”.

Intencja (Cel interakcji głosowej)

Intencja reprezentuje szerszy cel polecenia głosowego użytkownika i może to być interakcja o niskiej lub wysokiej użyteczności .

Interakcja o wysokim poziomie użyteczności polega na wykonaniu bardzo konkretnego zadania, na przykład prośbie o wyłączenie świateł w salonie lub ustawienie prysznica w określonej temperaturze. Projektowanie tych żądań jest proste, ponieważ jest bardzo jasne, czego oczekuje się od asystenta AI.

Żądania o niskim poziomie użyteczności są bardziej niejasne i trudniejsze do rozszyfrowania. Na przykład, jeśli użytkownik chciałby dowiedzieć się więcej o Amsterdamie, chcielibyśmy najpierw sprawdzić, czy pasuje to do zakresu usługi, a następnie zadać mu więcej pytań, aby lepiej zrozumieć żądanie.

W podanym przykładzie intencja jest oczywista: użytkownik chce słuchać muzyki.

Wypowiedź (Jak użytkownik formułuje polecenie)

Wypowiedź odzwierciedla sposób, w jaki użytkownik formułuje swoją prośbę. W podanym przykładzie wiemy, że użytkownik chce odtwarzać muzykę w Spotify, mówiąc „Odtwórz mnie…”, ale nie jest to jedyny sposób, w jaki użytkownik może złożyć takie żądanie. Na przykład użytkownik może również powiedzieć „Chcę posłuchać muzyki…”.

Projektanci muszą wziąć pod uwagę każdą odmianę wypowiedzi. Pomoże to silnikowi AI rozpoznać żądanie i powiązać je z właściwą akcją lub odpowiedzią.

Sloty (wymagane lub opcjonalne zmienne)

Czasami sama intencja nie wystarczy i potrzeba więcej informacji od użytkownika, aby spełnić żądanie. Alexa nazywa to „slotem”, a sloty są jak tradycyjne pola formularzy w tym sensie, że mogą być opcjonalne lub wymagane, w zależności od tego, co jest potrzebne do wypełnienia żądania.

W naszym przypadku slot jest „odprężający”, ale ponieważ żądanie może zostać zrealizowane bez niego, ten slot jest opcjonalny. Jednak w przypadku, gdy użytkownik chce zarezerwować taksówkę, slot byłby miejscem docelowym i byłby wymagany. Opcjonalne dane wejściowe zastępują wszelkie wartości domyślne; na przykład użytkownik proszący o przybycie taksówki o 16:00 nadpisałby domyślną wartość „tak szybko, jak to możliwe”.

Prototypowanie konwersacji VUI za pomocą przepływów dialogów

Projektanci prototypów muszą myśleć jak scenarzyści, a dialog projektowy powinien przebiegać dla każdego z tych wymagań. Przepływ dialogu to wynik, który przedstawia następujące elementy:

  • Słowa kluczowe, które prowadzą do interakcji
  • Gałęzie reprezentujące miejsca, do których może prowadzić rozmowa
  • Przykładowe okna dialogowe zarówno dla użytkownika, jak i asystenta

Przepływ dialogu to skrypt, który ilustruje rozmowę w obie strony między użytkownikiem a asystentem głosowym. Przepływ okna dialogowego jest podobny do prototypu i może być przedstawiony jako ilustracja (jak w poniższym przykładzie) lub istnieją aplikacje do prototypowania, których można użyć do tworzenia przepływów okna dialogowego.

Ilustracja przepływu dialogów przy projektowaniu VUI
Przykładowe okno dialogowe ilustrujące zamiar, przedział i ogólną rozmowę.

Aplikacje do prototypowania VUI

Po zmapowaniu przepływów dialogów możesz przygotować prototyp interakcji głosowych za pomocą aplikacji. Na rynek weszło już kilka narzędzi do prototypowania; na przykład Sayspring ułatwia projektantom tworzenie działającego prototypu aplikacji Amazon i Google obsługujących głos.

Prototypowanie aplikacji VUI za pomocą Sayspring
Sayspring to narzędzie, które ułatwia prototypowanie umiejętności Alexa lub Google Home Action.

Amazon oferuje również własny kreator umiejętności Alexa, który ułatwia projektantom tworzenie nowych umiejętności Alexa. Google oferuje pakiet SDK; jednak jest to skierowane do programistów Google Action . Apple nie uruchomiło jeszcze swojego konkurencyjnego narzędzia, ale wkrótce uruchomi SiriKit.

Amazonka
Amazon's Alexa Skill Builder, w którym projektanci mogą tworzyć prototypy VUI dla urządzeń obsługujących Alexa.

Analiza UX dla aplikacji głosowych

Po wdrożeniu „umiejętności” dla Alexy (lub „akcji” dla Google) możesz śledzić, w jaki sposób aplikacja jest używana za pomocą analiz. Obie firmy oferują wbudowane narzędzie analityczne; można jednak również zintegrować usługę innej firmy w celu uzyskania bardziej rozbudowanych analiz (np. voicelabs.co w przypadku Amazon Alexa lub dashbot.io w przypadku Asystenta Google). Niektóre z kluczowych wskaźników, na które należy zwracać uwagę, to:

  • Wskaźniki zaangażowania, takie jak sesje na użytkownika lub wiadomości na sesję
  • Używane języki
  • Przepływy zachowań
  • Wiadomości, intencje i wypowiedzi

Alexa
Pulpit nawigacyjny Alexa Metrics firmy Amazon pokazuje dane, takie jak sesje, wypowiedzi i zamiary.

Praktyczne wskazówki dotyczące projektowania VUI

Utrzymuj komunikację prostą i konwersacyjną

Projektując aplikacje mobilne i strony internetowe, projektanci muszą zastanowić się, jakie informacje są najważniejsze, a jakie drugorzędne (tj. nie tak ważne). Użytkownicy nie chcą czuć się przeciążeni, ale jednocześnie potrzebują wystarczająco dużo informacji, aby wykonać swoje zadanie.

W przypadku głosu projektanci muszą być jeszcze bardziej ostrożni, ponieważ słowa (i być może stosunkowo prosty GUI) to wszystko, z czym można się komunikować. To sprawia, że ​​jest to szczególnie trudne w przypadku przekazywania złożonych informacji i danych. Oznacza to, że mniej słów jest lepszych, a projektanci muszą zadbać o to, aby aplikacja spełniała cel użytkowników i była ściśle konwersacyjna.

Potwierdź zakończenie zadania

Podczas projektowania przepływu kasy eCommerce jednym z kluczowych ekranów będzie ostateczne potwierdzenie. Dzięki temu klient wie, że transakcja została pomyślnie zarejestrowana.

Ta sama koncepcja dotyczy projektowania VUI. Na przykład, jeśli użytkownik był w salonie i prosił swojego asystenta głosowego o wyłączenie światła w łazience, bez potwierdzenia, musiałby wejść do salonu i sprawdzić, pokonując obiekt ” Aplikacja VUI całkowicie.

W tym scenariuszu odpowiedź „Wyłączone światła w łazience” wystarczy.

Stwórz silną strategię błędu

Jako projektant VUI ważne jest, aby mieć silną strategię błędu. Zawsze projektuj scenariusz, w którym asystent nie rozumie lub w ogóle nic nie słyszy. Analityka może być również wykorzystywana do identyfikowania niewłaściwych zakrętów i błędnych interpretacji, aby ulepszyć strategię błędu.

Niektóre z kluczowych pytań, które należy zadać podczas sprawdzania alternatywnych okien dialogowych:

  • Czy określiłeś cel interakcji?
  • Czy sztuczna inteligencja może zinterpretować informacje wypowiedziane przez użytkownika?
  • Czy sztuczna inteligencja wymaga więcej informacji od użytkownika, aby spełnić żądanie?
  • Czy jesteśmy w stanie dostarczyć to, o co poprosił użytkownik?

Dodaj dodatkową warstwę bezpieczeństwa

Asystent Google, Siri i Alexa mogą teraz rozpoznawać poszczególne głosy. Dodaje to warstwę zabezpieczeń podobną do Face ID lub Touch ID. Oprogramowanie do rozpoznawania głosu jest stale ulepszane i coraz trudniej jest naśladować głos; jednak w tej chwili może nie być wystarczająco bezpieczne i może być wymagane dodatkowe uwierzytelnienie. Podczas pracy z danymi wrażliwymi projektanci mogą potrzebować dodatkowego etapu uwierzytelniania, takiego jak odcisk palca, hasło lub rozpoznawanie twarzy. Dotyczy to zwłaszcza osobistych wiadomości i płatności.

Ze względu na asystenta głosowego z oprogramowaniem do rozpoznawania twarzy
Asystent głosowy Baidu Duer jest używany w kilku restauracjach KFC i wykorzystuje rozpoznawanie twarzy do podpowiadania posiłków na podstawie wieku lub wcześniejszych zamówień.

Świt rewolucji VUI

VUI nie znikną i będą włączane do coraz większej liczby produktów w nadchodzących latach. Niektórzy przewidują, że za 10 lat nie będziemy używać klawiatur do interakcji z komputerami.

Mimo to, kiedy myślimy o „doświadczeniu użytkownika”, zwykle myślimy o tym, co możemy zobaczyć i dotknąć. W konsekwencji głos jako sposób interakcji jest rzadko brany pod uwagę. Jednak głos i wizualizacje nie wykluczają się wzajemnie podczas projektowania doświadczeń użytkownika — oba stanowią wartość dodaną.

Badania użytkowników muszą odpowiedzieć na pytanie, czy głos poprawi UX, a biorąc pod uwagę, jak szybko rośnie udział w rynku urządzeń obsługujących głos, przeprowadzenie tych badań może być warte czasu i znacznie zwiększyć wartość i jakość aplikacja.

• • •

Dalsza lektura na blogu Toptal Design:

  • eCommerce UX – przegląd najlepszych praktyk (z infografiką)
  • Znaczenie projektowania zorientowanego na człowieka w projektowaniu produktu
  • Najlepsze portfolio projektantów UX – inspirujące studia przypadków i przykłady
  • Zasady heurystyczne dla interfejsów mobilnych
  • Projekt przewidujący: jak tworzyć magiczne doświadczenia użytkownika