VUIの設計–音声ユーザーインターフェイス

公開: 2022-03-11

Apple HomePod、Google Home、Amazon Echoなど、ますます多くの音声制御デバイスが市場を席巻しています。音声ユーザーインターフェースは、あらゆる種類のさまざまなユーザーエクスペリエンスの向上に役立っており、2020年までに音声がすべての検索の50％を強化すると考える人もいます。

音声対応のAIは、ほとんどすべてを瞬時に処理できます。

「私のカレンダーの次は何ですか？」
「オックスフォードストリートまでのタクシーを予約してください。」
「Spotifyでジャズを再生してください！」

「ビッグファイブ」テクノロジー企業の5つすべて（マイクロソフト、グーグル、アマゾン、アップル、フェイスブック）は、音声対応のAIアシスタントを開発しました（または現在開発中です）。 Apple iOSおよびHomePodデバイスのAIアシスタントであるSiriは、月に4,000万人以上のユーザーを支援しており、ComScoreによると、米国の10世帯に1世帯がすでにスマートスピーカーを所有しています。

モバイルアプリ用またはスマートホームスピーカー用のVUI（Voice User Interfaces）について話しているかどうかにかかわらず、特に画面の疲労が懸念されるため、音声対話は今日のテクノロジーでより一般的になっています。

ユーザーは音声コマンドで何ができますか？

Alexaは、EchoスマートスピーカーやKindle Fireタブレットなどの音声対応AmazonデバイスのAIアシスタントです。現在、Amazonは音声テクノロジー（売上高）で先導しています。

Alexaストアでは、最もトレンディなアプリ（「スキル」と呼ばれる）の一部がエンターテインメント、翻訳、ニュースに焦点を当てていますが、ユーザーはUberスキルを介して乗車をリクエストしたり、Spotifyスキルを介して音楽を再生したりするなどのアクションを実行することもできます。ドミノのスキルでピザを注文することもできます。

もう1つの興味深い例は、2016年にAlexaスキルを導入し、それを行った最初の銀行である商業銀行CapitalOneからのものです。 Alexaを介してCapitalOneスキルを追加することで、顧客は残高と期日を確認し、クレジットカードの請求書を決済することもできます。 PayPalは、ユーザーがiOSまたはApple HomePodのいずれかでSiriを介して支払いを行えるようにすることで、この概念をさらに一歩進めました。これを実現できるPayPalのAlexaスキルもあります。

しかし、VUIでできることと、ユーザーが実際にVUIを使用していることは、2つの異なることです。

ComScoreによると、スマートスピーカーを所有するユーザーの半数以上が、デバイスを使用して一般的な質問をしたり、天気をチェックしたり、音楽をストリーミングしたりして、アラーム、やることリスト、カレンダーを管理しています（これらのタスクはかなり適切であることに注意してください）。基本的な性質）。

ご覧のとおり、これらのタスクの多くには、質問をすることが含まれます（つまり、音声検索）。

米国でのスマートスピーカーの使用に関する統計 — ComScoreによると米国でのスマートスピーカーの使用。

ユーザーは音声検索で何を検索しますか？

人々は主に運転中に音声検索を使用しますが、ユーザーが画面に触れることができない状況（たとえば、料理や運動をしているとき、または職場でマルチタスクを実行しようとしているとき）は、音声対話の機会を提供します。 HigherVisibilityによる完全な内訳は次のとおりです。

AndroidAuto音声アプリと音声ユーザーインターフェース — GoogleアシスタントとAndroidAutoのおかげで、運転中のリアルタイムの交通情報の更新がはるかに簡単になっています。

音声ユーザーインターフェイスのユーザー調査の実施

ユーザーが一般的に音声をどのように使用しているかを知ることは有用ですが、UXデザイナーは、自分が設計しているVUIアプリに固有の独自のユーザー調査を実施することが重要です。

カスタマージャーニーマッピング

ユーザー調査とは、観察とフィードバックを通じてユーザーのニーズ、行動、動機を理解することです。チャネルとして音声を含むカスタマージャーニーマップは、ユーザーエクスペリエンスの研究者がエンゲージメントのさまざまな段階でユーザーのニーズを特定するのに役立つだけでなく、音声が対話の方法になり得る方法と場所を確認するのにも役立ちます。

カスタマージャーニーマップがまだ作成されていないシナリオでは、設計者は音声対話がユーザーフローに影響を与える場所を強調表示する必要があります（これは、機会、チャネル、またはタッチポイントとして強調表示される可能性があります）。ビジネスのカスタマージャーニーマップがすでに存在する場合、設計者は音声対話によってユーザーフローを改善できるかどうかを確認する必要があります。

たとえば、顧客がソーシャルメディアやライブサポートチャットを介して常に特定の質問をしている場合、それは音声アプリに統合できる会話かもしれません。

要するに、デザインは問題を解決するはずです。 カスタマージャーニー中にユーザーが遭遇する摩擦やフラストレーションは何ですか？

VUI競合他社の分析

競合他社の分析を通じて、設計者は競合他社が音声対話を実装しているかどうか、およびどのように実装しているかを調べる必要があります。尋ねるべき重要な質問は次のとおりです。

彼らのアプリのユースケースは何ですか？
彼らはどの音声コマンドを使用していますか？
アプリのレビューで顧客は何を言っていますか？これから何を学ぶことができますか？

米国を拠点とするフルタイムのフリーランスUIデザイナーが望んでいた ###要件の収集

音声ユーザーインターフェイスアプリを設計するには、最初にユーザーの要件を定義する必要があります。カスタマージャーニーマップの作成と競合他社の分析の実施（上記のとおり）の他に、インタビューやユーザーテストなどの他の調査活動も役立つ場合があります。

VUI設計の場合、これらの書面による要件は、開発者向けの設計仕様のほとんどを網羅するため、さらに重要になります。最初のステップは、さまざまなシナリオをキャプチャしてから、それらをユーザーと音声アシスタントの間の会話型ダイアログフローに変換することです。

ニュースアプリケーションのユーザーストーリーの例は次のとおりです。

「ユーザーとして、音声アシスタントに最新のニュース記事を読んでもらい、画面を見なくても何が起こっているかを更新できるようにしたいと思っています。」

このユーザーストーリーを念頭に置いて、ダイアログフローを設計できます。

音声コマンドの構造

ダイアログフローを作成する前に、設計者はまず音声コマンドの構造を理解する必要があります。 VUIを設計するとき、設計者は常に音声対話の目的について考える必要があります（つまり、このシナリオでユーザーは何を達成しようとしていますか？ ）。

ユーザーの音声コマンドは、意図、発話、スロットの3つの重要な要素で構成されています。

次のリクエストを分析してみましょう：「Spotifyでリラックスできる音楽を再生してください。」

インテント（音声対話の目的）

インテントは、ユーザーの音声コマンドのより広い目的を表しており、これは、ユーティリティの低いインタラクションまたはユーティリティの高いインタラクションのいずれかです。

実用性の高いインタラクションとは、居間の照明をオフにするように要求したり、シャワーを特定の温度にするなど、非常に特殊なタスクを実行することです。 AIアシスタントに何が期待されるかが非常に明確であるため、これらのリクエストの設計は簡単です。

低いユーティリティ要求は、より曖昧で解読が困難です。たとえば、ユーザーがアムステルダムについてもっと知りたい場合は、最初にこれがサービスの範囲に適合するかどうかを確認してから、リクエストをよりよく理解するためにユーザーにさらに質問をします。

与えられた例では、意図は明白です：ユーザーは音楽を聞きたいと思っています。

発話（ユーザーがコマンドを表現する方法）

発話は、ユーザーがリクエストをどのように表現するかを反映しています。この例では、ユーザーが「Play me…」と言って、Spotifyで音楽を再生したいと思っていることがわかりますが、これがユーザーがこのリクエストを行う唯一の方法ではありません。たとえば、ユーザーは「音楽を聴きたい…」と言うこともできます。

設計者は、発話のあらゆるバリエーションを考慮する必要があります。これは、AIエンジンがリクエストを認識し、それを適切なアクションまたはレスポンスにリンクするのに役立ちます。

スロット（必須またはオプションの変数）

意図だけでは不十分な場合があり、要求を満たすためにユーザーからのより多くの情報が必要になります。 Alexaはこれを「スロット」と呼んでいます。スロットは、リクエストを完了するために必要なものに応じて、オプションまたは必須にすることができるという意味で、従来のフォームフィールドに似ています。

私たちの場合、スロットは「リラックス」していますが、それがなくてもリクエストを完了できるため、このスロットはオプションです。ただし、タクシーを予約したい場合は、スロットが目的地となり、必須となります。オプションの入力はデフォルト値を上書きします。たとえば、タクシーに午後4時に到着するように要求するユーザーは、デフォルト値の「できるだけ早く」を上書きします。

ダイアログフローを使用したVUI会話のプロトタイピング

プロトタイピング設計者は、これらの要件ごとに脚本家とデザインダイアログフローのように考える必要があります。ダイアログフローは、以下の概要を示す成果物です。

相互作用につながるキーワード
会話がどこにつながる可能性があるかを表すブランチ
ユーザーとアシスタントの両方のダイアログの例

ダイアログフローは、ユーザーと音声アシスタントの間のやり取りを示すスクリプトです。ダイアログフローはプロトタイプのようなもので、イラストとして描くことができます（以下の例のように）。または、ダイアログフローを作成するために使用できるプロトタイピングアプリがあります。

VUIデザインのダイアログフローの図 — インテント、スロット、および全体的な会話を示すサンプルダイアログフロー。

VUIのプロトタイピング用アプリ

ダイアログフローをマッピングしたら、アプリを使用して音声インタラクションのプロトタイプを作成する準備が整います。いくつかのプロトタイピングツールがすでに市場に参入しています。たとえば、Sayspringを使用すると、デザイナーは音声対応のAmazonおよびGoogleアプリの実用的なプロトタイプを簡単に作成できます。

Sayspringを使用したVUIアプリのプロトタイピング — Sayspringは、AlexaスキルまたはGoogleホームアクションのプロトタイプを簡単に作成できるツールです。

Amazonは独自のAlexaスキルビルダーも提供しています。これにより、デザイナーは新しいAlexaスキルを簡単に作成できます。 GoogleはSDKを提供しています。ただし、これはGoogleアクション開発者を対象としています。 Appleはまだ競合ツールをリリースしていませんが、まもなくSiriKitをリリースする予定です。

音声アプリのUX分析

Alexaの「スキル」（またはGoogleの「アクション」）をロールアウトすると、アプリがアナリティクスでどのように使用されているかを追跡できます。両社は組み込みの分析ツールを提供しています。ただし、サードパーティのサービスを統合して、より詳細な分析を行うこともできます（Amazon Alexaの場合はvoicelabs.co、Googleアシスタントの場合はdashbot.ioなど）。注目すべき重要な指標のいくつかは次のとおりです。

ユーザーあたりのセッション数やセッションあたりのメッセージ数などのエンゲージメント指標
使用される言語
行動の流れ
メッセージ、意図、発話

VUI設計の実用的なヒント

コミュニケーションをシンプルかつ会話型に保つ

モバイルアプリやウェブサイトを設計する場合、設計者はどの情報がプライマリで、どの情報がセカンダリであるかを考える必要があります（つまり、それほど重要ではありません）。ユーザーは過負荷を感じたくないのですが、同時に、タスクを完了するのに十分な情報が必要です。

音声の場合、コミュニケーションするのは言葉（そしておそらく比較的単純なGUI）だけなので、設計者はさらに注意を払う必要があります。これは、複雑な情報やデータを伝達する場合に特に困難になります。これは、単語が少ないほど良いことを意味し、デザイナーは、アプリがユーザーの目的を満たし、厳密に会話を続けることを確認する必要があります。

タスクが完了したことを確認する

eコマースのチェックアウトフローを設計する場合、主要な画面の1つが最終確認になります。これにより、トランザクションが正常に記録されたことを顧客に知らせることができます。

同じ概念がVUI設計にも当てはまります。たとえば、ユーザーが居間にいて、音声アシスタントにバスルームの照明を消すように頼んでいる場合、確認なしで、居間に歩いて確認し、「ハンズオフ」の対象を打ち負かす必要があります。」VUIアプリは完全に。

このシナリオでは、「バスルームの照明がオフになっています」という応答で問題ありません。

強力なエラー戦略を作成する

VUI設計者として、強力なエラー戦略を立てることが重要です。アシスタントが理解できない、またはまったく聞こえないシナリオのために常に設計してください。分析を使用して、誤った方向転換や誤解を特定し、エラー戦略を改善することもできます。

代替ダイアログをチェックするときに尋ねる重要な質問のいくつか：

相互作用の目的を特定しましたか？
AIはユーザーが話した情報を解釈できますか？
AIは、要求を満たすためにユーザーからのより多くの情報を必要としますか？
ユーザーが求めているものを提供できますか？

セキュリティの層を追加する

Googleアシスタント、Siri、Alexaが個々の声を認識できるようになりました。これにより、FaceIDやTouchIDと同様のセキュリティレイヤーが追加されます。音声認識ソフトウェアは絶えず改善されており、音声を模倣することはますます困難になっています。ただし、現時点では、十分なセキュリティが確保されていない可能性があり、追加の認証が必要になる場合があります。機密データを扱う場合、設計者は指紋、パスワード、顔認識などの追加の認証手順を含める必要がある場合があります。これは、個人的なメッセージや支払いの場合に特に当てはまります。

顔認識ソフトウェアを備えたDuer音声アシスタント — BaiduのDuer音声アシスタントは、いくつかのKFCレストランで使用されており、顔認識を使用して、年齢または以前の注文に基づいて食事の提案を行います。

VUI革命の夜明け

VUIは今後も存続し、今後数年間でますます多くの製品に統合される予定です。コンピューターとの対話に10年以内にキーボードを使用しないと予測する人もいます。

それでも、「ユーザーエクスペリエンス」を考えるとき、私たちは何を見たり触れたりできるかを考える傾向があります。結果として、相互作用の方法としての音声はめったに考慮されません。ただし、ユーザーエクスペリエンスを設計する場合、音声とビジュアルは相互に排他的ではありません。どちらも付加価値をもたらします。

ユーザー調査では、音声によってUXが向上するかどうかについての質問に答える必要があります。音声対応デバイスの市場シェアが急速に上昇していることを考えると、この調査を行うことは時間の価値があり、アプリ。

•••

Toptal Designブログでさらに読む：

eコマースUX–ベストプラクティスの概要（インフォグラフィック付き）
製品設計における人間中心の設計の重要性
最高のUXデザイナーポートフォリオ–刺激的なケーススタディと例
モバイルインターフェースのヒューリスティック原則
予測的デザイン：魔法のユーザーエクスペリエンスを作成する方法