反復での製品の出荷：仮説検定のガイド

公開: 2022-03-11

どの電話でもPlayストア/AppStoreを見ると、インストールされているほとんどのアプリのアップデートが先週中にリリースされていることがわかります。数週間後にWebサイトにアクセスすると、レイアウト、ユーザーエクスペリエンス、またはコピーにいくつかの変更が表示される場合があります。

今日のソフトウェア製品は、ユーザーにとって製品エクスペリエンスを向上させるものについての仮定と仮説を検証するために、反復的に出荷されます。いつでも、booking.com（私が以前働いていた場所）のような企業は、まさにこの目的のために、自社のサイトで何百ものA/Bテストを実行しています。

インターネットを介して配信されるアプリケーションの場合、12〜18か月前に製品の外観を決定し、それを構築して最終的に出荷する必要はありません。代わりに、実装時にユーザーに価値をもたらす小さな変更をリリースすることは完全に実用的であり、ユーザーの好みや理想的なソリューションについて仮定する必要がなくなります。すべての仮定と仮説は、効果を分離するテストを設計することで検証できます。各変更の。

このアプローチにより、改善を通じて継続的な価値を提供することに加えて、製品チームはユーザーから継続的なフィードバックを収集し、必要に応じてコースを修正することができます。数週間ごとに仮説を作成してテストすることは、製品の価値を生み出すためのコース修正と反復アプローチを構築するためのより安価で簡単な方法です。

仮説検定とは何ですか？

機能をユーザーに出荷する際には、実際の世界での影響を理解するために、設計と機能に関する仮定を検証することが不可欠です。

この検証は、従来、製品仮説検定を通じて行われ、その間に実験者は変更の仮説の概要を示し、成功を定義します。たとえば、Amazonのデータプロダクトマネージャーが、より大きな商品画像を表示するとコンバージョン率が上がるという仮説を立てている場合、成功はより高いコンバージョン率によって定義されます。

仮説検定の重要な側面の1つは、行われた変更に成功（または失敗）を帰することができるようにするために、製品エクスペリエンスのさまざまな変数を分離することです。そのため、Amazonのプロダクトマネージャーが、商品画像のすぐ横にカスタマーレビューを表示するとコンバージョンが向上するという仮説がさらにあった場合、両方の仮説を同時にテストすることはできません。そうすると、原因と結果を適切に特定できなくなります。したがって、2つの変更を分離して、個別にテストする必要があります。

したがって、機能に関する製品の決定は、機能のパフォーマンスを検証するための仮説検定によって裏付けられる必要があります。

さまざまなタイプの仮説検定

A/Bテスト

最も一般的なユースケースは、ランダム化されたA / Bテストによって検証できます。このテストでは、変更または機能がユーザーの半分にランダムにリリースされ（A）、残りの半分から差し控えられます（B）。アマゾンでのコンバージョンを改善するより大きな製品画像の仮説に戻ると、ユーザーの半分には変更が表示され、残りの半分には以前と同じようにWebサイトが表示されます。次に、各グループ（AおよびB）の変換が測定され、比較されます。より大きな製品画像を示したグループのコンバージョンが大幅に増加した場合、元の仮説は正しく、変更はすべてのユーザーに展開できるという結論になります。

多変量テスト

理想的には、変更を最終的に特定するために、各変数を分離して個別にテストする必要があります。ただし、テストへのこのような順次アプローチは、特にテストするバージョンが複数ある場合、非常に遅くなる可能性があります。例を続けると、Amazonでの商品画像が大きいほどコンバージョン率が高くなるという仮説では、「大きい」は主観的であり、「大きい」のいくつかのバージョン（1.1x、1.3x、1.5xなど）は次のことを行う必要があります。テストされます。

このようなケースを順番にテストする代わりに、ユーザーを半分に分割するのではなく、複数のバリアントに分割する多変量テストを採用できます。たとえば、4つのグループ（A、B、C、D）はそれぞれユーザーの25％で構成されており、Aグループのユーザーには変更が表示されませんが、バリアントB、C、Dのユーザーにはより大きな画像が表示されます。それぞれ1.1倍、1.3倍、1.5倍。このテストでは、最適なバリアントを特定するために、製品の現在のバージョンに対して複数のバリアントが同時にテストされます。

テストの前後

ネットワーク効果がある可能性があるため、ユーザーを半分（または複数のバリアント）に分割できない場合があります。たとえば、テストでUberのサージ価格を定式化するためのロジックが別のロジックよりも優れているかどうかを判断する場合、ロジックは都市全体の需要と供給の不一致を考慮しているため、ドライバーをさまざまなバリエーションに分割することはできません。このような場合、結論を出すために、テストでは変更前と変更後の効果を比較する必要があります。

ただし、ここでの制約は、テスト期間と制御期間に異なる影響を与える可能性のある季節性と外部性の影響を分離できないことです。 Uberのサージ価格を決定するロジックが時間tに変更され、ロジックAが前に使用され、ロジックBが後に使用されるとします。時間tの前後の効果を比較することはできますが、効果が論理の変更のみによるものであるという保証はありません。 2つの期間の間に需要またはその他の要因の違いがあり、その結果、2つの期間に違いが生じた可能性があります。

時間ベースのオン/オフテスト

テストの前後の欠点は、時間ベースのオン/オフテストを展開することで大幅に克服できます。このテストでは、変更がすべてのユーザーに一定期間導入され、同じ期間オフにされ、その後、より長い期間繰り返されます。

たとえば、Uberのユースケースでは、変更を月曜日にドライバーに表示したり、火曜日に撤回したり、水曜日に再度表示したりできます。

この方法では、季節性と外部性の影響を完全に取り除くことはできませんが、それらを大幅に減らし、そのようなテストをより堅牢にします。

テスト設計

手元のユースケースに適切なテストを選択することは、仮説を最も迅速かつ最も堅牢な方法で検証するための重要なステップです。選択が完了すると、テスト設計の詳細を概説できます。

テスト設計は、以下の一貫した概要にすぎません。

テストする仮説：ユーザーに大きな商品画像を表示すると、より多くの商品を購入するようになります。
テストの成功指標：顧客のコンバージョン
テストの意思決定基準：このテストは、バリアントのユーザーがコントロールグループのユーザーよりも高いコンバージョン率を示しているという仮説を検証します。
テストから学習するためにインストルメント化する必要のある指標：顧客のコンバージョン、商品画像のクリック

より大きな商品画像がAmazonでのコンバージョンの向上につながるという仮説の場合、成功の指標はコンバージョンであり、決定基準はコンバージョンの向上です。

適切なテストを選択して設計し、成功基準と指標を特定したら、結果を分析する必要があります。そのためには、いくつかの統計的概念が必要です。

サンプリング

テストを実行するときは、テスト用に選択された2つのバリアント（AとB）に成功メトリックに関してバイアスがないことを確認することが重要です。たとえば、大きな画像を表示するバリアントの変換率が、変化を表示しないバリアントよりもすでに高い場合、テストにバイアスがかかり、誤った結論につながる可能性があります。

サンプリングに偏りがないことを確認するために、変更が導入される前に、成功メトリックの平均と分散を観察できます。

重要性と力

2つのバリアントの違いが観察されたら、観察された変化は実際の効果であり、ランダムな効果ではないと結論付けることが重要です。これは、成功指標の変化の重要性を計算することで実行できます。

素人の言葉で言えば、重要度は、実際にはそうではないのに、より大きな画像がより高い変換につながることをテストが示す頻度を測定します。 Powerは、実際に画像が大きいほど変換率が高くなることをテストが示す頻度を測定します。

したがって、より正確な結果を得るには、テストの検出力の値を高くし、有意性の値を低くする必要があります。

製品仮説検定に含まれる統計的概念の詳細な調査はここでは範囲外ですが、この面での知識を強化するために、次のアクションが推奨されます。

データアナリストとデータエンジニアは通常、適切なテストデザインを特定することに長けており、製品マネージャーを指導できるため、プロセスの早い段階で専門知識を活用するようにしてください。
Udemy、Udacity、Courseraなど、仮説検定、A / Bテスト、および関連する統計概念に関する多数のオンラインコースがあります。
GoogleのFirebaseやOptimizelyなどのツールを使用すると、適切なテストを実行するためのすぐに使用できる機能が多数あるため、プロセスが簡単になります。

製品管理を成功させるための仮説検定の使用

ユーザーに継続的に価値を提供するためには、さまざまな仮説をテストすることが不可欠です。そのためには、いくつかのタイプの製品仮説テストを使用できます。各仮説には、上記のように、最終的に検証または無効化するためのテスト設計が付随している必要があります。

このアプローチは、新しい変更と機能によって提供される価値を定量化し、最も価値のある機能に焦点を合わせ、段階的な反復を提供するのに役立ちます。