以迭代方式运送您的产品：假设检验指南

已发表: 2022-03-11

查看任何手机上的 Play Store/App Store 都会发现，大多数已安装的应用程序都在上周发布了更新。几周后访问网站可能会显示布局、用户体验或文案的一些变化。

今天的软件产品是在迭代中发布的，以验证关于什么使用户的产品体验更好的假设和假设。在任何时候，像 booking.com（我以前工作过的网站）这样的公司都会为此目的在他们的网站上运行数百个 A/B 测试。

对于通过 Internet 交付的应用程序，无需提前 12-18 个月确定产品的外观，然后构建并最终交付。相反，在实施时发布为用户带来价值的小更改是完全可行的，无需对用户偏好和理想解决方案做出假设——因为每个假设和假设都可以通过设计一个测试来隔离效果来验证的每一个变化。

除了通过改进提供持续的价值外，这种方法还允许产品团队从用户那里收集持续的反馈，然后根据需要进行修正。每两周创建和测试一次假设是一种更便宜、更简单的方法，可以建立一个过程纠正和迭代的方法来创造产品价值。

什么是假设检验？

在向用户交付功能时，必须验证有关设计和功能的假设，以了解它们在现实世界中的影响。

这种验证传统上是通过产品假设测试完成的，在此期间，实验者勾勒出改变的假设，然后定义成功。例如，如果亚马逊的数据产品经理假设展示更大的产品图片会提高转化率，那么成功的定义是更高的转化率。

假设检验的关键方面之一是隔离产品体验中的不同变量，以便能够将成功（或失败）归因于所做的更改。因此，如果我们的亚马逊产品经理有一个进一步的假设，即在产品图片旁边显示客户评论会提高转化率，那么就不可能同时检验这两个假设。这样做会导致无法正确归类因果；因此，这两个更改必须单独隔离和测试。

因此，产品的特性决策应该得到假设检验的支持，以验证特性的性能。

不同类型的假设检验

A/B 测试

最常见的用例可以通过随机 A/B 测试进行验证，其中更改或功能随机发布给一半用户 (A)，而另一半用户 (B) 则不予发布。回到更大的产品图片提高亚马逊转化率的假设，一半的用户会看到变化，而另一半会看到网站和以前一样。然后将测量每个组（A 和 B）的转化率并进行比较。如果显示更大产品图片的组的转化率显着提升，则结论将是原始假设是正确的，并且可以将更改推广到所有用户。

多元测试

理想情况下，每个变量都应该被隔离和单独测试，以便最终确定属性变化。但是，这种顺序测试方法可能会非常慢，尤其是当有多个版本要测试时。继续这个例子，假设更大的产品图片会在亚马逊上带来更高的转化率，“更大”是主观的，“更大”的几个版本（例如，1.1x、1.3x 和 1.5x）可能需要进行测试。

可以采用多变量测试，而不是按顺序测试这些案例，其中用户不是分成两半，而是分成多个变体。例如，四个组（A、B、C、D）分别由 25% 的用户组成，其中 A 组用户不会看到任何变化，而变体 B、C 和 D 中的用户会看到更大的图像分别为 1.1x、1.3x 和 1.5x。在此测试中，针对产品的当前版本同时测试多个变体，以确定最佳变体。

测试之前/之后

有时，不可能将用户分成两半（或分成多个变体），因为可能存在网络效应。例如，如果测试涉及确定在 Uber 上制定激增价格的逻辑是否比另一种更好，则不能将司机划分为不同的变体，因为该逻辑考虑了整个城市的供需不匹配。在这种情况下，测试必须比较更改之前和更改后的效果，以便得出结论。

然而，这里的限制是无法隔离季节性和外部性的影响，这些影响可能会不同地影响测试和控制期。假设在时间t对确定 Uber 激增定价的逻辑进行了更改，使得之前使用逻辑 A，之后使用逻辑 B。虽然可以比较时间t之前和之后的效果，但不能保证效果完全是由于逻辑的变化。两个时间段之间的需求或其他因素可能存在差异，导致两者之间存在差异。

基于时间的开/关测试

通过部署基于时间的开/关测试，可以在很大程度上克服前/后测试的缺点，其中在一段时间内将更改引入所有用户，在相同的时间段内关闭，然后然后重复更长的时间。

例如，在 Uber 用例中，更改可以在星期一显示给司机，在星期二撤回，在星期三再次显示，等等。

虽然这种方法并没有完全消除季节性和外部性的影响，但它确实显着减少了它们，使此类测试更加稳健。

测试设计

为手头的用例选择正确的测试是以最快和最稳健的方式验证假设的重要步骤。一旦做出选择，就可以概述测试设计的细节。

测试设计只是一个连贯的大纲：

要测试的假设：向用户展示更大的产品图片会导致他们购买更多的产品。
测试的成功指标：客户转化
测试的决策标准：该测试验证了变体中的用户比对照组中的用户显示出更高转换率的假设。
需要从测试中学习的指标：客户转化、点击产品图片

如果假设更大的产品图片将导致亚马逊上的转化率提高，那么成功指标是转化率，决策标准是转化率的提高。

在选择和设计正确的测试并确定成功标准和指标后，必须分析结果。为此，需要一些统计概念。

采样

在运行测试时，重要的是要确保为测试选择的两个变体（A 和 B）在成功指标方面没有偏差。例如，如果看到更大图像的变体已经比没有看到变化的变体具有更高的转化率，那么测试就有偏差，可能会导致错误的结论。

为了确保抽样中没有偏差，可以在引入更改之前观察成功度量的均值和方差。

意义和力量

一旦观察到两种变体之间的差异，重要的是得出结论，观察到的变化是实际影响而不是随机影响。这可以通过计算成功度量变化的重要性来完成。

用外行的话来说，显着性衡量的是测试表明更大的图像会导致更高的转化率，而实际上它们并没有。功率测量测试告诉我们更大的图像实际上会导致更高的转换的频率。

因此，为了获得更准确的结果，测试需要具有较高的功效值和较低的显着性值。

虽然深入探索产品假设检验所涉及的统计概念超出了本文的范围，但建议采取以下措施来增强这方面的知识：

数据分析师和数据工程师通常擅长识别正确的测试设计并可以指导产品经理，因此请确保在流程的早期利用他们的专业知识。
有许多关于假设检验、A/B 测试和相关统计概念的在线课程，例如 Udemy、Udacity 和 Coursera。
使用 Google 的 Firebase 和 Optimizely 等工具可以简化流程，这要归功于大量开箱即用的功能来运行正确的测试。

使用假设检验成功进行产品管理

为了持续为用户提供价值，必须测试各种假设，为此可以采用几种类型的产品假设测试。如上所述，每个假设都需要有一个随附的测试设计，以便最终验证或使其无效。

这种方法有助于量化新更改和新功能带来的价值，将重点放在最有价值的功能上，并提供增量迭代。