以迭代方式運送您的產品:假設檢驗指南

已發表: 2022-03-11

查看任何手機上的 Play Store/App Store 都會發現,大多數已安裝的應用程序都在上週發布了更新。 幾週後訪問網站可能會顯示佈局、用戶體驗或文案的一些變化。

今天的軟件產品是在迭代中發布的,以驗證關於什麼使用戶的產品體驗更好的假設和假設。 在任何時候,像 booking.com(我以前工作過的網站)這樣的公司都會為此目的在他們的網站上運行數百個 A/B 測試。

對於通過 Internet 交付的應用程序,無需提前 12-18 個月確定產品的外觀,然後構建並最終交付。 相反,在實施時發佈為用戶帶來價值的小更改是完全可行的,無需對用戶偏好和理想解決方案做出假設——因為每個假設和假設都可以通過設計一個測試來隔離效果來驗證的每一個變化。

除了通過改進提供持續的價值外,這種方法還允許產品團隊從用戶那裡收集持續的反饋,然後根據需要進行修正。 每兩週創建和測試一次假設是一種更便宜、更簡單的方法,可以建立一個過程糾正和迭代的方法來創造產品價值。

什麼是假設檢驗?

在向用戶交付功能時,必須驗證有關設計和功能的假設,以了解它們在現實世界中的影響。

這種驗證傳統上是通過產品假設測試完成的,在此期間,實驗者勾勒出改變的假設,然後定義成功。 例如,如果亞馬遜的數據產品經理假設展示更大的產品圖片會提高轉化率,那麼成功的定義是更高的轉化率。

假設檢驗的關鍵方面之一是隔離產品體驗中的不同變量,以便能夠將成功(或失敗)歸因於所做的更改。 因此,如果我們的亞馬遜產品經理有一個進一步的假設,即在產品圖片旁邊顯示客戶評論會提高轉化率,那麼就不可能同時檢驗這兩個假設。 這樣做會導致無法正確歸類因果; 因此,這兩個更改必須單獨隔離和測試。

因此,產品的特性決策應該得到假設檢驗的支持,以驗證特性的性能。

不同類型的假設檢驗

A/B 測試

產品假設測試中的 A/B 測試

最常見的用例可以通過隨機 A/B 測試進行驗證,其中更改或功能隨機發布給一半用戶 (A),而另一半用戶 (B) 則不予發布。 回到更大的產品圖片提高亞馬遜轉化率的假設,一半的用戶會看到變化,而另一半會看到網站和以前一樣。 然後將測量每個組(A 和 B)的轉化率並進行比較。 如果顯示更大產品圖片的組的轉化率顯著提升,則結論將是原始假設是正確的,並且可以將更改推廣到所有用戶。

多元測試

產品假設檢驗中的多變量檢驗

理想情況下,每個變量都應該被隔離和單獨測試,以便最終確定屬性變化。 但是,這種順序測試方法可能會非常慢,尤其是當有多個版本要測試時。 繼續這個例子,假設更大的產品圖片會在亞馬遜上帶來更高的轉化率,“更大”是主觀的,“更大”的幾個版本(例如,1.1x、1.3x 和 1.5x)可能需要進行測試。

可以採用多變量測試,而不是按順序測試這些案例,其中用戶不是分成兩半,而是分成多個變體。 例如,四個組(A、B、C、D)分別由 25% 的用戶組成,其中 A 組用戶不會看到任何變化,而變體 B、C 和 D 中的用戶會看到更大的圖像分別為 1.1x、1.3x 和 1.5x。 在此測試中,針對產品的當前版本同時測試多個變體,以確定最佳變體。

測試之前/之後

有時,不可能將用戶分成兩半(或分成多個變體),因為可能存在網絡效應。 例如,如果測試涉及確定在 Uber 上製定激增價格的邏輯是否優於另一種,則不能將司機劃分為不同的變體,因為該邏輯考慮了整個城市的供需不匹配。 在這種情況下,測試必須比較更改之前和更改後的效果,以便得出結論。

產品假設檢驗中的檢驗之前/之後

然而,這裡的限制是無法隔離季節性和外部性的影響,這些影響可能會不同地影響測試和控制期。 假設在時間t對確定 Uber 激增定價的邏輯進行了更改,使得之前使用邏輯 A,之後使用邏輯 B。 雖然可以比較時間t之前和之後的效果,但不能保證效果完全是由於邏輯的變化。 兩個時間段之間的需求或其他因素可能存在差異,導致兩者之間存在差異。

基於時間的開/關測試

產品假設檢驗中基於時間的開/關檢驗

通過部署基於時間的開/關測試,可以在很大程度上克服前/後測試的缺點,其中在一段時間內將更改引入所有用戶,在相同的時間段內關閉,然後然後重複更長的時間。

例如,在 Uber 用例中,更改可以在星期一顯示給司機,在星期二撤回,在星期三再次顯示,等等。

雖然這種方法並沒有完全消除季節性和外部性的影響,但它確實顯著減少了它們,使此類測試更加穩健。

測試設計

為手頭的用例選擇正確的測試是以最快和最穩健的方式驗證假設的重要步驟。 一旦做出選擇,就可以概述測試設計的細節。

測試設計只是一個連貫的大綱:

  • 要測試的假設:向用戶展示更大的產品圖片會導致他們購買更多的產品。
  • 測試的成功指標:客戶轉化
  • 測試的決策標準:該測試驗證了變體中的用戶比對照組中的用戶顯示出更高轉換率的假設。
  • 需要從測試中學習的指標:客戶轉化、點擊產品圖片

如果假設更大的產品圖片將導致亞馬遜上的轉化率提高,那麼成功指標是轉化率,決策標準是轉化率的提高。

在選擇和設計正確的測試並確定成功標準和指標後,必須分析結果。 為此,需要一些統計概念。

採樣

在運行測試時,重要的是要確保為測試選擇的兩個變體(A 和 B)在成功指標方面沒有偏差。 例如,如果看到更大圖像的變體已經比沒有看到變化的變體具有更高的轉化率,那麼測試就有偏差,可能會導致錯誤的結論。

為了確保抽樣中沒有偏差,可以在引入更改之前觀察成功度量的均值和方差。

意義和力量

一旦觀察到兩種變體之間的差異,重要的是得出結論,觀察到的變化是實際影響而不是隨機影響。 這可以通過計算成功度量變化的重要性來完成。

用外行的話來說,顯著性衡量的是測試表明更大的圖像會導致更高的轉化率,而實際上它們並沒有。 功率測量測試告訴我們更大的圖像實際上會導致更高的轉換的頻率。

因此,為了獲得更準確的結果,測試需要具有較高的功效值和較低的顯著性值。


雖然深入探索產品假設檢驗所涉及的統計概念超出了本文的範圍,但建議採取以下措施來增強這方面的知識:

  • 數據分析師和數據工程師通常擅長識別正確的測試設計並可以指導產品經理,因此請確保在流程的早期利用他們的專業知識。
  • 有許多關於假設檢驗、A/B 測試和相關統計概念的在線課程,例如 Udemy、Udacity 和 Coursera。
  • 使用 Google 的 Firebase 和 Optimizely 等工具可以簡化流程,這要歸功於大量開箱即用的功能來運行正確的測試。

使用假設檢驗成功進行產品管理

為了持續為用戶提供價值,必須測試各種假設,為此可以採用幾種類型的產品假設測試。 如上所述,每個假設都需要有一個隨附的測試設計,以便最終驗證或使其無效。

這種方法有助於量化新更改和新功能帶來的價值,將重點放在最有價值的功能上,並提供增量迭代。