Wysyłanie produktu w iteracjach: przewodnik po testowaniu hipotez

Opublikowany: 2022-03-11

Spojrzenie na Sklep Play/App Store na dowolnym telefonie ujawni, że większość zainstalowanych aplikacji miała aktualizacje wydane w ciągu ostatniego tygodnia. Wizyta w witrynie po kilku tygodniach może wykazać pewne zmiany w układzie, wrażeniach użytkownika lub treści.

Obecnie oprogramowanie jest dostarczane w iteracjach, aby zweryfikować założenia i hipotezy dotyczące tego, co sprawia, że ​​korzystanie z produktu jest lepsze dla użytkowników. W dowolnym momencie firmy takie jak booking.com (gdzie pracowałem wcześniej) przeprowadzają setki testów A/B na swoich stronach właśnie w tym celu.

W przypadku aplikacji dostarczanych przez Internet nie ma potrzeby decydowania o wyglądzie produktu z 12-18 miesięcznym wyprzedzeniem, a następnie jego budowy i ewentualnej wysyłki. Zamiast tego bardzo praktyczne jest wprowadzanie niewielkich zmian, które przynoszą użytkownikom wartość w trakcie ich wdrażania, eliminując potrzebę dokonywania założeń dotyczących preferencji użytkownika i idealnych rozwiązań — dla każdego założenia i hipotezy można je zweryfikować, projektując test w celu wyizolowania efektu każdej zmiany.

Oprócz dostarczania ciągłej wartości poprzez ulepszenia, podejście to umożliwia zespołowi produktowemu zbieranie ciągłych informacji zwrotnych od użytkowników, a następnie korygowanie kursu w razie potrzeby. Tworzenie i testowanie hipotez co kilka tygodni to tańszy i łatwiejszy sposób na zbudowanie korygującego kursu i iteracyjnego podejścia do tworzenia wartości produktu.

Co to jest testowanie hipotez?

Wysyłając funkcję do użytkowników, konieczne jest zweryfikowanie założeń dotyczących projektu i funkcji, aby zrozumieć ich wpływ na rzeczywisty świat.

Ta walidacja jest tradycyjnie przeprowadzana poprzez testowanie hipotez dotyczących produktu, podczas których eksperymentator formułuje hipotezę zmiany, a następnie definiuje sukces. Na przykład, jeśli menedżer ds. produktów danych w Amazon ma hipotezę, że wyświetlanie większych zdjęć produktów podniesie współczynniki konwersji, to sukces jest definiowany przez wyższe współczynniki konwersji.

Jednym z kluczowych aspektów testowania hipotez jest izolacja różnych zmiennych w doświadczeniu z produktem, aby móc przypisać sukces (lub porażkę) dokonanym zmianom. Gdyby więc nasz menedżer produktu Amazon miał kolejną hipotezę, że wyświetlanie opinii klientów tuż obok zdjęć produktów poprawiłoby konwersję, nie byłoby możliwe jednoczesne testowanie obu hipotez. Spowodowałoby to nieprawidłowe przypisanie przyczyn i skutków; dlatego te dwie zmiany muszą być izolowane i testowane indywidualnie.

W związku z tym decyzje dotyczące produktów dotyczące funkcji powinny być poparte testowaniem hipotez w celu sprawdzenia wydajności funkcji.

Różne rodzaje testowania hipotez

Testy A/B

Testy A/B w testowaniu hipotez produktowych

Najczęstsze przypadki użycia można zweryfikować za pomocą randomizowanych testów A/B, w których zmiana lub funkcja jest udostępniana losowo połowie użytkowników (A) i niedostępna drugiej połowie (B). Wracając do hipotezy o większych zdjęciach produktów poprawiających konwersję na Amazon, połowa użytkowników zobaczy zmianę, a druga połowa zobaczy stronę tak, jak była wcześniej. Konwersja zostanie następnie zmierzona dla każdej grupy (A i B) i porównana. W przypadku znacznego wzrostu konwersji dla grupy, która pokazała większe zdjęcia produktów, wniosek byłby taki, że pierwotna hipoteza była poprawna i zmiana może zostać wprowadzona dla wszystkich użytkowników.

Testowanie na wielu odmianach

Testowanie wielowymiarowe w testowaniu hipotez produktowych

Idealnie, każda zmienna powinna być izolowana i testowana oddzielnie, aby ostatecznie przypisać zmiany. Jednak takie sekwencyjne podejście do testowania może być bardzo powolne, zwłaszcza gdy istnieje kilka wersji do przetestowania. Kontynuując przykład, w hipotezie, że większe zdjęcia produktów prowadzą do wyższych współczynników konwersji w Amazon, „większy” jest subiektywny i kilka wersji „większego” (np. 1,1x, 1,3x i 1,5x) może wymagać być przetestowane.

Zamiast testować takie przypadki sekwencyjnie, można zastosować test wielowymiarowy, w którym użytkownicy nie są dzieleni na pół, ale na wiele wariantów. Na przykład cztery grupy (A, B, C, D) składają się z 25% użytkowników każda, przy czym użytkownicy z grupy A nie zobaczą żadnej zmiany, podczas gdy w wariantach B, C i D zobaczą obrazy większe o Odpowiednio 1,1x, 1,3x i 1,5x. W tym teście wiele wariantów jest jednocześnie testowanych z aktualną wersją produktu w celu zidentyfikowania najlepszego wariantu.

Przed/po testach

Czasami nie jest możliwe podzielenie użytkowników na pół (lub na wiele wariantów), ponieważ mogą wystąpić efekty sieciowe. Na przykład, jeśli test polega na ustaleniu, czy jedna logika formułowania skoków cen na Uberze jest lepsza od innej, kierowców nie można podzielić na różne warianty, ponieważ logika uwzględnia niedopasowanie popytu i podaży w całym mieście. W takich przypadkach test będzie musiał porównać efekty przed zmianą i po zmianie w celu wyciągnięcia wniosków.

Przed/po testowaniu w testowaniu hipotez produktowych

Jednak ograniczeniem jest tutaj niemożność wyodrębnienia skutków sezonowości i efektów zewnętrznych, które mogą w różny sposób wpływać na okresy testowe i kontrolne. Załóżmy, że zmiana logiki określająca wzrost cen na Uber jest dokonywana w czasie t , tak że logika A jest używana przed, a logika B jest używana po. Chociaż efekty przed i po czasie t można porównać, nie ma gwarancji, że skutki te wynikają wyłącznie ze zmiany logiki. Mogła istnieć różnica w popycie lub innych czynnikach między tymi dwoma okresami, które spowodowały różnicę między nimi.

Testowanie włączania/wyłączania oparte na czasie

Testowanie w oparciu o czas/wyłączanie w testowaniu hipotez dotyczących produktu

Wady testów przed/po testach można w dużej mierze przezwyciężyć, wdrażając testy czasowe włączania/wyłączania, w których zmiana jest wprowadzana dla wszystkich użytkowników na określony czas, wyłączana na taki sam okres czasu, oraz następnie powtarzane przez dłuższy czas.

Na przykład w przypadku użycia Uber zmiana może być pokazana kierowcom w poniedziałek, wycofana we wtorek, ponownie pokazana w środę i tak dalej.

Chociaż ta metoda nie usuwa w pełni skutków sezonowości i efektów zewnętrznych, znacznie je zmniejsza, dzięki czemu takie testy są bardziej niezawodne.

Projekt testowy

Wybór odpowiedniego testu dla danego przypadku użycia jest niezbędnym krokiem w walidacji hipotezy w najszybszy i najbardziej niezawodny sposób. Po dokonaniu wyboru można nakreślić szczegóły projektu testu.

Projekt testu to po prostu spójny zarys:

  • Hipoteza do przetestowania: wyświetlanie użytkownikom większych zdjęć produktów skłoni ich do zakupu większej liczby produktów.
  • Mierniki sukcesu dla testu: Konwersja klienta
  • Kryteria podejmowania decyzji w teście: Test weryfikuje hipotezę, że użytkownicy w wariancie wykazują wyższy współczynnik konwersji niż w grupie kontrolnej.
  • Wskaźniki, które należy oprzyrządować, aby wyciągnąć wnioski z testu: konwersja klienta, kliknięcia na zdjęcia produktów

W przypadku hipotezy, że większe zdjęcia produktów doprowadzą do poprawy konwersji na Amazon, miernikiem sukcesu jest konwersja, a kryterium decyzyjnym jest poprawa konwersji.

Po wybraniu i zaprojektowaniu odpowiedniego testu oraz określeniu kryteriów i wskaźników sukcesu, wyniki muszą zostać przeanalizowane. Aby to zrobić, konieczne są pewne koncepcje statystyczne.

Próbowanie

Podczas przeprowadzania testów ważne jest, aby upewnić się, że dwa warianty wybrane do testu (A i B) nie mają błędu w odniesieniu do miernika sukcesu. Na przykład, jeśli wariant, który widzi większe obrazy, ma już wyższą konwersję niż wariant, który nie widzi zmiany, test jest stronniczy i może prowadzić do błędnych wniosków.

Aby zapewnić brak błędu systematycznego w próbkowaniu, można obserwować średnią i wariancję miernika sukcesu przed wprowadzeniem zmiany.

Znaczenie i moc

Po zaobserwowaniu różnicy między tymi dwoma wariantami należy stwierdzić, że zaobserwowana zmiana jest efektem rzeczywistym, a nie przypadkowym. Można to zrobić, obliczając znaczenie zmiany miernika sukcesu.

W kategoriach laika istotność mierzy częstotliwość, z jaką test pokazuje, że większe obrazy prowadzą do większej konwersji, podczas gdy w rzeczywistości tak nie jest. Moc mierzy częstotliwość, z jaką test mówi nam, że większe obrazy prowadzą do większej konwersji, gdy faktycznie to robią.

Dlatego testy muszą mieć wysoką wartość mocy i niską wartość istotności, aby uzyskać dokładniejsze wyniki.


Chociaż dogłębna eksploracja pojęć statystycznych związanych z testowaniem hipotez dotyczących produktu jest tutaj poza zakresem, zalecane są następujące działania w celu poszerzenia wiedzy na tym froncie:

  • Analitycy danych i inżynierowie danych są zwykle biegli w identyfikowaniu właściwych projektów testów i mogą kierować menedżerami produktu, więc upewnij się, że wykorzystasz ich wiedzę na wczesnym etapie procesu.
  • Istnieje wiele kursów online dotyczących testowania hipotez, testów A/B i powiązanych pojęć statystycznych, takich jak Udemy, Udacity i Coursera.
  • Korzystanie z narzędzi takich jak Google Firebase i Optimizely może ułatwić ten proces dzięki dużej ilości gotowych możliwości przeprowadzania właściwych testów.

Używanie testowania hipotez do skutecznego zarządzania produktem

Aby stale dostarczać użytkownikom wartość, konieczne jest testowanie różnych hipotez, w celu których można zastosować kilka rodzajów testowania hipotez produktowych. Każda hipoteza musi mieć towarzyszący projekt testu, jak opisano powyżej, w celu jej ostatecznej walidacji lub unieważnienia.

Takie podejście pomaga określić ilościowo wartość dostarczaną przez nowe zmiany i funkcje, skoncentrować się na najcenniejszych funkcjach i dostarczać przyrostowe iteracje.