Versand Ihres Produkts in Iterationen: Ein Leitfaden zum Testen von Hypothesen

Veröffentlicht: 2022-03-11

Ein Blick in den Play Store/App Store auf einem beliebigen Telefon zeigt, dass für die meisten installierten Apps innerhalb der letzten Woche Updates veröffentlicht wurden. Ein Website-Besuch nach einigen Wochen zeigt möglicherweise einige Änderungen im Layout, in der Benutzererfahrung oder im Text.

Softwareprodukte werden heute in Iterationen ausgeliefert, um Annahmen und Hypothesen darüber zu validieren, was das Produkterlebnis für die Benutzer verbessert. Zu diesem Zweck führen Unternehmen wie booking.com (wo ich zuvor gearbeitet habe) zu jeder Zeit Hunderte von A/B-Tests auf ihren Websites durch.

Bei Anwendungen, die über das Internet bereitgestellt werden, ist es nicht erforderlich, 12 bis 18 Monate im Voraus über das Aussehen eines Produkts zu entscheiden, es dann zu erstellen und schließlich auszuliefern. Stattdessen ist es absolut praktisch, kleine Änderungen zu veröffentlichen, die den Benutzern einen Mehrwert bieten, während sie implementiert werden, wodurch die Notwendigkeit entfällt, Annahmen über Benutzerpräferenzen und ideale Lösungen zu treffen – denn jede Annahme und Hypothese kann validiert werden, indem ein Test entwickelt wird, um den Effekt zu isolieren jeder Änderung.

Dieser Ansatz liefert nicht nur kontinuierlichen Wert durch Verbesserungen, sondern ermöglicht es einem Produktteam auch, kontinuierliches Feedback von Benutzern zu sammeln und dann den Kurs bei Bedarf zu korrigieren. Das Erstellen und Testen von Hypothesen alle paar Wochen ist eine billigere und einfachere Möglichkeit, einen kurskorrigierenden und iterativen Ansatz zur Schaffung von Produktwert aufzubauen.

Was ist Hypothesentest?

Beim Versand einer Funktion an Benutzer ist es unerlässlich, Annahmen über Design und Funktionen zu validieren, um deren Auswirkungen in der realen Welt zu verstehen.

Diese Validierung erfolgt traditionell durch Produkthypothesentests, bei denen der Experimentator eine Hypothese für eine Änderung skizziert und dann den Erfolg definiert. Wenn beispielsweise ein Datenproduktmanager bei Amazon die Hypothese hat, dass das Anzeigen größerer Produktbilder die Konversionsraten erhöht, dann wird Erfolg durch höhere Konversionsraten definiert.

Einer der Schlüsselaspekte des Hypothesentests ist die Isolierung verschiedener Variablen in der Produkterfahrung, um den Erfolg (oder Misserfolg) der vorgenommenen Änderungen zuordnen zu können. Wenn also unser Amazon-Produktmanager eine weitere Hypothese hätte, dass die Anzeige von Kundenbewertungen direkt neben Produktbildern die Conversion verbessern würde, wäre es nicht möglich, beide Hypothesen gleichzeitig zu testen. Dies würde dazu führen, dass Ursachen und Wirkungen nicht richtig zugeordnet werden können; Daher müssen die beiden Änderungen isoliert und einzeln getestet werden.

Daher sollten Produktentscheidungen zu Merkmalen durch Hypothesentests gestützt werden, um die Leistung von Merkmalen zu validieren.

Verschiedene Arten von Hypothesentests

A/B-Tests

Die häufigsten Anwendungsfälle können durch randomisierte A/B-Tests validiert werden, bei denen eine Änderung oder ein Feature nach dem Zufallsprinzip für die Hälfte der Benutzer freigegeben (A) und der anderen Hälfte vorenthalten wird (B). Um auf die Hypothese zurückzukommen, dass größere Produktbilder die Conversion auf Amazon verbessern, wird der einen Hälfte der Nutzer die Änderung angezeigt, während die andere Hälfte die Website so sieht, wie sie vorher war. Die Umwandlung wird dann für jede Gruppe (A und B) gemessen und verglichen. Im Falle einer signifikanten Steigerung der Konversion für die Gruppe, die größere Produktbilder gezeigt hat, wäre die Schlussfolgerung, dass die ursprüngliche Hypothese richtig war, und die Änderung kann auf alle Benutzer ausgeweitet werden.

Multivariate Tests

Idealerweise sollte jede Variable isoliert und separat getestet werden, um Veränderungen eindeutig zuordnen zu können. Ein solcher sequenzieller Testansatz kann jedoch sehr langsam sein, insbesondere wenn mehrere Versionen zu testen sind. Um mit dem Beispiel fortzufahren: In der Hypothese, dass größere Produktbilder zu höheren Konversionsraten bei Amazon führen, ist „größer“ subjektiv und mehrere Versionen von „größer“ (z. B. 1,1x, 1,3x und 1,5x) müssen dies möglicherweise tun getestet werden.

Anstatt solche Fälle sequentiell zu testen, kann ein multivariater Test eingesetzt werden, bei dem die Benutzer nicht in zwei Hälften, sondern in mehrere Varianten aufgeteilt werden. Zum Beispiel bestehen vier Gruppen (A, B, C, D) aus jeweils 25 % der Benutzer, wobei Benutzer der Gruppe A keine Änderung sehen, während diejenigen in den Varianten B, C und D die Bilder um größer sehen 1,1x, 1,3x bzw. 1,5x. Bei diesem Test werden mehrere Varianten gleichzeitig gegen die aktuelle Version des Produkts getestet, um die beste Variante zu identifizieren.

Vor/Nach dem Testen

Manchmal ist es nicht möglich, die Benutzer in zwei Hälften (oder in mehrere Varianten) aufzuteilen, da möglicherweise Netzwerkeffekte vorhanden sind. Geht es bei dem Test beispielsweise darum zu ermitteln, ob eine Logik zur Formulierung von Preiserhöhungen bei Uber besser ist als eine andere, können die Fahrer nicht in verschiedene Varianten eingeteilt werden, da die Logik das Angebots-Nachfrage-Missverhältnis der gesamten Stadt berücksichtigt. In solchen Fällen muss ein Test die Auswirkungen vor und nach der Änderung vergleichen, um zu einem Ergebnis zu kommen.

Vorher/Nachher-Testen beim Testen von Produkthypothesen

Die Einschränkung besteht hier jedoch in der Unfähigkeit, die Auswirkungen von Saisonalität und externen Einflüssen zu isolieren, die sich unterschiedlich auf die Test- und Kontrollzeiträume auswirken können. Angenommen, eine Änderung an der Logik, die den Preisanstieg bei Uber bestimmt, wird zum Zeitpunkt t vorgenommen, sodass Logik A vorher und Logik B danach verwendet wird. Während die Effekte vor und nach dem Zeitpunkt t verglichen werden können, gibt es keine Garantie dafür, dass die Effekte ausschließlich auf die Änderung der Logik zurückzuführen sind. Es könnte einen Unterschied in der Nachfrage oder anderen Faktoren zwischen den beiden Zeiträumen gegeben haben, die zu einem Unterschied zwischen den beiden geführt haben.

Zeitbasierte Ein/Aus-Tests

Zeitbasiertes Ein-/Aus-Testen beim Testen von Produkthypothesen

Die Nachteile des Vorher/Nachher-Testens können weitgehend überwunden werden, indem zeitbasierte Ein/Aus-Tests eingesetzt werden, bei denen die Änderung für alle Benutzer für einen bestimmten Zeitraum eingeführt und für einen gleichen Zeitraum deaktiviert wird dann für längere Zeit wiederholt.

Beispielsweise kann im Uber-Use-Case die Änderung den Fahrern am Montag angezeigt, am Dienstag zurückgezogen, am Mittwoch erneut angezeigt werden und so weiter.

Obwohl diese Methode die Auswirkungen von Saisonalität und Externalität nicht vollständig beseitigt, reduziert sie sie doch erheblich, wodurch solche Tests robuster werden.

Testdesign

Die Auswahl des richtigen Tests für den jeweiligen Anwendungsfall ist ein wesentlicher Schritt, um eine Hypothese auf die schnellste und robusteste Weise zu validieren. Sobald die Auswahl getroffen ist, können die Details des Testdesigns skizziert werden.

Das Testdesign ist einfach ein kohärenter Überblick über:

Die zu testende Hypothese: Das Anzeigen größerer Produktbilder führt dazu, dass Benutzer mehr Produkte kaufen.
Erfolgsmetriken für den Test: Kundenkonversion
Entscheidungskriterien für den Test: Der Test validiert die Hypothese, dass User in der Variante eine höhere Conversion-Rate aufweisen als jene in der Kontrollgruppe.
Metriken, die instrumentiert werden müssen, um aus dem Test zu lernen: Kundenkonversion, Klicks auf Produktbilder

Bei der Hypothese, dass größere Produktbilder zu einer verbesserten Conversion auf Amazon führen, ist die Erfolgsmetrik die Conversion und das Entscheidungskriterium eine Verbesserung der Conversion.

Nachdem der richtige Test ausgewählt und konzipiert und die Erfolgskriterien und Metriken identifiziert wurden, müssen die Ergebnisse analysiert werden. Dazu sind einige statistische Konzepte notwendig.

Probenahme

Bei der Durchführung von Tests ist es wichtig sicherzustellen, dass die beiden für den Test ausgewählten Varianten (A und B) keine Verzerrung in Bezug auf die Erfolgsmetrik aufweisen. Wenn beispielsweise die Variante, die die größeren Bilder sieht, bereits eine höhere Conversion aufweist als die Variante, die die Änderung nicht sieht, dann ist der Test voreingenommen und kann zu falschen Schlussfolgerungen führen.

Um sicherzustellen, dass die Stichprobe nicht verzerrt wird, kann man den Mittelwert und die Varianz für die Erfolgsmetrik beobachten, bevor die Änderung eingeführt wird.

Bedeutung und Macht

Sobald ein Unterschied zwischen den beiden Varianten beobachtet wird, ist es wichtig, den Schluss zu ziehen, dass die beobachtete Änderung ein tatsächlicher Effekt und kein zufälliger ist. Dies kann durch Berechnung der Signifikanz der Änderung in der Erfolgsmetrik erfolgen.

Vereinfacht ausgedrückt misst die Signifikanz die Häufigkeit, mit der der Test zeigt, dass größere Bilder zu einer höheren Konversion führen, obwohl dies eigentlich nicht der Fall ist. Die Leistung misst die Häufigkeit, mit der uns der Test sagt, dass größere Bilder zu einer höheren Konversion führen, obwohl dies tatsächlich der Fall ist.

Tests müssen also einen hohen Aussagekraftwert und einen niedrigen Signifikanzwert haben, um genauere Ergebnisse zu erzielen.

Während eine eingehende Untersuchung der statistischen Konzepte, die mit dem Testen von Produkthypothesen verbunden sind, hier nicht möglich ist, werden die folgenden Maßnahmen empfohlen, um das Wissen an dieser Front zu erweitern:

Datenanalysten und Dateningenieure sind in der Regel geschickt darin, die richtigen Testdesigns zu identifizieren, und können Produktmanager anleiten. Stellen Sie also sicher, dass Sie ihr Fachwissen frühzeitig im Prozess nutzen.
Es gibt zahlreiche Online-Kurse zu Hypothesentests, A/B-Tests und verwandten statistischen Konzepten wie Udemy, Udacity und Coursera.
Die Verwendung von Tools wie Googles Firebase und Optimizely kann den Prozess dank einer großen Menge an sofort einsatzbereiten Funktionen zum Ausführen der richtigen Tests vereinfachen.

Hypothesentests für erfolgreiches Produktmanagement einsetzen

Um den Benutzern kontinuierlich einen Mehrwert zu liefern, ist es unerlässlich, verschiedene Hypothesen zu testen, wozu verschiedene Arten von Produkthypothesentests eingesetzt werden können. Jede Hypothese muss ein begleitendes Testdesign haben, wie oben beschrieben, um sie endgültig zu validieren oder zu entkräften.

Dieser Ansatz hilft dabei, den Wert neuer Änderungen und Funktionen zu quantifizieren, den Fokus auf die wertvollsten Funktionen zu lenken und inkrementelle Iterationen bereitzustellen.