Expédition de votre produit par itérations : un guide pour les tests d'hypothèses

Publié: 2022-03-11

Un coup d'œil sur le Play Store/App Store sur n'importe quel téléphone révélera que la plupart des applications installées ont reçu des mises à jour au cours de la semaine dernière. Une visite du site Web après quelques semaines peut montrer des changements dans la mise en page, l'expérience utilisateur ou la copie.

Les produits logiciels d'aujourd'hui sont livrés par itérations pour valider les suppositions et les hypothèses sur ce qui améliore l'expérience du produit pour les utilisateurs. À tout moment, des entreprises comme booking.com (où j'ai travaillé auparavant) exécutent des centaines de tests A/B sur leurs sites dans ce but précis.

Pour les applications livrées sur Internet, il n'est pas nécessaire de décider de l'apparence d'un produit 12 à 18 mois à l'avance, puis de le construire et éventuellement de l'expédier. Au lieu de cela, il est parfaitement pratique de publier de petits changements qui apportent de la valeur aux utilisateurs au fur et à mesure de leur mise en œuvre, éliminant ainsi le besoin de faire des hypothèses sur les préférences des utilisateurs et les solutions idéales - car chaque hypothèse et hypothèse peut être validée en concevant un test pour isoler l'effet de chaque changement.

En plus de fournir une valeur continue grâce à des améliorations, cette approche permet à une équipe produit de recueillir en continu les commentaires des utilisateurs, puis de corriger le cours si nécessaire. Créer et tester des hypothèses toutes les deux semaines est un moyen moins cher et plus facile de construire une approche itérative et de correction de cap pour créer de la valeur produit.

Qu'est-ce que le test d'hypothèse ?

Lors de la livraison d'une fonctionnalité aux utilisateurs, il est impératif de valider les hypothèses sur la conception et les fonctionnalités afin de comprendre leur impact dans le monde réel.

Cette validation se fait traditionnellement par le biais de tests d'hypothèses de produits, au cours desquels l'expérimentateur décrit une hypothèse de changement, puis définit le succès. Par exemple, si un responsable de produit de données chez Amazon a l'hypothèse que l'affichage d'images de produits plus grandes augmentera les taux de conversion, alors le succès est défini par des taux de conversion plus élevés.

L'un des aspects clés des tests d'hypothèses est l'isolement de différentes variables dans l'expérience produit afin de pouvoir attribuer le succès (ou l'échec) aux changements apportés. Ainsi, si notre chef de produit Amazon avait une autre hypothèse selon laquelle afficher les avis des clients juste à côté des images des produits améliorerait la conversion, il ne serait pas possible de tester les deux hypothèses en même temps. Cela reviendrait à ne pas attribuer correctement les causes et les effets ; par conséquent, les deux modifications doivent être isolées et testées individuellement.

Ainsi, les décisions de produit sur les fonctionnalités doivent être étayées par des tests d'hypothèses pour valider les performances des fonctionnalités.

Différents types de tests d'hypothèses

Test A/B

Les cas d'utilisation les plus courants peuvent être validés par des tests A/B aléatoires, dans lesquels un changement ou une fonctionnalité est publié au hasard pour la moitié des utilisateurs (A) et retenu pour l'autre moitié (B). Revenant à l'hypothèse d'images de produits plus grandes améliorant la conversion sur Amazon, la moitié des utilisateurs verra le changement, tandis que l'autre moitié verra le site Web tel qu'il était avant. La conversion sera ensuite mesurée pour chaque groupe (A et B) et comparée. En cas d'augmentation significative de la conversion pour le groupe affichant des images de produits plus grandes, la conclusion serait que l'hypothèse d'origine était correcte et que le changement peut être déployé pour tous les utilisateurs.

Tests multivariés

Idéalement, chaque variable devrait être isolée et testée séparément afin d'attribuer de manière concluante les changements. Cependant, une telle approche séquentielle des tests peut être très lente, surtout lorsqu'il y a plusieurs versions à tester. Pour continuer avec l'exemple, dans l'hypothèse où des images de produits plus grandes entraînent des taux de conversion plus élevés sur Amazon, "plus gros" est subjectif, et plusieurs versions de "plus gros" (par exemple, 1.1x, 1.3x et 1.5x) pourraient avoir besoin de être testé.

Au lieu de tester ces cas de manière séquentielle, un test multivarié peut être adopté, dans lequel les utilisateurs ne sont pas divisés en deux mais en plusieurs variantes. Par exemple, quatre groupes (A, B, C, D) sont composés de 25 % d'utilisateurs chacun, où les utilisateurs du groupe A ne verront aucun changement, tandis que ceux des variantes B, C et D verront des images plus grandes de 1,1x, 1,3x et 1,5x, respectivement. Dans ce test, plusieurs variantes sont testées simultanément par rapport à la version actuelle du produit afin d'identifier la meilleure variante.

Test avant/après

Parfois, il n'est pas possible de diviser les utilisateurs en deux (ou en plusieurs variantes) car il peut y avoir des effets de réseau en place. Par exemple, si le test consiste à déterminer si une logique de formulation des prix des surtensions sur Uber est meilleure qu'une autre, les moteurs ne peuvent pas être divisés en différentes variantes, car la logique prend en compte l'inadéquation de l'offre et de la demande de toute la ville. Dans de tels cas, un test devra comparer les effets avant le changement et après le changement afin d'arriver à une conclusion.

Cependant, la contrainte ici est l'incapacité d'isoler les effets de la saisonnalité et de l'externalité qui peuvent affecter différemment les périodes de test et de contrôle. Supposons qu'une modification de la logique qui détermine la tarification des surtensions sur Uber est effectuée au temps t , de sorte que la logique A est utilisée avant et la logique B est utilisée après. Alors que les effets avant et après le temps t peuvent être comparés, il n'y a aucune garantie que les effets soient uniquement dus au changement de logique. Il pourrait y avoir eu une différence de demande ou d'autres facteurs entre les deux périodes qui ont entraîné une différence entre les deux.

Test marche/arrêt basé sur le temps

Tests marche/arrêt basés sur le temps dans les tests d'hypothèse de produit

Les inconvénients des tests avant/après peuvent être surmontés dans une large mesure en déployant des tests marche/arrêt basés sur le temps, dans lesquels le changement est présenté à tous les utilisateurs pendant une certaine période de temps, désactivé pendant une période de temps égale, et puis répété plus longtemps.

Par exemple, dans le cas d'utilisation d'Uber, la modification peut être montrée aux chauffeurs le lundi, retirée le mardi, montrée à nouveau le mercredi, etc.

Bien que cette méthode ne supprime pas complètement les effets de la saisonnalité et de l'externalité, elle les réduit considérablement, ce qui rend ces tests plus robustes.

Conception des tests

Choisir le bon test pour le cas d'utilisation en question est une étape essentielle pour valider une hypothèse de la manière la plus rapide et la plus robuste. Une fois le choix fait, les détails de la conception du test peuvent être définis.

La conception du test est simplement un aperçu cohérent de :

L'hypothèse à tester : montrer aux utilisateurs des images de produits plus grandes les incitera à acheter plus de produits.
Indicateurs de réussite pour le test : conversion client
Critères décisionnels du test : Le test valide l'hypothèse selon laquelle les utilisateurs de la variante affichent un taux de conversion supérieur à ceux du groupe témoin.
Métriques qui doivent être instrumentées pour tirer des enseignements du test : conversion client, clics sur les images des produits

Dans le cas de l'hypothèse selon laquelle des images de produits plus grandes entraîneront une amélioration de la conversion sur Amazon, la mesure de réussite est la conversion et le critère de décision est une amélioration de la conversion.

Après avoir choisi et conçu le bon test, et identifié les critères de réussite et les mesures, les résultats doivent être analysés. Pour ce faire, certains concepts statistiques sont nécessaires.

Échantillonnage

Lors de l'exécution des tests, il est important de s'assurer que les deux variantes choisies pour le test (A et B) n'ont pas de biais par rapport à la métrique de réussite. Par exemple, si la variante qui voit les plus grandes images a déjà une conversion plus élevée que la variante qui ne voit pas le changement, alors le test est biaisé et peut conduire à des conclusions erronées.

Afin d'assurer l'absence de biais dans l'échantillonnage, on peut observer la moyenne et la variance de la métrique de réussite avant l'introduction du changement.

Signification et pouvoir

Une fois qu'une différence entre les deux variantes est observée, il est important de conclure que le changement observé est un effet réel et non aléatoire. Cela peut être fait en calculant l'importance du changement dans la métrique de succès.

En termes simples, la signification mesure la fréquence à laquelle le test montre que des images plus grandes entraînent une conversion plus élevée alors qu'en réalité ce n'est pas le cas. La puissance mesure la fréquence à laquelle le test nous indique que des images plus grandes entraînent une conversion plus élevée lorsqu'elles le font réellement.

Ainsi, les tests doivent avoir une valeur de puissance élevée et une faible valeur de signification pour des résultats plus précis.

Bien qu'une exploration approfondie des concepts statistiques impliqués dans les tests d'hypothèses de produits soit hors de portée ici, les actions suivantes sont recommandées pour améliorer les connaissances sur ce front :

Les analystes de données et les ingénieurs de données sont généralement aptes à identifier les bonnes conceptions de test et peuvent guider les chefs de produit, alors assurez-vous d'utiliser leur expertise au début du processus.
Il existe de nombreux cours en ligne sur les tests d'hypothèses, les tests A/B et les concepts statistiques connexes, tels que Udemy, Udacity et Coursera.
L'utilisation d'outils tels que Firebase de Google et Optimizely peut faciliter le processus grâce à une grande quantité de fonctionnalités prêtes à l'emploi pour exécuter les bons tests.

Utilisation des tests d'hypothèses pour une gestion de produit réussie

Afin de fournir en permanence de la valeur aux utilisateurs, il est impératif de tester diverses hypothèses, dans le but desquelles plusieurs types de tests d'hypothèses de produits peuvent être utilisés. Chaque hypothèse doit être accompagnée d'une conception de test, comme décrit ci-dessus, afin de la valider ou de l'invalider de manière concluante.

Cette approche permet de quantifier la valeur apportée par les nouvelles modifications et fonctionnalités, de se concentrer sur les fonctionnalités les plus utiles et de fournir des itérations incrémentielles.