Envío de su producto en iteraciones: una guía para la prueba de hipótesis

Publicado: 2022-03-11

Un vistazo a Play Store/App Store en cualquier teléfono revelará que la mayoría de las aplicaciones instaladas se han actualizado durante la última semana. Una visita al sitio web después de algunas semanas puede mostrar algunos cambios en el diseño, la experiencia del usuario o la copia.

Los productos de software de hoy en día se envían en iteraciones para validar suposiciones e hipótesis sobre lo que hace que la experiencia del producto sea mejor para los usuarios. En un momento dado, compañías como booking.com (donde trabajé antes) ejecutan cientos de pruebas A/B en sus sitios con este mismo propósito.

Para las aplicaciones entregadas a través de Internet, no es necesario decidir el aspecto de un producto con 12 a 18 meses de anticipación, y luego construirlo y finalmente enviarlo. En cambio, es perfectamente práctico lanzar pequeños cambios que brinden valor a los usuarios a medida que se implementan, eliminando la necesidad de hacer suposiciones sobre las preferencias de los usuarios y las soluciones ideales, ya que cada suposición e hipótesis se puede validar mediante el diseño de una prueba para aislar el efecto. de cada cambio.

Además de brindar valor continuo a través de mejoras, este enfoque permite que un equipo de producto recopile comentarios continuos de los usuarios y luego corrija el rumbo según sea necesario. Crear y probar hipótesis cada dos semanas es una forma más barata y fácil de construir un enfoque iterativo y de corrección de rumbo para crear valor del producto.

¿Qué es la prueba de hipótesis?

Al enviar una función a los usuarios, es imperativo validar las suposiciones sobre el diseño y las funciones para comprender su impacto en el mundo real.

Esta validación se realiza tradicionalmente a través de pruebas de hipótesis de productos, durante las cuales el experimentador esboza una hipótesis para un cambio y luego define el éxito. Por ejemplo, si un gerente de productos de datos en Amazon tiene la hipótesis de que mostrar imágenes de productos más grandes aumentará las tasas de conversión, entonces el éxito se define por tasas de conversión más altas.

Uno de los aspectos clave de la prueba de hipótesis es el aislamiento de diferentes variables en la experiencia del producto para poder atribuir el éxito (o el fracaso) a los cambios realizados. Por lo tanto, si nuestro gerente de producto de Amazon tuviera la hipótesis adicional de que mostrar las reseñas de los clientes junto a las imágenes del producto mejoraría la conversión, no sería posible probar ambas hipótesis al mismo tiempo. Si lo hiciera, no se podrían atribuir correctamente las causas y los efectos; por lo tanto, los dos cambios deben aislarse y probarse individualmente.

Por lo tanto, las decisiones de productos sobre las funciones deben estar respaldadas por pruebas de hipótesis para validar el rendimiento de las funciones.

Diferentes tipos de pruebas de hipótesis

Pruebas A/B

Pruebas A/B en pruebas de hipótesis de productos

Los casos de uso más comunes se pueden validar mediante pruebas A/B aleatorias, en las que un cambio o función se publica aleatoriamente para la mitad de los usuarios (A) y se retiene para la otra mitad (B). Volviendo a la hipótesis de que las imágenes de productos más grandes mejoran la conversión en Amazon, a la mitad de los usuarios se les mostrará el cambio, mientras que la otra mitad verá la web como estaba antes. Luego se medirá la conversión para cada grupo (A y B) y se comparará. En caso de un aumento significativo en la conversión para el grupo que muestra imágenes de productos más grandes, la conclusión sería que la hipótesis original era correcta y que el cambio se puede implementar para todos los usuarios.

Pruebas multivariadas

Pruebas multivariadas en pruebas de hipótesis de productos

Idealmente, cada variable debe aislarse y probarse por separado para atribuir los cambios de manera concluyente. Sin embargo, este enfoque secuencial de las pruebas puede ser muy lento, especialmente cuando hay varias versiones para probar. Para continuar con el ejemplo, en la hipótesis de que las imágenes de productos más grandes conducen a tasas de conversión más altas en Amazon, "más grande" es subjetivo, y es posible que se necesiten varias versiones de "más grande" (por ejemplo, 1.1x, 1.3x y 1.5x). ser probado

En lugar de probar estos casos secuencialmente, se puede adoptar una prueba multivariada, en la que los usuarios no se dividen por la mitad sino en múltiples variantes. Por ejemplo, cuatro grupos (A, B, C, D) están compuestos por un 25 % de usuarios cada uno, donde los usuarios del grupo A no verán ningún cambio, mientras que los de las variantes B, C y D verán imágenes más grandes. 1,1x, 1,3x y 1,5x, respectivamente. En esta prueba, múltiples variantes se comparan simultáneamente con la versión actual del producto para identificar la mejor variante.

Antes/después de la prueba

A veces, no es posible dividir a los usuarios por la mitad (o en múltiples variantes) ya que puede haber efectos de red en su lugar. Por ejemplo, si la prueba consiste en determinar si una lógica para formular aumentos de precios en Uber es mejor que otra, los conductores no se pueden dividir en diferentes variantes, ya que la lógica tiene en cuenta el desajuste entre la oferta y la demanda de toda la ciudad. En tales casos, una prueba deberá comparar los efectos antes del cambio y después del cambio para llegar a una conclusión.

Antes/después de la prueba en la prueba de hipótesis del producto

Sin embargo, la limitación aquí es la incapacidad de aislar los efectos de la estacionalidad y la externalidad que pueden afectar de manera diferente los períodos de prueba y control. Supongamos que se realiza un cambio en la lógica que determina el aumento de precios en Uber en el momento t , de modo que la lógica A se usa antes y la lógica B se usa después. Si bien se pueden comparar los efectos antes y después del tiempo t , no hay garantía de que los efectos se deban únicamente al cambio de lógica. Podría haber habido una diferencia en la demanda u otros factores entre los dos períodos de tiempo que resultaron en una diferencia entre los dos.

Pruebas de encendido/apagado basadas en el tiempo

Pruebas de encendido/apagado basadas en el tiempo en las pruebas de hipótesis del producto

Las desventajas de las pruebas antes/después se pueden superar en gran medida mediante la implementación de pruebas de activación/desactivación basadas en el tiempo, en las que el cambio se presenta a todos los usuarios durante un cierto período de tiempo, se desactiva durante un período de tiempo igual y luego se repite durante más tiempo.

Por ejemplo, en el caso de uso de Uber, el cambio puede mostrarse a los conductores el lunes, retirarse el martes, volver a mostrarse el miércoles, etc.

Si bien este método no elimina por completo los efectos de la estacionalidad y la externalidad, los reduce significativamente, lo que hace que dichas pruebas sean más sólidas.

Diseño de prueba

Elegir la prueba adecuada para el caso de uso en cuestión es un paso esencial para validar una hipótesis de la manera más rápida y sólida. Una vez hecha la elección, se pueden esbozar los detalles del diseño de la prueba.

El diseño de la prueba es simplemente un esquema coherente de:

  • La hipótesis a probar: mostrar a los usuarios imágenes de productos más grandes los llevará a comprar más productos.
  • Métricas de éxito para la prueba: Conversión de clientes
  • Criterios de decisión de la prueba: La prueba valida la hipótesis de que los usuarios de la variante muestran una mayor tasa de conversión que los del grupo de control.
  • Métricas que deben instrumentarse para aprender de la prueba: conversión de clientes, clics en imágenes de productos

En el caso de la hipótesis de que las imágenes de productos más grandes conducirán a una mejor conversión en Amazon, la métrica de éxito es la conversión y el criterio de decisión es una mejora en la conversión.

Después de elegir y diseñar la prueba correcta, y de identificar los criterios de éxito y las métricas, se deben analizar los resultados. Para hacer eso, algunos conceptos estadísticos son necesarios.

Muestreo

Al ejecutar pruebas, es importante asegurarse de que las dos variantes elegidas para la prueba (A y B) no tengan un sesgo con respecto a la métrica de éxito. Por ejemplo, si la variante que ve las imágenes más grandes ya tiene una conversión más alta que la variante que no ve el cambio, entonces la prueba está sesgada y puede llevar a conclusiones erróneas.

Para garantizar que no haya sesgo en el muestreo, se puede observar la media y la varianza de la métrica de éxito antes de introducir el cambio.

Importancia y poder

Una vez que se observa una diferencia entre las dos variantes, es importante concluir que el cambio observado es un efecto real y no aleatorio. Esto se puede hacer calculando la importancia del cambio en la métrica de éxito.

En términos sencillos, la importancia mide la frecuencia con la que la prueba muestra que las imágenes más grandes conducen a una mayor conversión cuando en realidad no es así. La potencia mide la frecuencia con la que la prueba nos dice que las imágenes más grandes conducen a una mayor conversión cuando en realidad lo hacen.

Por lo tanto, las pruebas deben tener un alto valor de potencia y un bajo valor de significación para obtener resultados más precisos.


Si bien una exploración profunda de los conceptos estadísticos involucrados en la prueba de hipótesis de productos está fuera del alcance aquí, se recomiendan las siguientes acciones para mejorar el conocimiento en este frente:

  • Los analistas de datos y los ingenieros de datos suelen ser expertos en identificar los diseños de prueba correctos y pueden guiar a los gerentes de productos, así que asegúrese de utilizar su experiencia al principio del proceso.
  • Existen numerosos cursos en línea sobre pruebas de hipótesis, pruebas A/B y conceptos estadísticos relacionados, como Udemy, Udacity y Coursera.
  • El uso de herramientas como Firebase y Optimizely de Google puede facilitar el proceso gracias a una gran cantidad de capacidades listas para usar para ejecutar las pruebas correctas.

Uso de pruebas de hipótesis para una gestión de productos exitosa

Con el fin de ofrecer valor a los usuarios de forma continua, es imperativo probar varias hipótesis, para lo cual se pueden emplear varios tipos de pruebas de hipótesis de productos. Cada hipótesis debe tener un diseño de prueba adjunto, como se describe anteriormente, para validarla o invalidarla de manera concluyente.

Este enfoque ayuda a cuantificar el valor entregado por los nuevos cambios y funciones, enfocarse en las funciones más valiosas y ofrecer iteraciones incrementales.