제품 반복 배송: 가설 테스트 가이드

게시 됨: 2022-03-11

모든 휴대전화에서 Play 스토어/App Store를 살펴보면 설치된 대부분의 앱에 지난 주 내에 업데이트가 릴리스되었음을 알 수 있습니다. 몇 주 후에 웹 사이트를 방문하면 레이아웃, 사용자 경험 또는 사본에 약간의 변경 사항이 표시될 수 있습니다.

오늘날 소프트웨어 제품은 사용자에게 더 나은 제품 경험을 제공하는 요소에 대한 가정과 가설을 검증하기 위해 반복적으로 배송됩니다. 주어진 시간에 부킹닷컴(내가 전에 일했던 곳)과 같은 회사는 바로 이 목적을 위해 사이트에서 수백 개의 A/B 테스트를 실행합니다.

인터넷을 통해 제공되는 애플리케이션의 경우 12~18개월 전에 제품의 모양을 결정하고 빌드하고 최종적으로 배송할 필요가 없습니다. 대신, 사용자 선호도와 이상적인 솔루션에 대해 가정할 필요가 없어 구현되는 사용자에게 가치를 제공하는 작은 변경 사항을 릴리스하는 것이 완벽하게 실용적입니다. 각 변경의.

개선을 통해 지속적인 가치를 제공하는 것 외에도 이 접근 방식을 통해 제품 팀은 사용자로부터 지속적인 피드백을 수집한 다음 필요에 따라 방향을 수정할 수 있습니다. 2주마다 가설을 만들고 테스트하는 것은 제품 가치를 창출하기 위한 과정을 수정하고 반복적인 접근 방식을 구축하는 더 저렴하고 쉬운 방법입니다.

가설검정이란?

기능을 사용자에게 제공하는 동안 실제 세계에 미치는 영향을 이해하기 위해 설계 및 기능에 대한 가정을 검증하는 것이 필수적입니다.

이 검증은 전통적으로 실험자가 변경에 대한 가설을 설명하고 성공을 정의하는 제품 가설 테스트를 통해 수행됩니다. 예를 들어 Amazon의 데이터 제품 관리자가 더 큰 제품 이미지를 표시하면 전환율이 높아진다는 가설이 있는 경우 성공은 더 높은 전환율로 정의됩니다.

가설 테스트의 주요 측면 중 하나는 변경 사항의 성공(또는 실패)을 돌릴 수 있도록 제품 경험에서 다양한 변수를 분리하는 것입니다. 따라서 Amazon 제품 관리자가 제품 이미지 바로 옆에 고객 리뷰를 표시하면 전환율이 향상된다는 추가 가설이 있는 경우 두 가설을 동시에 테스트하는 것은 불가능합니다. 그렇게 하면 원인과 결과를 적절하게 귀속시키는 데 실패하게 됩니다. 따라서 두 변경 사항을 격리하고 개별적으로 테스트해야 합니다.

따라서 기능에 대한 제품 결정은 기능의 성능을 검증하기 위한 가설 테스트에 의해 뒷받침되어야 합니다.

다양한 유형의 가설 테스트

A/B 테스팅

가장 일반적인 사용 사례는 무작위 A/B 테스트로 검증할 수 있습니다. 여기서 변경 또는 기능은 사용자의 절반(A)에게 무작위로 릴리스되고 나머지 절반(B)은 보류됩니다. 아마존에서 더 큰 제품 이미지가 전환을 개선한다는 가설로 돌아가서 사용자의 절반에게는 변경 사항이 표시되고 나머지 절반에게는 웹 사이트가 이전과 같이 표시됩니다. 그런 다음 각 그룹(A 및 B)에 대해 전환을 측정하고 비교합니다. 더 큰 제품 이미지를 표시한 그룹의 전환율이 크게 증가한 경우 결론은 원래 가설이 맞았고 변경 사항을 모든 사용자에게 적용할 수 있다는 것입니다.

다변수 테스트

이상적으로는 각 변수를 분리하고 개별적으로 테스트하여 결정적으로 변경 사항에 속성을 부여해야 합니다. 그러나 이러한 순차적인 테스트 접근 방식은 특히 테스트할 버전이 여러 개인 경우 매우 느릴 수 있습니다. 예제를 계속 진행하려면 아마존에서 더 큰 제품 이미지가 더 높은 전환율로 이어진다는 가정에서 "더 큰"은 주관적이며 "더 큰"의 여러 버전(예: 1.1x, 1.3x 및 1.5x)은 다음을 수행해야 할 수 있습니다. 테스트를 받다.

이러한 경우를 순차적으로 테스트하는 대신 사용자를 반으로 나누지 않고 여러 변형으로 나누는 다변수 테스트를 채택할 수 있습니다. 예를 들어, 4개의 그룹(A, B, C, D)은 각각 사용자의 25%로 구성되며, 여기서 A 그룹 사용자는 변경 사항을 볼 수 없지만 변형 B, C 및 D의 그룹은 이미지가 더 크게 보입니다. 각각 1.1x, 1.3x 및 1.5x입니다. 이 테스트에서는 최상의 변형을 식별하기 위해 제품의 현재 버전에 대해 여러 변형을 동시에 테스트합니다.

테스트 전/후

네트워크 효과가 있을 수 있으므로 사용자를 반으로(또는 여러 변형으로) 분할할 수 없는 경우가 있습니다. 예를 들어 테스트에 Uber의 급등 가격을 공식화하는 논리가 다른 논리보다 더 나은지 여부를 결정하는 것이 포함되는 경우 논리가 전체 도시의 수요 및 공급 불일치를 고려하기 때문에 드라이버를 다른 변형으로 나눌 수 없습니다. 이러한 경우 테스트는 결론에 도달하기 위해 변경 전과 변경 후의 효과를 비교해야 합니다.

그러나 여기에서의 제약은 테스트 및 제어 기간에 다르게 영향을 미칠 수 있는 계절성과 외부성의 효과를 분리할 수 없다는 것입니다. Uber의 급격한 가격 책정을 결정하는 로직이 t 시점에 변경되어 로직 A가 이전에 사용되고 로직 B가 이후에 사용된다고 가정합니다. 시간 t 전후의 효과를 비교할 수 있지만 효과가 오로지 논리의 변화에 의한 것이라는 보장은 없습니다. 두 기간 사이에 수요 또는 기타 요인의 차이로 인해 두 기간 사이에 차이가 발생했을 수 있습니다.

시간 기반 온/오프 테스트

전/후 테스팅의 단점은 일정 시간 동안 모든 사용자에게 변경 사항을 도입하고 동일한 시간 동안 꺼지는 시간 기반 온/오프 테스팅을 적용하여 상당 부분 극복할 수 있습니다. 그런 다음 더 긴 시간 동안 반복됩니다.

예를 들어 Uber 사용 사례에서 변경 사항은 월요일에 운전자에게 표시되고, 화요일에 철회되고, 수요일에 다시 표시되는 식입니다.

이 방법은 계절성과 외부성의 영향을 완전히 제거하지는 않지만 크게 감소시켜 이러한 테스트를 보다 강력하게 만듭니다.

테스트 디자인

사용 사례에 적합한 테스트를 선택하는 것은 가장 빠르고 강력한 방법으로 가설을 검증하는 데 필수적인 단계입니다. 선택이 완료되면 테스트 설계의 세부 사항을 설명할 수 있습니다.

테스트 디자인은 단순히 다음과 같은 일관된 개요입니다.

테스트할 가설: 사용자에게 더 큰 제품 이미지를 표시하면 더 많은 제품을 구매하게 됩니다.
테스트의 성공 메트릭: 고객 전환
테스트를 위한 의사 결정 기준: 테스트는 변형의 사용자가 통제 그룹의 사용자보다 전환율이 더 높다는 가설을 검증합니다.
테스트에서 배우기 위해 계측해야 하는 측정항목: 고객 전환, 제품 이미지 클릭

아마존에서 상품 이미지가 클수록 전환율이 높아진다는 가설의 경우 성공 지표는 전환율이고 결정 기준은 전환율 향상입니다.

올바른 테스트를 선택하고 설계하고 성공 기준과 메트릭을 식별한 후에는 결과를 분석해야 합니다. 이를 위해서는 몇 가지 통계적 개념이 필요합니다.

견본 추출

테스트를 실행할 때 테스트를 위해 선택한 두 가지 변형(A 및 B)에 성공 메트릭과 관련하여 편향이 없는지 확인하는 것이 중요합니다. 예를 들어 더 큰 이미지를 보는 변형이 변경 사항을 보지 못하는 변형보다 이미 더 높은 전환율을 보인다면 테스트가 편향되어 잘못된 결론으로 이어질 수 있습니다.

샘플링에 편향이 없도록 하기 위해 변경 사항이 도입되기 전에 성공 메트릭의 평균과 분산을 관찰할 수 있습니다.

의미와 힘

두 변형 간의 차이가 관찰되면 관찰된 변화가 무작위 효과가 아니라 실제 효과라는 결론을 내리는 것이 중요합니다. 이것은 성공 메트릭에서 변경의 중요성을 계산하여 수행할 수 있습니다.

일반인의 관점에서 의미 는 테스트에서 실제로는 그렇지 않은데도 더 큰 이미지가 더 높은 전환으로 이어진다는 것을 보여주는 빈도를 측정합니다. 검정력 은 테스트에서 더 큰 이미지가 실제로 전환될 때 더 높은 전환으로 이어진다는 것을 알려주는 빈도를 측정합니다.

따라서 검정은 보다 정확한 결과를 얻기 위해 검정력 값이 높고 유의성이 낮아야 합니다.

제품 가설 테스트와 관련된 통계적 개념에 대한 심층 탐구는 여기에서 다루지 않지만, 이 분야에 대한 지식을 향상시키기 위해 다음 조치가 권장됩니다.

데이터 분석가와 데이터 엔지니어는 일반적으로 올바른 테스트 디자인을 식별하는 데 능숙하고 제품 관리자를 안내할 수 있으므로 프로세스 초기에 전문 지식을 활용해야 합니다.
Udemy, Udacity 및 Coursera와 같은 가설 테스트, A/B 테스트 및 관련 통계 개념에 대한 수많은 온라인 과정이 있습니다.
Google의 Firebase 및 Optimizely와 같은 도구를 사용하면 올바른 테스트를 실행하기 위한 즉시 사용 가능한 많은 기능 덕분에 프로세스를 더 쉽게 만들 수 있습니다.

성공적인 제품 관리를 위한 가설 검정 사용

사용자에게 지속적으로 가치를 전달하기 위해서는 여러 가지 유형의 제품 가설 테스트를 사용할 수 있는 다양한 가설을 테스트하는 것이 필수적입니다. 각 가설은 결론적으로 검증하거나 무효화하기 위해 위에서 설명한 대로 테스트 설계를 수반해야 합니다.

이 접근 방식은 새로운 변경 사항 및 기능이 제공하는 가치를 수량화하고, 가장 가치 있는 기능에 초점을 맞추고, 점진적 반복을 제공하는 데 도움이 됩니다.