Mengirim Produk Anda dalam Iterasi: Panduan untuk Pengujian Hipotesis

Diterbitkan: 2022-03-11

Melihat Play Store / App Store di ponsel apa pun akan mengungkapkan bahwa sebagian besar aplikasi yang diinstal memiliki pembaruan yang dirilis dalam seminggu terakhir. Kunjungan situs web setelah beberapa minggu mungkin menunjukkan beberapa perubahan dalam tata letak, pengalaman pengguna, atau salinan.

Produk perangkat lunak saat ini dikirimkan dalam iterasi untuk memvalidasi asumsi dan hipotesis tentang apa yang membuat pengalaman produk lebih baik bagi pengguna. Pada waktu tertentu, perusahaan seperti booking.com (tempat saya bekerja sebelumnya) menjalankan ratusan pengujian A/B di situs mereka untuk tujuan ini.

Untuk aplikasi yang dikirim melalui internet, tidak perlu memutuskan tampilan produk 12-18 bulan sebelumnya, lalu membangun dan akhirnya mengirimkannya. Alih-alih, sangat praktis untuk merilis perubahan kecil yang memberikan nilai kepada pengguna saat diimplementasikan, menghilangkan kebutuhan untuk membuat asumsi tentang preferensi pengguna dan solusi ideal—untuk setiap asumsi dan hipotesis dapat divalidasi dengan merancang tes untuk mengisolasi efeknya. dari setiap perubahan.

Selain memberikan nilai berkelanjutan melalui peningkatan, pendekatan ini memungkinkan tim produk untuk mengumpulkan umpan balik berkelanjutan dari pengguna dan kemudian mengoreksi kursus sesuai kebutuhan. Membuat dan menguji hipotesis setiap beberapa minggu adalah cara yang lebih murah dan mudah untuk membangun pendekatan koreksi-kursus dan iteratif untuk menciptakan nilai produk.

Apa itu Pengujian Hipotesis?

Saat mengirimkan fitur kepada pengguna, sangat penting untuk memvalidasi asumsi tentang desain dan fitur untuk memahami dampaknya di dunia nyata.

Validasi ini secara tradisional dilakukan melalui pengujian hipotesis produk, di mana peneliti menguraikan hipotesis untuk perubahan dan kemudian mendefinisikan keberhasilan. Misalnya, jika manajer produk data di Amazon memiliki hipotesis bahwa menampilkan gambar produk yang lebih besar akan meningkatkan tingkat konversi, maka keberhasilan ditentukan oleh tingkat konversi yang lebih tinggi.

Salah satu aspek kunci dari pengujian hipotesis adalah isolasi variabel yang berbeda dalam pengalaman produk agar dapat menghubungkan keberhasilan (atau kegagalan) dengan perubahan yang dibuat. Jadi, jika manajer produk Amazon kami memiliki hipotesis lebih lanjut yang menunjukkan ulasan pelanggan tepat di sebelah gambar produk akan meningkatkan konversi, tidak mungkin menguji kedua hipotesis pada saat yang bersamaan. Melakukan hal itu akan mengakibatkan kegagalan untuk menghubungkan sebab dan akibat dengan benar; oleh karena itu, kedua perubahan tersebut harus diisolasi dan diuji satu per satu.

Dengan demikian, keputusan produk pada fitur harus didukung oleh pengujian hipotesis untuk memvalidasi kinerja fitur.

Berbagai Jenis Pengujian Hipotesis

Pengujian A/B

Kasus penggunaan yang paling umum dapat divalidasi dengan pengujian A/B acak, di mana perubahan atau fitur dirilis secara acak ke separuh pengguna (A) dan ditahan dari separuh lainnya (B). Kembali ke hipotesis gambar produk yang lebih besar yang meningkatkan konversi di Amazon, setengah dari pengguna akan diperlihatkan perubahannya, sementara separuh lainnya akan melihat situs web seperti sebelumnya. Konversi tersebut kemudian akan diukur untuk setiap kelompok (A dan B) dan dibandingkan. Jika terjadi peningkatan konversi yang signifikan untuk grup yang menampilkan gambar produk yang lebih besar, kesimpulannya adalah hipotesis awal benar, dan perubahan dapat diluncurkan ke semua pengguna.

Pengujian Multivariasi

Pengujian multivariat dalam pengujian hipotesis produk

Idealnya, setiap variabel harus diisolasi dan diuji secara terpisah sehingga dapat menyimpulkan perubahan atribut. Namun, pendekatan pengujian berurutan seperti itu bisa sangat lambat, terutama bila ada beberapa versi yang akan diuji. Untuk melanjutkan contoh, dalam hipotesis bahwa gambar produk yang lebih besar menghasilkan tingkat konversi yang lebih tinggi di Amazon, "lebih besar" bersifat subjektif, dan beberapa versi "lebih besar" (misalnya, 1.1x, 1.3x, dan 1.5x) mungkin perlu diuji.

Alih-alih menguji kasus tersebut secara berurutan, pengujian multivarian dapat diadopsi, di mana pengguna tidak dibagi menjadi dua tetapi menjadi beberapa varian. Misalnya, empat grup (A, B, C, D) masing-masing terdiri dari 25% pengguna, di mana pengguna grup A tidak akan melihat perubahan apa pun, sedangkan mereka yang berada di varian B, C, dan D akan melihat gambar lebih besar dengan 1.1x, 1.3x, dan 1.5x, masing-masing. Dalam pengujian ini, beberapa varian diuji secara bersamaan terhadap versi produk saat ini untuk mengidentifikasi varian terbaik.

Sebelum/Setelah Pengujian

Terkadang, tidak mungkin untuk membagi pengguna menjadi dua (atau menjadi beberapa varian) karena mungkin ada efek jaringan. Misalnya, jika pengujian melibatkan penentuan apakah satu logika untuk merumuskan lonjakan harga di Uber lebih baik daripada yang lain, driver tidak dapat dibagi menjadi beberapa varian, karena logika memperhitungkan ketidakcocokan permintaan dan penawaran di seluruh kota. Dalam kasus seperti itu, tes harus membandingkan efek sebelum perubahan dan setelah perubahan untuk sampai pada kesimpulan.

Sebelum/sesudah pengujian dalam pengujian hipotesis produk

Namun, kendala di sini adalah ketidakmampuan untuk mengisolasi efek musiman dan eksternalitas yang dapat mempengaruhi periode pengujian dan kontrol secara berbeda. Misalkan perubahan pada logika yang menentukan harga lonjakan pada Uber dilakukan pada waktu t , sehingga logika A digunakan sebelum dan logika B digunakan setelahnya. Sementara efek sebelum dan sesudah waktu t dapat dibandingkan, tidak ada jaminan bahwa efek tersebut semata-mata disebabkan oleh perubahan logika. Mungkin ada perbedaan dalam permintaan atau faktor lain antara dua periode waktu yang mengakibatkan perbedaan di antara keduanya.

Pengujian On/Off berbasis waktu

Kelemahan sebelum/sesudah pengujian dapat diatasi sebagian besar dengan menerapkan pengujian on/off berbasis waktu, di mana perubahan diperkenalkan ke semua pengguna untuk jangka waktu tertentu, dimatikan untuk jangka waktu yang sama, dan kemudian diulang untuk durasi yang lebih lama.

Misalnya, dalam kasus penggunaan Uber, perubahan dapat ditunjukkan kepada pengemudi pada hari Senin, ditarik pada hari Selasa, ditampilkan lagi pada hari Rabu, dan seterusnya.

Meskipun metode ini tidak sepenuhnya menghilangkan efek musiman dan eksternalitas, metode ini menguranginya secara signifikan, membuat pengujian semacam itu lebih kuat.

Desain Tes

Memilih tes yang tepat untuk use case yang ada merupakan langkah penting dalam memvalidasi hipotesis dengan cara tercepat dan paling kuat. Setelah pilihan dibuat, detail desain pengujian dapat diuraikan.

Desain tes hanyalah garis besar yang koheren dari:

Hipotesis yang akan diuji: Menampilkan gambar produk yang lebih besar kepada pengguna akan mengarahkan mereka untuk membeli lebih banyak produk.
Metrik keberhasilan untuk pengujian: Konversi pelanggan
Kriteria pengambilan keputusan untuk pengujian: Pengujian memvalidasi hipotesis bahwa pengguna di varian menunjukkan rasio konversi yang lebih tinggi daripada pengguna di grup kontrol.
Metrik yang perlu diinstrumentasi untuk belajar dari pengujian: Konversi pelanggan, klik pada gambar produk

Dalam kasus hipotesis bahwa gambar produk yang lebih besar akan mengarah pada peningkatan konversi di Amazon, metrik keberhasilannya adalah konversi dan kriteria keputusannya adalah peningkatan konversi.

Setelah tes yang tepat dipilih dan dirancang, dan kriteria serta metrik keberhasilan diidentifikasi, hasilnya harus dianalisis. Untuk melakukan itu, beberapa konsep statistik diperlukan.

Contoh

Saat menjalankan pengujian, penting untuk memastikan bahwa dua varian yang dipilih untuk pengujian (A dan B) tidak memiliki bias sehubungan dengan metrik keberhasilan. Misalnya, jika varian yang melihat gambar lebih besar sudah memiliki konversi yang lebih tinggi daripada varian yang tidak melihat perubahan, maka pengujian tersebut bias dan dapat menghasilkan kesimpulan yang salah.

Untuk memastikan tidak ada bias dalam pengambilan sampel, seseorang dapat mengamati mean dan varians untuk metrik keberhasilan sebelum perubahan diperkenalkan.

Signifikansi dan Kekuatan

Setelah perbedaan antara dua varian diamati, penting untuk menyimpulkan bahwa perubahan yang diamati adalah efek aktual dan bukan efek acak. Ini dapat dilakukan dengan menghitung signifikansi perubahan dalam metrik keberhasilan.

Dalam istilah awam, signifikansi mengukur frekuensi pengujian yang menunjukkan bahwa gambar yang lebih besar menghasilkan konversi yang lebih tinggi padahal sebenarnya tidak. Daya mengukur frekuensi pengujian yang memberi tahu kita bahwa gambar yang lebih besar menghasilkan konversi yang lebih tinggi ketika benar-benar melakukannya.

Jadi, tes harus memiliki nilai daya yang tinggi dan nilai signifikansi yang rendah untuk hasil yang lebih akurat.

Sementara eksplorasi mendalam tentang konsep statistik yang terlibat dalam pengujian hipotesis produk berada di luar cakupan di sini, tindakan berikut direkomendasikan untuk meningkatkan pengetahuan di bidang ini:

Analis data dan insinyur data biasanya mahir dalam mengidentifikasi desain pengujian yang tepat dan dapat memandu manajer produk, jadi pastikan untuk memanfaatkan keahlian mereka di awal proses.
Ada banyak kursus online tentang pengujian hipotesis, pengujian A/B, dan konsep statistik terkait, seperti Udemy, Udacity, dan Coursera.
Menggunakan alat seperti Google Firebase dan Optimizely dapat membuat proses lebih mudah berkat sejumlah besar kemampuan siap pakai untuk menjalankan pengujian yang tepat.

Menggunakan Pengujian Hipotesis untuk Manajemen Produk yang Sukses

Untuk terus memberikan nilai kepada pengguna, sangat penting untuk menguji berbagai hipotesis, untuk tujuan yang beberapa jenis pengujian hipotesis produk dapat digunakan. Setiap hipotesis perlu memiliki desain pengujian yang menyertainya, seperti dijelaskan di atas, untuk secara meyakinkan memvalidasi atau membatalkannya.

Pendekatan ini membantu untuk mengukur nilai yang diberikan oleh perubahan dan fitur baru, membawa fokus ke fitur yang paling berharga, dan memberikan iterasi tambahan.