การจัดส่งสินค้าของคุณแบบวนซ้ำ: คู่มือการทดสอบสมมติฐาน

เผยแพร่แล้ว: 2022-03-11

การดู Play Store/App Store บนโทรศัพท์ทุกเครื่องจะเผยให้เห็นว่าแอพที่ติดตั้งส่วนใหญ่มีการอัปเดตที่เผยแพร่ภายในสัปดาห์ที่แล้ว การเยี่ยมชมเว็บไซต์หลังจากผ่านไปสองสามสัปดาห์อาจแสดงการเปลี่ยนแปลงบางอย่างในเลย์เอาต์ ประสบการณ์ของผู้ใช้ หรือสำเนา

ผลิตภัณฑ์ซอฟต์แวร์ในปัจจุบันมีการจัดส่งซ้ำเพื่อตรวจสอบสมมติฐานและสมมติฐานเกี่ยวกับสิ่งที่ทำให้ประสบการณ์ใช้งานผลิตภัณฑ์ดีขึ้นสำหรับผู้ใช้ ในช่วงเวลาใดก็ตาม บริษัทต่างๆ เช่น booking.com (ซึ่งฉันเคยทำงานมาก่อน) ทำการทดสอบ A/B หลายร้อยรายการบนเว็บไซต์ของตนเพื่อจุดประสงค์นี้

สำหรับแอปพลิเคชันที่จัดส่งทางอินเทอร์เน็ต ไม่จำเป็นต้องตัดสินใจเกี่ยวกับรูปลักษณ์ของผลิตภัณฑ์ล่วงหน้า 12-18 เดือน จากนั้นจึงสร้างและจัดส่งในที่สุด ในทางกลับกัน การเผยแพร่การเปลี่ยนแปลงเล็กๆ น้อยๆ ที่มอบคุณค่าให้กับผู้ใช้ในขณะที่กำลังดำเนินการนั้นเป็นประโยชน์อย่างยิ่ง ไม่จำเป็นต้องตั้งสมมติฐานเกี่ยวกับความชอบของผู้ใช้และวิธีแก้ปัญหาในอุดมคติ สำหรับทุกสมมติฐานและสมมติฐาน สามารถตรวจสอบได้โดยการออกแบบการทดสอบเพื่อแยกผลกระทบ ของการเปลี่ยนแปลงแต่ละครั้ง

นอกเหนือจากการส่งมอบคุณค่าอย่างต่อเนื่องผ่านการปรับปรุง แนวทางนี้ยังช่วยให้ทีมผลิตภัณฑ์รวบรวมคำติชมอย่างต่อเนื่องจากผู้ใช้ และจากนั้นแก้ไขหลักสูตรตามความจำเป็น การสร้างและทดสอบสมมติฐานทุกสองสามสัปดาห์เป็นวิธีที่ถูกกว่าและง่ายกว่าในการสร้างแนวทางแก้ไขหลักสูตรและทำซ้ำเพื่อสร้างมูลค่าผลิตภัณฑ์

การทดสอบสมมติฐานคืออะไร?

ขณะจัดส่งคุณลักษณะให้กับผู้ใช้ จำเป็นต้องตรวจสอบสมมติฐานเกี่ยวกับการออกแบบและคุณลักษณะต่างๆ เพื่อทำความเข้าใจผลกระทบที่เกิดขึ้นในโลกแห่งความเป็นจริง

การตรวจสอบความถูกต้องนี้ดำเนินการตามปกติโดยการทดสอบสมมติฐานผลิตภัณฑ์ ในระหว่างนั้นผู้ทดลองจะร่างสมมติฐานสำหรับการเปลี่ยนแปลงแล้วกำหนดความสำเร็จ ตัวอย่างเช่น หากผู้จัดการผลิตภัณฑ์ข้อมูลที่ Amazon มีสมมติฐานว่าการแสดงภาพผลิตภัณฑ์ที่มีขนาดใหญ่ขึ้นจะทำให้อัตราการแปลงเพิ่มขึ้น ความสำเร็จจะถูกกำหนดโดยอัตรา Conversion ที่สูงขึ้น

ประเด็นสำคัญประการหนึ่งของการทดสอบสมมติฐานคือการแยกตัวแปรต่างๆ ในประสบการณ์ใช้งานผลิตภัณฑ์ เพื่อให้สามารถระบุถึงความสำเร็จ (หรือความล้มเหลว) ต่อการเปลี่ยนแปลงที่เกิดขึ้นได้ ดังนั้น หากผู้จัดการผลิตภัณฑ์ Amazon ของเรามีสมมติฐานเพิ่มเติมว่าการแสดงบทวิจารณ์ของลูกค้าถัดจากรูปภาพผลิตภัณฑ์จะช่วยปรับปรุงการแปลง จะไม่สามารถทดสอบทั้งสองสมมติฐานพร้อมกันได้ การทำเช่นนี้จะส่งผลให้ไม่สามารถระบุสาเหตุและผลกระทบได้อย่างถูกต้อง ดังนั้น การเปลี่ยนแปลงทั้งสองจะต้องถูกแยกและทดสอบเป็นรายบุคคล

ดังนั้น การตัดสินใจผลิตภัณฑ์เกี่ยวกับคุณลักษณะควรสนับสนุนโดยการทดสอบสมมติฐานเพื่อตรวจสอบประสิทธิภาพของคุณลักษณะ

การทดสอบสมมติฐานประเภทต่างๆ

การทดสอบ A/B

กรณีการใช้งานทั่วไปส่วนใหญ่สามารถตรวจสอบได้โดยการทดสอบ A/B แบบสุ่ม ซึ่งการเปลี่ยนแปลงหรือคุณลักษณะจะเผยแพร่โดยสุ่มให้กับผู้ใช้ครึ่งหนึ่ง (A) และระงับจากอีกครึ่งหนึ่ง (B) กลับไปที่สมมติฐานของภาพผลิตภัณฑ์ขนาดใหญ่ที่ปรับปรุงการแปลงบน Amazon ผู้ใช้ครึ่งหนึ่งจะเห็นการเปลี่ยนแปลงในขณะที่อีกครึ่งหนึ่งจะเห็นเว็บไซต์เหมือนที่เคยเป็นมา การแปลงจะถูกวัดสำหรับแต่ละกลุ่ม (A และ B) และเปรียบเทียบ ในกรณีที่คอนเวอร์ชั่นเพิ่มขึ้นอย่างมีนัยสำคัญสำหรับกลุ่มที่แสดงรูปภาพผลิตภัณฑ์ขนาดใหญ่ขึ้น ข้อสรุปก็คือว่าสมมติฐานดั้งเดิมนั้นถูกต้อง และสามารถนำไปใช้กับผู้ใช้ทุกคนได้

การทดสอบหลายตัวแปร

ตามหลักการแล้ว ควรแยกตัวแปรแต่ละตัวและทดสอบแยกกันเพื่อสรุปการเปลี่ยนแปลงแอตทริบิวต์ อย่างไรก็ตาม วิธีการทดสอบตามลำดับดังกล่าวอาจช้ามาก โดยเฉพาะอย่างยิ่งเมื่อมีหลายเวอร์ชันให้ทดสอบ เพื่อดำเนินการต่อกับตัวอย่าง ในสมมติฐานที่ว่ารูปภาพผลิตภัณฑ์ขนาดใหญ่นำไปสู่อัตรา Conversion ที่สูงขึ้นใน Amazon "ใหญ่กว่า" เป็นเรื่องส่วนตัวและ "ใหญ่กว่า" หลายเวอร์ชัน (เช่น 1.1x, 1.3x และ 1.5x) อาจต้อง ถูกทดสอบ

แทนที่จะทดสอบกรณีดังกล่าวตามลำดับ สามารถใช้การทดสอบหลายตัวแปรได้ ซึ่งผู้ใช้จะไม่ถูกแบ่งครึ่งแต่ออกเป็นหลายตัวแปร ตัวอย่างเช่น สี่กลุ่ม (A, B, C, D) ประกอบด้วยผู้ใช้ 25% แต่ละกลุ่ม โดยที่ผู้ใช้กลุ่ม A จะไม่เห็นการเปลี่ยนแปลงใดๆ ในขณะที่กลุ่มในตัวแปร B, C และ D จะเห็นภาพที่ใหญ่ขึ้น 1.1x, 1.3x และ 1.5x ตามลำดับ ในการทดสอบนี้ ตัวแปรหลายตัวได้รับการทดสอบพร้อมๆ กันกับรุ่นปัจจุบันของผลิตภัณฑ์เพื่อระบุตัวเลือกสินค้าที่ดีที่สุด

ก่อน/หลังการทดสอบ

บางครั้ง เป็นไปไม่ได้ที่จะแบ่งผู้ใช้ออกเป็นครึ่งหนึ่ง (หรือแบ่งเป็นหลายตัวแปร) เนื่องจากอาจมีผลกระทบต่อเครือข่าย ตัวอย่างเช่น หากการทดสอบเกี่ยวข้องกับการพิจารณาว่าตรรกะหนึ่งสำหรับการกำหนดราคาที่เพิ่มขึ้นอย่างรวดเร็วบน Uber นั้นดีกว่าอีกวิธีหนึ่งหรือไม่ ผู้ขับขี่ไม่สามารถแบ่งออกเป็นรูปแบบต่างๆ ได้ เนื่องจากตรรกะจะพิจารณาถึงอุปสงค์และอุปทานที่ไม่ตรงกันของทั้งเมือง ในกรณีเช่นนี้ การทดสอบจะต้องเปรียบเทียบผลกระทบก่อนการเปลี่ยนแปลงและหลังการเปลี่ยนแปลงเพื่อให้ได้ข้อสรุป

ก่อน/หลังการทดสอบในการทดสอบสมมติฐานผลิตภัณฑ์

อย่างไรก็ตาม ข้อจำกัดในที่นี้คือ ไม่สามารถแยกผลกระทบของฤดูกาลและปัจจัยภายนอกที่อาจส่งผลต่อระยะเวลาการทดสอบและการควบคุมที่แตกต่างกัน สมมติว่ามีการเปลี่ยนแปลงตรรกะที่กำหนดราคาที่เพิ่มขึ้นอย่างรวดเร็วใน Uber ในเวลา t เช่นว่าลอจิก A ถูกใช้ก่อนและตรรกะ B จะถูกใช้หลังจากนั้น แม้ว่าเอฟเฟกต์ก่อนและหลังเวลา t สามารถเปรียบเทียบได้ แต่ก็ไม่มีการรับประกันว่าเอฟเฟกต์นั้นเกิดจากการเปลี่ยนแปลงตรรกะเท่านั้น อุปสงค์หรือปัจจัยอื่น ๆ อาจมีความแตกต่างกันระหว่างสองช่วงเวลาที่ส่งผลให้เกิดความแตกต่างระหว่างทั้งสอง

การทดสอบเปิด/ปิดตามเวลา

ข้อเสียของการทดสอบก่อน/หลังสามารถเอาชนะได้ในระดับมากโดยการปรับใช้การทดสอบเปิด/ปิดตามเวลา ซึ่งการเปลี่ยนแปลงจะถูกนำมาใช้กับผู้ใช้ทั้งหมดในช่วงระยะเวลาหนึ่ง ปิดในระยะเวลาที่เท่ากัน และ แล้วทำซ้ำเป็นระยะเวลานาน

ตัวอย่างเช่น ในกรณีการใช้งาน Uber การเปลี่ยนแปลงสามารถแสดงให้ผู้ขับขี่เห็นในวันจันทร์ ถอนออกในวันอังคาร แสดงอีกครั้งในวันพุธ เป็นต้น

แม้ว่าวิธีนี้จะไม่ได้ขจัดผลกระทบของฤดูกาลและปัจจัยภายนอกโดยสิ้นเชิง แต่ก็ลดผลกระทบลงอย่างมาก ทำให้การทดสอบดังกล่าวมีประสิทธิภาพมากขึ้น

ออกแบบทดสอบ

การเลือกการทดสอบที่เหมาะสมสำหรับกรณีการใช้งานในมือเป็นขั้นตอนสำคัญในการตรวจสอบสมมติฐานด้วยวิธีที่รวดเร็วที่สุดและแข็งแกร่งที่สุด เมื่อเลือกได้แล้ว ก็สามารถร่างรายละเอียดของการออกแบบการทดสอบได้

การออกแบบการทดสอบเป็นเพียงโครงร่างที่สอดคล้องกันของ:

สมมติฐานที่จะทดสอบ: การ แสดงภาพผลิตภัณฑ์ให้ใหญ่ขึ้นแก่ผู้ใช้จะทำให้พวกเขาซื้อผลิตภัณฑ์มากขึ้น
ตัวชี้วัดความสำเร็จสำหรับการทดสอบ: การแปลงลูกค้า
เกณฑ์การตัดสินใจสำหรับการทดสอบ: การทดสอบตรวจสอบสมมติฐานที่ว่าผู้ใช้ในตัวแปรแสดงอัตราการแปลงที่สูงกว่าในกลุ่มควบคุม
ตัวชี้วัดที่ต้องใช้เครื่องมือเพื่อเรียนรู้จากการทดสอบ: การแปลงลูกค้า, การคลิกที่ภาพผลิตภัณฑ์

ในกรณีของสมมติฐานที่ว่าภาพผลิตภัณฑ์ที่มีขนาดใหญ่ขึ้นจะนำไปสู่การแปลงที่ดีขึ้นใน Amazon ตัวชี้วัดความสำเร็จคือการแปลงและเกณฑ์การตัดสินใจคือการปรับปรุงในการแปลง

หลังจากเลือกและออกแบบการทดสอบที่ถูกต้องแล้ว และระบุเกณฑ์ความสำเร็จและตัวชี้วัดแล้ว จะต้องวิเคราะห์ผลลัพธ์ ในการทำเช่นนั้น จำเป็นต้องมีแนวคิดทางสถิติบางอย่าง

สุ่มตัวอย่าง

เมื่อทำการทดสอบ สิ่งสำคัญคือต้องตรวจสอบให้แน่ใจว่าตัวแปรทั้งสองที่เลือกไว้สำหรับการทดสอบ (A และ B) ไม่มีอคติเกี่ยวกับตัวชี้วัดความสำเร็จ ตัวอย่างเช่น หากตัวแปรที่เห็นภาพที่ใหญ่กว่ามี Conversion ที่สูงกว่าตัวแปรที่ไม่เห็นการเปลี่ยนแปลง การทดสอบนั้นจะมีอคติและอาจนำไปสู่ข้อสรุปที่ไม่ถูกต้อง

เพื่อให้แน่ใจว่าไม่มีอคติในการสุ่มตัวอย่าง เราสามารถสังเกตค่าเฉลี่ยและความแปรปรวนของตัวชี้วัดความสำเร็จก่อนที่จะทำการเปลี่ยนแปลง

ความสำคัญและอำนาจ

เมื่อสังเกตความแตกต่างระหว่างตัวแปรทั้งสองแล้ว สิ่งสำคัญคือต้องสรุปว่าการเปลี่ยนแปลงที่สังเกตได้เป็นผลที่เกิดขึ้นจริงและไม่ใช่การเปลี่ยนแปลงแบบสุ่ม ซึ่งสามารถทำได้โดยการคำนวณความสำคัญของการเปลี่ยนแปลงในตัวชี้วัดความสำเร็จ

ในแง่ฆราวาส นัยสำคัญ จะวัดความถี่ที่การทดสอบแสดงให้เห็นว่าภาพที่ใหญ่ขึ้นจะนำไปสู่การแปลงที่สูงขึ้นโดยที่พวกเขาไม่ได้ทำจริง กำลัง วัดความถี่ที่การทดสอบบอกเราว่าภาพที่ใหญ่ขึ้นนำไปสู่การแปลงที่สูงขึ้นเมื่อพวกเขาทำจริง

ดังนั้น การทดสอบจำเป็นต้องมีค่ากำลังสูงและมีค่านัยสำคัญต่ำเพื่อให้ได้ผลลัพธ์ที่แม่นยำยิ่งขึ้น

ในขณะที่การสำรวจเชิงลึกเกี่ยวกับแนวคิดทางสถิติที่เกี่ยวข้องกับการทดสอบสมมติฐานผลิตภัณฑ์อยู่นอกขอบเขตที่นี่ ขอแนะนำให้ดำเนินการต่อไปนี้เพื่อเพิ่มพูนความรู้ในด้านนี้:

นักวิเคราะห์ข้อมูลและวิศวกรข้อมูลมักจะเชี่ยวชาญในการระบุการออกแบบการทดสอบที่ถูกต้องและสามารถแนะนำผู้จัดการผลิตภัณฑ์ได้ ดังนั้นโปรดใช้ความเชี่ยวชาญของพวกเขาตั้งแต่เนิ่นๆ ในกระบวนการ
มีหลักสูตรออนไลน์มากมายเกี่ยวกับการทดสอบสมมติฐาน การทดสอบ A/B และแนวคิดทางสถิติที่เกี่ยวข้อง เช่น Udemy, Udacity และ Coursera
การใช้เครื่องมือต่างๆ เช่น Firebase ของ Google และ Optimizely จะทำให้กระบวนการง่ายขึ้นด้วยความสามารถที่พร้อมใช้งานทันทีจำนวนมากสำหรับการทดสอบที่ถูกต้อง

การใช้การทดสอบสมมติฐานเพื่อการจัดการผลิตภัณฑ์ที่ประสบความสำเร็จ

เพื่อที่จะส่งมอบคุณค่าให้กับผู้ใช้อย่างต่อเนื่อง จำเป็นต้องทดสอบสมมติฐานต่างๆ เพื่อวัตถุประสงค์ในการทดสอบสมมติฐานผลิตภัณฑ์หลายประเภท สมมติฐานแต่ละข้อจำเป็นต้องมีการออกแบบการทดสอบประกอบตามที่อธิบายไว้ข้างต้น เพื่อยืนยันหรือทำให้เป็นโมฆะโดยสรุป

แนวทางนี้ช่วยในการวัดมูลค่าที่เกิดจากการเปลี่ยนแปลงและคุณลักษณะใหม่ ให้ความสำคัญกับคุณลักษณะที่มีค่าที่สุด และนำเสนอการทำซ้ำที่เพิ่มขึ้น