شحن منتجك على شكل تكرارات: دليل لاختبار الفرضيات
نشرت: 2022-03-11ستكشف نظرة على متجر Play Store / App Store على أي هاتف أن معظم التطبيقات المثبتة قد تم إصدار تحديثات لها خلال الأسبوع الماضي. قد تظهر زيارة موقع الويب بعد بضعة أسابيع بعض التغييرات في التخطيط أو تجربة المستخدم أو النسخ.
يتم شحن منتجات البرمجيات اليوم في تكرارات للتحقق من صحة الافتراضات والفرضيات حول ما يجعل تجربة المنتج أفضل للمستخدمين. في أي وقت من الأوقات ، تقوم شركات مثل booking.com (حيث عملت من قبل) بإجراء مئات من اختبارات A / B على مواقعها لهذا الغرض بالذات.
بالنسبة للتطبيقات التي يتم تسليمها عبر الإنترنت ، ليست هناك حاجة لاتخاذ قرار بشأن مظهر المنتج قبل 12-18 شهرًا ، ثم بنائه وشحنه في النهاية. بدلاً من ذلك ، من العملي تمامًا إصدار تغييرات صغيرة تقدم قيمة للمستخدمين أثناء تنفيذها ، مما يلغي الحاجة إلى وضع افتراضات حول تفضيلات المستخدم والحلول المثالية - يمكن التحقق من صحة كل افتراض وفرضية من خلال تصميم اختبار لعزل التأثير من كل تغيير.
بالإضافة إلى تقديم قيمة مستمرة من خلال التحسينات ، يسمح هذا النهج لفريق المنتج بجمع ملاحظات مستمرة من المستخدمين ثم تصحيح المسار حسب الحاجة. يعد إنشاء الفرضيات واختبارها كل أسبوعين طريقة أرخص وأسهل لبناء نهج تصحيحي وتكراري لإنشاء قيمة للمنتج.
ما هو اختبار الفرضية؟
أثناء شحن ميزة إلى المستخدمين ، من الضروري التحقق من صحة الافتراضات حول التصميم والميزات لفهم تأثيرها في العالم الحقيقي.
يتم إجراء هذا التحقق من الصحة تقليديًا من خلال اختبار فرضية المنتج ، حيث يحدد المجرب فرضية للتغيير ثم يحدد النجاح. على سبيل المثال ، إذا كان لدى مدير منتج البيانات في أمازون فرضية مفادها أن عرض صور أكبر للمنتج سيزيد من معدلات التحويل ، فعندئذ يتم تحديد النجاح من خلال معدلات تحويل أعلى.
أحد الجوانب الرئيسية لاختبار الفرضيات هو عزل المتغيرات المختلفة في تجربة المنتج من أجل التمكن من عزو النجاح (أو الفشل) إلى التغييرات التي تم إجراؤها. لذلك ، إذا كان لدى مدير منتج Amazon لدينا فرضية أخرى مفادها أن عرض مراجعات العملاء بجوار صور المنتج من شأنه تحسين التحويل ، فلن يكون من الممكن اختبار كلتا الفرضيتين في نفس الوقت. قد يؤدي القيام بذلك إلى عدم تحديد الأسباب والتأثيرات بشكل صحيح ؛ لذلك ، يجب عزل التغييرين واختبارهما بشكل فردي.
وبالتالي ، يجب دعم قرارات المنتج بشأن الميزات باختبار فرضية للتحقق من أداء الميزات.
أنواع مختلفة من اختبار الفرضيات
اختبار A / B
يمكن التحقق من حالات الاستخدام الأكثر شيوعًا عن طريق اختبار A / B العشوائي ، حيث يتم إصدار تغيير أو ميزة بشكل عشوائي إلى نصف المستخدمين (A) ويتم حجبها عن النصف الآخر (B). بالعودة إلى فرضية الصور الأكبر للمنتجات التي تعمل على تحسين التحويل على Amazon ، سيظهر التغيير لنصف المستخدمين ، بينما يرى النصف الآخر موقع الويب كما كان من قبل. ثم يتم قياس التحويل لكل مجموعة (أ ، ب) ومقارنته. في حالة حدوث زيادة كبيرة في التحويل للمجموعة التي تعرض صورًا أكبر للمنتج ، سيكون الاستنتاج هو أن الفرضية الأصلية كانت صحيحة ، ويمكن تطبيق التغيير على جميع المستخدمين.
اختبار متعدد المتغيرات
من الناحية المثالية ، يجب عزل كل متغير واختباره بشكل منفصل حتى يتم إسناد التغييرات بشكل قاطع. ومع ذلك ، فإن مثل هذا النهج المتسلسل للاختبار يمكن أن يكون بطيئًا للغاية ، خاصةً عندما يكون هناك العديد من الإصدارات للاختبار. للاستمرار في المثال ، في الفرضية القائلة بأن صور المنتج الأكبر تؤدي إلى معدلات تحويل أعلى على Amazon ، فإن كلمة "أكبر" تكون ذاتية ، وقد تحتاج العديد من إصدارات "الأكبر" (على سبيل المثال ، 1.1x و 1.3x و 1.5x) إلى يتم اختبارها.
بدلاً من اختبار مثل هذه الحالات بشكل متسلسل ، يمكن اعتماد اختبار متعدد المتغيرات ، حيث لا يتم تقسيم المستخدمين إلى نصفين ولكن إلى متغيرات متعددة. على سبيل المثال ، أربع مجموعات (أ ، ب ، ج ، د) تتكون من 25٪ من المستخدمين لكل منها ، حيث لن يرى مستخدمو المجموعة أ أي تغيير ، بينما أولئك الموجودون في المتغيرات ب ، ج ، د سوف يرون صورًا أكبر بمقدار 1.1x و 1.3x و 1.5x على التوالي. في هذا الاختبار ، يتم اختبار متغيرات متعددة في نفس الوقت مقابل الإصدار الحالي للمنتج من أجل تحديد أفضل متغير.
قبل / بعد الاختبار
في بعض الأحيان ، لا يمكن تقسيم المستخدمين إلى النصف (أو إلى متغيرات متعددة) حيث قد تكون هناك تأثيرات شبكة في المكان. على سبيل المثال ، إذا كان الاختبار يتضمن تحديد ما إذا كان منطقًا ما لصياغة الأسعار المفاجئة على Uber أفضل من منطق آخر ، فلا يمكن تقسيم السائقين إلى متغيرات مختلفة ، حيث يأخذ المنطق في الاعتبار عدم تطابق العرض والطلب في المدينة بأكملها. في مثل هذه الحالات ، يجب أن يقارن الاختبار التأثيرات قبل التغيير وبعد التغيير للوصول إلى نتيجة.
ومع ذلك ، فإن القيد هنا هو عدم القدرة على عزل تأثيرات الموسمية والعوامل الخارجية التي يمكن أن تؤثر بشكل مختلف على فترات الاختبار والتحكم. لنفترض أن تغييرًا في المنطق الذي يحدد زيادة الأسعار على Uber قد تم إجراؤه في الوقت t ، بحيث يتم استخدام المنطق A من قبل واستخدام المنطق B بعد ذلك. بينما يمكن مقارنة التأثيرات قبل الزمن وبعده ، ليس هناك ما يضمن أن التأثيرات ناتجة فقط عن التغيير في المنطق. قد يكون هناك اختلاف في الطلب أو عوامل أخرى بين الفترتين الزمنيتين مما أدى إلى اختلاف بينهما.

اختبار التشغيل / الإيقاف المستند إلى الوقت
يمكن التغلب على الجوانب السلبية للاختبار قبل / بعد الاختبار إلى حد كبير من خلال نشر الاختبار المستند إلى الوقت / إيقاف التشغيل ، حيث يتم تقديم التغيير لجميع المستخدمين لفترة زمنية معينة ، وإيقاف تشغيله لفترة زمنية متساوية ، و ثم كرر لمدة أطول.
على سبيل المثال ، في حالة استخدام Uber ، يمكن عرض التغيير للسائقين يوم الاثنين ، وسحبه يوم الثلاثاء ، وعرضه مرة أخرى يوم الأربعاء ، وهكذا.
في حين أن هذه الطريقة لا تزيل تأثيرات الموسمية والعوامل الخارجية تمامًا ، إلا أنها تقللها بشكل كبير ، مما يجعل مثل هذه الاختبارات أكثر قوة.
تصميم الاختبار
يعد اختيار الاختبار المناسب لحالة الاستخدام المطروحة خطوة أساسية في التحقق من صحة الفرضية بأسرع الطرق وأكثرها قوة. بمجرد إجراء الاختيار ، يمكن تحديد تفاصيل تصميم الاختبار.
تصميم الاختبار هو ببساطة مخطط متماسك لما يلي:
- الفرضية التي سيتم اختبارها: سيؤدي عرض صور أكبر للمنتج على المستخدمين إلى شراء المزيد من المنتجات.
- مقاييس النجاح للاختبار: تحويل العميل
- معايير اتخاذ القرار للاختبار: يتحقق الاختبار من صحة الفرضية القائلة بأن المستخدمين في المتغير يظهرون معدل تحويل أعلى من أولئك الموجودين في المجموعة الضابطة.
- المقاييس التي تحتاج إلى أدوات للتعلم من الاختبار: تحويل العميل ، النقرات على صور المنتج
في حالة الفرضية القائلة بأن صور المنتج الأكبر ستؤدي إلى تحسين التحويل على Amazon ، فإن مقياس النجاح هو التحويل ومعايير القرار هي تحسين في التحويل.
بعد اختيار الاختبار الصحيح وتصميمه ، وتحديد معايير ومقاييس النجاح ، يجب تحليل النتائج. للقيام بذلك ، بعض المفاهيم الإحصائية ضرورية.
أخذ العينات
عند إجراء الاختبارات ، من المهم التأكد من أن المتغيرين اللذين تم اختيارهما للاختبار (أ و ب) ليس لهما تحيز فيما يتعلق بمقياس النجاح. على سبيل المثال ، إذا كان المتغير الذي يرى الصور الأكبر يحتوي بالفعل على تحويل أعلى من المتغير الذي لا يرى التغيير ، فإن الاختبار متحيز ويمكن أن يؤدي إلى استنتاجات خاطئة.
من أجل ضمان عدم التحيز في أخذ العينات ، يمكن للمرء أن يلاحظ المتوسط والتباين لمقياس النجاح قبل إدخال التغيير.
الأهمية والقوة
بمجرد ملاحظة الفرق بين المتغيرين ، من المهم استنتاج أن التغيير الملحوظ هو تأثير فعلي وليس تأثير عشوائي. يمكن القيام بذلك عن طريق حساب أهمية التغيير في مقياس النجاح.
من منظور الشخص العادي ، تقيس الأهمية التكرار الذي يُظهر الاختبار به أن الصور الأكبر تؤدي إلى تحويل أعلى في حين أنها لا تفعل ذلك في الواقع. تقيس القوة التردد الذي يخبرنا به الاختبار أن الصور الأكبر تؤدي إلى تحويل أعلى عندما تفعل ذلك بالفعل.
لذلك ، يجب أن تتمتع الاختبارات بقيمة عالية من الطاقة وقيمة أهمية منخفضة للحصول على نتائج أكثر دقة.
في حين أن الاستكشاف المتعمق للمفاهيم الإحصائية المتضمنة في اختبار فرضية المنتج خارج النطاق هنا ، يوصى بالإجراءات التالية لتعزيز المعرفة في هذه الجبهة:
- عادةً ما يكون محللو البيانات ومهندسو البيانات بارعون في تحديد تصميمات الاختبار الصحيحة ويمكنهم توجيه مديري المنتجات ، لذا تأكد من الاستفادة من خبراتهم في وقت مبكر من العملية.
- هناك العديد من الدورات التدريبية عبر الإنترنت حول اختبار الفرضيات واختبار A / B والمفاهيم الإحصائية ذات الصلة ، مثل Udemy و Udacity و Coursera.
- يمكن أن يؤدي استخدام أدوات مثل Firebase و Optimizely من Google إلى تسهيل العملية بفضل المقدار الكبير من الإمكانات الجاهزة لإجراء الاختبارات الصحيحة.
استخدام اختبار الفرضيات للإدارة الناجحة للمنتج
من أجل تقديم قيمة للمستخدمين بشكل مستمر ، من الضروري اختبار العديد من الفرضيات ، والتي من أجلها يمكن استخدام عدة أنواع من اختبار فرضية المنتج. تحتاج كل فرضية إلى تصميم اختبار مصاحب ، كما هو موضح أعلاه ، من أجل التحقق من صحتها أو إبطالها بشكل قاطع.
يساعد هذا النهج في تحديد القيمة التي تقدمها التغييرات والميزات الجديدة ، والتركيز على أكثر الميزات قيمة ، وتقديم تكرارات تدريجية.