تطبيقات علوم البيانات والتعلم الآلي في NETFLIX
نشرت: 2018-08-21تستخدم الصناعات علم البيانات بطرق مثيرة ومبتكرة. تظهر علوم البيانات في أماكن غير متوقعة لتحسين كفاءة مختلف القطاعات. إنه يعزز عملية صنع القرار البشري ويؤثر على صافي أرباح الأعمال التجارية بشكل لم يسبق له مثيل. تسعد الصناعات ملايين العملاء من خلال تعزيز تطبيقاتهم بعلوم البيانات والتعلم الآلي.
تهدف سلسلة المدونات هذه إلى التحدث عن التطبيقات الشيقة لعلوم البيانات والتعلم الآلي في العديد من الشركات. سيتم تسليط الضوء على شركة في كل مشاركة مدونة. ستتحدث سلسلة المدونات هذه عن كيفية قيام شركات مثل Google ، و Apple ، و LinkedIn ، و Uber ، و Instagram ، و Twitter ، و Instacart ، و Netflix ، و Washington Post ، و Quora ، و Pinterest ، و Amazon ، و Medium ، و Microsoft ، وما إلى ذلك ، بالاستفادة من علوم البيانات والتعلم الآلي لدعمها الأعمال. لذا ، دعونا نبدأ هذه السلسلة بـ "Netflix".
جدول المحتويات
نتفليكس
من المعروف أن Netflix تستخدم أنظمة توصية لاقتراح الأفلام أو العروض لعملائها. بصرف النظر عن توصيات الأفلام ، هناك العديد من المجالات الأخرى الأقل شهرة والتي تستخدم فيها Netflix علوم البيانات والتعلم الآلي وهي:
- تحديد الأعمال الفنية الشخصية للأفلام والعروض
- اقتراح أفضل الإطارات من عرض إلى المحررين للعمل الإبداعي
- تحسين تدفق جودة الخدمة (QoS) من خلال اتخاذ قرار بشأن ترميز الفيديو ، والتقدم في جانب العميل وخوارزميات جانب الخادم ، وتخزين الفيديو مؤقتًا ، إلخ.
- تحسين مراحل الإنتاج المختلفة
- تجربة خوارزميات مختلفة باستخدام اختبار A / B وتحديد الاستدلال السببي. تقليل الوقت المستغرق في تجربة استخدام النسيج المتشابك وما إلى ذلك.
عمل فني شخصي
يأتي كل فيلم موصى به بواسطة Netflix مصحوبًا بعمل فني مرتبط به. العمل الفني المصاحب لاقتراح فيلم ليس شائعًا للجميع. مثل توصية الفيلم ، يتم أيضًا تخصيص العمل الفني المتعلق بالعرض. لا يرى جميع الأعضاء أفضل عمل فني واحد. سيتم إنشاء مجموعة من الأعمال الفنية لعنوان محدد. اعتمادًا على ذوق وتفضيل خوارزمية التعلم الآلي للجمهور ، ستختار عملًا فنيًا يزيد من فرص عرض العنوان.
مجموعة من الأعمال الفنية التي تم إنشاؤها بعنوان "Stranger Things":
التخصيص في العمل. الصف العلوي - عمل فني مقترح لمشاهد يحب الممثلة أوما ثورمان. الصف السفلي - اقتراح عمل فني لمشاهد يحب الممثل جون ترافولتا:
إضفاء الطابع الشخصي على العمل الفني ليس دائمًا أمرًا سهلاً. هناك تحديات لتخصيص العمل الفني. أولاً ، لا يمكن اختيار صورة واحدة إلا لتخصيص العمل الفني. في المقابل ، يمكن التوصية بالعديد من الأفلام في وقت واحد. ثانيًا ، يجب أن يعمل اقتراح العمل الفني جنبًا إلى جنب مع محرك توصيات الأفلام. عادة ما يجلس على رأس توصية الفيلم. ثالثًا ، يجب أن تأخذ توصية العمل الفني الشخصي في الاعتبار اقتراحات الصور للأفلام الأخرى. خلاف ذلك ، لن يكون هناك تباين وتنوع في اقتراحات العمل الفني التي ستكون رتيبة. رابعًا ، هل يجب عرض نفس العمل الفني أو عمل مختلف بين الجلسات. كل مرة يظهر فيها صور مختلفة سوف يربك المشاهد ويؤدي أيضًا إلى مشكلة الإسناد. مشكلة الإسناد هي العمل الفني الذي يقود الجمهور لمشاهدة العرض.
يؤدي تخصيص العمل الفني إلى تحسينات كبيرة في اكتشاف المحتوى بواسطة المشاهدين. يعد إضفاء الطابع الشخصي على العمل الفني هو المثال الأول ليس فقط للتوصية الشخصية ولكن كيفية تقديم التوصية للأعضاء. لا تزال Netflix تبحث بنشاط عن هذه التقنية الناشئة وتتقنها.
نظرة عامة على تعدين قواعد الرابطة وتطبيقاتها
فن اكتشاف الصور
تتكون ساعة واحدة من "Stranger Things" من 86000 إطار فيديو ثابت. يتكون موسم واحد (10 حلقات) في المتوسط 9 ملايين إطار إجمالي. تضيف Netflix المحتوى بانتظام لتلبية احتياجات عملائها حول العالم. في مثل هذه الحالة ، لا يمكن الحصاد يدويًا للعثور على العمل الفني "المناسب" للشخص "المناسب". يكاد يكون من المستحيل على المحررين البشريين البحث عن أفضل الإطارات التي ستبرز العناصر الفريدة للعرض. لمواجهة هذا التحدي على نطاق واسع ، صممت Netflix مجموعة من الأدوات لإعادة ظهور أفضل الإطارات التي تجسد الروح الحقيقية للعرض.
خط أنابيب لالتقاط أفضل الإطارات تلقائيًا لعرض ما:
تُستخدم التعليقات التوضيحية للإطار لالتقاط الإشارات الموضوعية المستخدمة في ترتيب الصور. لتحقيق التعليقات التوضيحية للإطار ، يتم تقسيم الفيديو إلى أجزاء صغيرة متعددة. تتم معالجة هذه الأجزاء بالتوازي باستخدام إطار عمل يعرف باسم "آرتشر". تساعد هذه المعالجة المتوازية Netflix في التقاط التعليقات التوضيحية للإطار على نطاق واسع. يتم التعامل مع كل قطعة بواسطة خوارزمية رؤية الآلة للحصول على خصائص الإطار. على سبيل المثال ، بعض خصائص الإطار الذي تم التقاطه هي اللون والسطوع والتباين وما إلى ذلك. وهناك فئة من الميزات التي ستخبرنا بما يحدث في الإطار والتي يتم التقاطها أثناء التعليق التوضيحي للإطار وهي اكتشاف الوجه وتقدير الحركة واكتشاف الكائن وما إلى ذلك. حددت Netflix أيضًا مجموعة من الخصائص من المبادئ الأساسية للتصوير الفوتوغرافي والتصوير السينمائي والتصميم الجمالي المرئي مثل قاعدة الثلث وما إلى ذلك والتي يتم التقاطها أثناء شرح الإطار التوضيحي.
الخطوة التالية بعد التعليق التوضيحي للإطار هي ترتيب الصور. بعض العوامل التي تم أخذها في الاعتبار للترتيب هي الممثلون ، وتنوع الصور ، ونضج المحتوى وما إلى ذلك. تستخدم Netflix تقنيات التعلم العميق لتجميع صور الممثلين في العرض ، وإعطاء الأولوية للشخصيات الرئيسية وإلغاء ترتيب أولويات الشخصيات الثانوية. يتم إعطاء الإطارات التي تحتوي على عنف وعري درجة ضئيلة. باستخدام طريقة الترتيب هذه ، يتم عرض أفضل الإطارات للعرض. بهذه الطريقة سيكون لدى فريق العمل الفني والتحرير مجموعة من الصور عالية الجودة للعمل معها بدلاً من التعامل مع ملايين الإطارات لحلقة معينة.

علم البيانات في الإنتاج
تنفق Netflix ثمانية مليارات دولار هذا العام لإنشاء محتوى أصلي. محتوى تم إنشاؤه لملايين الجمهور في جميع أنحاء العالم بأكثر من 20 لغة. لا ينبغي أن يفاجئنا إذا كانت Netflix تستخدم Data Science لإنتاج محتوى أصلي. في الواقع ، تستخدم Netflix علوم البيانات في كل خطوة من خطوات إنتاج المحتوى.
يتكون إنتاج المحتوى عادةً من مراحل ما قبل الإنتاج والإنتاج وما بعد الإنتاج. يحدث التخطيط والميزنة وما إلى ذلك في مرحلة ما قبل الإنتاج. التصوير الرئيسي هو جزء من الإنتاج. تعتبر خطوات مثل التحرير وخلط الصوت وما إلى ذلك جزءًا من مرحلة ما بعد الإنتاج. تعد إضافة العناوين الفرعية وإزالة الثغرات الفنية جزءًا من التعريب ومراقبة الجودة. الآن دعونا نرى كيف يساعد علم البيانات في تحسين كل مرحلة من مراحل الإنتاج.
خط أنابيب لالتقاط أفضل الإطارات تلقائيًا لعرض ما:
كما ذكرنا سابقًا ، تعد الميزانية جزءًا من مرحلة ما قبل الإنتاج. يجب اتخاذ العديد من القرارات قبل بدء الإنتاج. على سبيل المثال ، موقع التصوير. يتم استخدام علم البيانات على نطاق واسع لتحليل الآثار المترتبة على التكلفة لموقع معين. يتم اتخاذ القرارات من خلال الموازنة الدقيقة بين الرؤية الإبداعية والميزانيات. يتم تقليل التكاليف دون المساس برؤية المحتوى.
يتضمن الإنتاج تصوير آلاف اللقطات على مدى عدة أشهر. سيكون للإنتاج هدف ، ولكن يجب القيام به في ظل قيود محددة. على سبيل المثال ، يمكن أن تتمثل القيود في أن الممثل متاح لمدة أسبوع واحد فقط ، والموقع متاح فقط لأيام معينة ، وساعات العمل للطاقم هي 8 ساعات في اليوم ، والقيود الزمنية مثل لقطة نهارية أو لقطة ليلية ، والفريق قد تضطر إلى نقل المواقع بين البراعم. يمكن أن يكون إعداد جدول تصوير مع كل هذه القيود بمثابة كابوس للمخرج. يتم استخدام تقنيات التحسين الرياضي هنا بهدف وقيود. ستوفر تقنية التحسين هذه جدولًا تقريبيًا للتصوير. تم تنقيح هذا الجدول الزمني بشكل أكبر مع التعديلات.

سيستغرق ما بعد الإنتاج وقتًا طويلاً مثل وقت الإنتاج إن لم يكن أكثر. تُستخدم تقنيات تصور البيانات للتحقق من الاختناقات في مرحلة ما بعد الإنتاج. تُستخدم تقنيات التصور أيضًا لتتبع الاتجاه في مرحلة ما بعد الإنتاج وعرضه في المستقبل. يتم إجراء هذا التنبؤ لمعرفة عبء العمل على الفرق المختلفة وتزويد الفريق بشكل مناسب.

في الترجمة ، تدبلج العروض من لغة إلى أخرى. يتم تحديد الأولويات فيما يتعلق بالعروض التي يجب دبلجتها بناءً على تحليل البيانات. يتم إعطاء الأولوية للمحتوى المدبلج الذي أثبت شعبيته في الماضي. ستتحقق مراقبة الجودة من وجود مشكلات مثل المزامنة بين الصوت والفيديو ، ومزامنة الترجمة مع الصوت وما إلى ذلك. يتم إجراء مراقبة الجودة قبل التشفير وبعده (عملية ضغط مقاطع الفيديو إلى معدلات بت مختلفة للبث على أجهزة مختلفة). قامت Netflix بتجميع البيانات التاريخية المتراكمة من فحوصات مراقبة الجودة اليدوية. تتألف هذه البيانات من الأخطاء التي حدثت في الماضي ، وتنسيقات الفيديو التي تم العثور على الأخطاء فيها ، والشركاء الذين تم الحصول على هذا المحتوى منهم ، ونوع المحتوى وما إلى ذلك. نعم ، لقد رأى Netflix نمطًا من الأخطاء في هذا النوع مثل نحن سوف. باستخدام هذه البيانات ، تم بناء نموذج التعلم الآلي الذي يتوقع إما "اجتياز" اختبارات الجودة أو "فشلها". إذا توقعت خوارزمية تعلم الآلة حدوث "فشل" ، فسيخضع هذا الأصل لجولة من فحوصات الجودة اليدوية.
أفضل الشركات التي توظف علماء البيانات في الهند
جودة التجربة المتدفقة واختبار أ / ب
يتم استخدام علم البيانات على نطاق واسع لضمان جودة تجربة البث. يتم توقع جودة اتصال الشبكة لضمان جودة البث. تتنبأ Netflix بشكل نشط بالعرض الذي سيتم بثه في موقع معين وتخزين المحتوى مؤقتًا في الخادم القريب. يتم التخزين المؤقت للمحتوى وتخزينه عندما تكون حركة المرور على الإنترنت منخفضة. هذا يضمن دفق المحتوى دون مخازن مؤقتة وزيادة رضا العملاء إلى أقصى حد. يتم استخدام اختبار A / B على نطاق واسع كلما تم إجراء تغيير على الخوارزمية الحالية ، أو تم اقتراح خوارزمية جديدة. يتم استخدام تقنيات جديدة مثل التشذير والتدابير المتكررة لتسريع عملية اختبار A / B باستخدام عدد أقل من العينات.
في الختام ، هذه بعض الطرق التي تستخدم بها Netflix تحليل البيانات لإشراك العملاء وإعجابهم. إذا كنت مهتمًا بالغوص العميق ومعرفة المزيد حول كيفية استخدام هذه الشركة الرائعة لعلوم البيانات ، فتفضل بزيارة مدونة الأبحاث الخاصة بهم. هناك كنز من المقالات على مدونتهم تنتظر من يكتشفها.
في سلسلة المدونات القادمة ، دعنا نرى كيف يستفيد Instacart من علوم البيانات والتعلم الآلي. الآن بعد أن قرأت هذه المدونة ، قدم ملاحظاتك حول رأيك في هذه المقالة. قدم أيضًا اقتراحات بخصوص الشركة التي ترغب في رؤيتها في سلسلتي المستقبلية.
تعلم دورات علوم البيانات من أفضل الجامعات في العالم. اربح برامج PG التنفيذية أو برامج الشهادات المتقدمة أو برامج الماجستير لتتبع حياتك المهنية بشكل سريع.
