การประยุกต์ใช้ Data Science และ Machine Learning ใน NETFLIX
เผยแพร่แล้ว: 2018-08-21อุตสาหกรรมต่างๆ กำลังใช้ Data Science ในรูปแบบที่น่าตื่นเต้นและสร้างสรรค์ Data Science ปรากฏขึ้นในสถานที่ที่คาดไม่ถึงซึ่งช่วยปรับปรุงประสิทธิภาพของภาคส่วนต่างๆ เป็นพลังในการตัดสินใจของมนุษย์และส่งผลกระทบต่อบรรทัดบนสุดและท้ายสุดของธุรกิจอย่างที่ไม่เคยมีมาก่อน อุตสาหกรรมต่างๆ สร้างความพึงพอใจให้กับลูกค้าหลายล้านรายด้วยการเพิ่มประสิทธิภาพของแอปพลิเคชันด้วยวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง
ชุดบล็อกนี้มีจุดมุ่งหมายเพื่อพูดคุยเกี่ยวกับการใช้งานที่น่าสนใจของวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องในบริษัทต่างๆ บริษัทจะได้รับความสนใจในแต่ละบล็อกโพสต์ ชุดบล็อกนี้จะพูดถึงวิธีที่บริษัทต่างๆ เช่น Google, Apple, LinkedIn, Uber, Instagram, Twitter, Instacart, Netflix, Washington post, Quora, Pinterest, Amazon, Medium, Microsoft ฯลฯ ใช้ประโยชน์จาก Data Science และ Machine Learning เพื่อเพิ่มพลังให้กับพวกเขา ธุรกิจ เรามาเริ่มซีรีส์นี้กับ 'Netflix' กันเถอะ
สารบัญ
NETFLIX
เป็นที่ทราบกันดีว่า Netflix ใช้ระบบการแนะนำเพื่อแนะนำภาพยนตร์หรือรายการให้กับลูกค้า นอกเหนือจากการแนะนำภาพยนตร์แล้ว ยังมีพื้นที่อื่นๆ ที่ไม่ค่อยมีใครรู้จักซึ่ง Netflix ใช้วิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง ได้แก่
- ตัดสินใจเลือกอาร์ตเวิร์คส่วนตัวสำหรับภาพยนตร์และรายการ
- แนะนำเฟรมที่ดีที่สุดจากการแสดงไปยังบรรณาธิการสำหรับงานสร้างสรรค์
- การปรับปรุงคุณภาพการบริการ (QoS) การสตรีมโดยตัดสินใจเกี่ยวกับการเข้ารหัสวิดีโอ ความก้าวหน้าในอัลกอริทึมฝั่งไคลเอ็นต์และฝั่งเซิร์ฟเวอร์ การแคชวิดีโอ ฯลฯ
- การเพิ่มประสิทธิภาพขั้นตอนต่างๆ ของการผลิต
- การทดลองกับอัลกอริธึมต่างๆ โดยใช้การทดสอบ A/B และการอนุมานเชิงสาเหตุในการตัดสินใจ ลดเวลาที่ใช้ในการทดลองโดยใช้การผสมผสาน ฯลฯ
อาร์ตเวิร์คส่วนตัว
ภาพยนตร์ทุกเรื่องที่แนะนำโดย Netflix มาพร้อมกับอาร์ตเวิร์กที่เกี่ยวข้อง อาร์ตเวิร์กที่มาพร้อมกับการแนะนำภาพยนตร์ไม่ใช่เรื่องธรรมดาสำหรับทุกคน เช่นเดียวกับการแนะนำภาพยนตร์ อาร์ตเวิร์กที่เกี่ยวข้องกับการแสดงก็มีการปรับเปลี่ยนในแบบของคุณเช่นกัน สมาชิกทุกคนไม่เห็นงานศิลปะที่ดีที่สุดแม้แต่ชิ้นเดียว ผลงานอาร์ตเวิร์คจะถูกสร้างขึ้นสำหรับชื่อเฉพาะ ขึ้นอยู่กับรสนิยมและความชอบของอัลกอริธึมการเรียนรู้ของเครื่องของผู้ชมจะเลือกงานศิลปะที่เพิ่มโอกาสในการดูชื่อสูงสุด
ผลงานอาร์ตเวิร์คที่สร้างขึ้นสำหรับชื่อ 'Stranger Things':
ส่วนบุคคลในที่ทำงาน แถวบนสุด – อาร์ตเวิร์กแนะนำสำหรับผู้ชมที่ชอบนักแสดงหญิง Uma Thurman แถวล่าง – แนะนำอาร์ตเวิร์คสำหรับผู้ชมที่ชอบนักแสดง John Travolta:
การปรับแต่งงานศิลปะในแบบของคุณไม่ได้ตรงไปตรงมาเสมอไป มีความท้าทายในการปรับแต่งงานศิลปะในแบบของคุณ ประการแรก สามารถเลือกภาพเดียวสำหรับการปรับแต่งอาร์ตเวิร์คในแบบของคุณเท่านั้น ในทางกลับกัน สามารถแนะนำภาพยนตร์ได้ครั้งละหลายเรื่อง ประการที่สอง คำแนะนำงานศิลปะควรทำงานร่วมกับเครื่องมือแนะนำภาพยนตร์ โดยปกติแล้วจะอยู่ด้านบนของการแนะนำภาพยนตร์ ประการที่สาม การแนะนำงานศิลปะที่ปรับให้เหมาะกับแต่ละบุคคลควรคำนึงถึงการแนะนำรูปภาพสำหรับภาพยนตร์เรื่องอื่นๆ ด้วย มิฉะนั้น จะไม่มีการเปลี่ยนแปลงและความหลากหลายในข้อเสนอแนะงานศิลปะที่จะซ้ำซากจำเจ ประการที่สี่ ควรแสดงงานศิลปะเดียวกันหรืองานอื่นระหว่างเซสชัน ทุกครั้งที่แสดงภาพที่แตกต่างกันจะทำให้ผู้ดูสับสนและจะนำไปสู่ปัญหาการระบุแหล่งที่มา ปัญหา Attribution คือเรื่อง Artwork ที่ชักนำให้ผู้ชมเข้ามาชมการแสดง
การปรับแต่งอาร์ตเวิร์คในแบบของคุณนำไปสู่การปรับปรุงที่สำคัญในการค้นหาเนื้อหาโดยผู้ดู การปรับแต่งอาร์ตเวิร์คถือเป็นตัวอย่างแรกไม่เพียงแต่เป็นการแนะนำเฉพาะบุคคลเท่านั้น แต่ยังรวมถึงวิธีการให้คำแนะนำแก่สมาชิกด้วย Netflix ยังคงค้นคว้าและพัฒนาเทคนิคตั้งไข่นี้อย่างแข็งขัน
ภาพรวมของการทำเหมืองตามกฎของสมาคมและการนำไปใช้
ศิลปะแห่งการค้นพบภาพ
'Stranger Things' หนึ่งชั่วโมงประกอบด้วยเฟรมวิดีโอคงที่ 86,000 เฟรม ซีซั่นเดียว (10 ตอน) ประกอบด้วยเฟรมทั้งหมด 9 ล้านเฟรม Netflix กำลังเพิ่มเนื้อหาเป็นประจำเพื่อรองรับลูกค้าทั่วโลก ในสถานการณ์เช่นนี้ เป็นไปไม่ได้ที่จะเก็บเกี่ยวด้วยตนเองเพื่อค้นหางานศิลปะที่ 'ถูกต้อง' สำหรับบุคคลที่ 'ถูกต้อง' แทบจะเป็นไปไม่ได้เลยที่บรรณาธิการที่เป็นมนุษย์จะค้นหาเฟรมที่ดีที่สุดที่จะดึงเอาองค์ประกอบที่เป็นเอกลักษณ์ของรายการออกมา เพื่อจัดการกับความท้าทายนี้ในวงกว้าง Netflix ได้สร้างชุดเครื่องมือเพื่อแสดงเฟรมที่ดีที่สุดอีกครั้งซึ่งจับจิตวิญญาณที่แท้จริงของรายการได้อย่างแท้จริง
ไปป์ไลน์ในการจับภาพเฟรมที่ดีที่สุดสำหรับการแสดงโดยอัตโนมัติ:
คำอธิบายประกอบเฟรมใช้เพื่อจับสัญญาณวัตถุประสงค์ที่ใช้สำหรับการจัดอันดับภาพ เพื่อให้ได้คำอธิบายประกอบแบบเฟรม วิดีโอจะถูกแบ่งออกเป็นส่วนเล็กๆ หลายส่วน ชิ้นส่วนเหล่านี้ได้รับการประมวลผลแบบคู่ขนานโดยใช้เฟรมเวิร์กที่เรียกว่า 'อาร์เชอร์' การประมวลผลแบบคู่ขนานนี้ช่วยให้ Netflix จับภาพคำอธิบายประกอบเฟรมตามขนาดได้ แต่ละชิ้นได้รับการจัดการโดยอัลกอริธึมวิชันซิสเต็มเพื่อให้ได้ลักษณะเฟรม ตัวอย่างเช่น คุณสมบัติบางอย่างของเฟรมที่จับภาพได้ ได้แก่ สี ความสว่าง คอนทราสต์ เป็นต้น หมวดหมู่ของคุณสมบัติที่จะบอกสิ่งที่เกิดขึ้นในเฟรมและจับภาพระหว่างคำอธิบายประกอบของเฟรม ได้แก่ การตรวจจับใบหน้า การประมาณการเคลื่อนไหว การตรวจจับวัตถุ เป็นต้น Netflix ยังระบุชุดคุณสมบัติจากหลักการสำคัญของการถ่ายภาพ การถ่ายภาพยนตร์ และการออกแบบภาพที่สวยงาม เช่น กฎสามส่วน ฯลฯ ซึ่งถูกบันทึกระหว่างคำอธิบายประกอบเฟรม
ขั้นตอนต่อไปหลังจากใส่คำอธิบายประกอบเฟรมคือการจัดลำดับรูปภาพ ปัจจัยบางอย่างที่พิจารณาในการจัดอันดับ ได้แก่ นักแสดง ความหลากหลายของภาพ วุฒิภาวะของเนื้อหา ฯลฯ Netflix ใช้เทคนิคการเรียนรู้เชิงลึกเพื่อจัดกลุ่มภาพของนักแสดงในรายการ จัดลำดับความสำคัญของตัวละครหลัก และลดลำดับความสำคัญของตัวละครรอง เฟรมที่มีความรุนแรงและภาพเปลือยจะได้รับคะแนนเพียงเล็กน้อย โดยใช้วิธีการจัดอันดับนี้ เฟรมที่ดีที่สุดสำหรับการแสดงจะปรากฏขึ้น ด้วยวิธีนี้ ทีมอาร์ตเวิร์กและกองบรรณาธิการจะมีชุดรูปภาพคุณภาพสูงสำหรับใช้งาน แทนที่จะต้องจัดการกับเฟรมหลายล้านเฟรมสำหรับตอนใดตอนหนึ่ง

วิทยาศาสตร์ข้อมูลในการผลิต
Netflix ทุ่มเงิน 8 พันล้านดอลลาร์ในปีนี้เพื่อสร้างเนื้อหาต้นฉบับ เนื้อหาที่สร้างขึ้นสำหรับผู้ชมหลายล้านคนทั่วโลกในกว่า 20 ภาษา ไม่ควรทำให้เราแปลกใจหาก Netflix ใช้ Data Science เพื่อผลิตเนื้อหาต้นฉบับ อันที่จริง Netflix ใช้ Data Science ในการผลิตเนื้อหาทุกขั้นตอน
โดยปกติการผลิตเนื้อหาจะประกอบด้วยขั้นตอนก่อนการผลิต การผลิต และหลังการผลิต การวางแผน การจัดทำงบประมาณ ฯลฯ เกิดขึ้นในขั้นตอนก่อนการผลิต การถ่ายภาพหลักเป็นส่วนหนึ่งของการผลิต ขั้นตอนต่างๆ เช่น การตัดต่อ การมิกซ์เสียง ฯลฯ เป็นส่วนหนึ่งของขั้นตอนหลังการผลิต การเพิ่มคำบรรยายและการลบข้อบกพร่องทางเทคนิคเป็นส่วนหนึ่งของการแปลเป็นภาษาท้องถิ่นและการควบคุมคุณภาพ ตอนนี้เรามาดูกันว่าวิทยาศาสตร์ข้อมูลช่วยเพิ่มประสิทธิภาพการผลิตแต่ละขั้นตอนได้อย่างไร
ไปป์ไลน์ในการจับภาพเฟรมที่ดีที่สุดสำหรับการแสดงโดยอัตโนมัติ:
ดังที่กล่าวไว้ก่อนหน้านี้ การจัดทำงบประมาณเป็นส่วนหนึ่งของการเตรียมการผลิต จำเป็นต้องตัดสินใจหลายอย่างก่อนเริ่มการผลิต เช่น สถานที่ถ่ายทำ วิทยาศาสตร์ข้อมูลถูกนำมาใช้อย่างกว้างขวางในการวิเคราะห์ผลกระทบด้านต้นทุนของสถานที่เฉพาะ การตัดสินใจเกิดขึ้นจากการสร้างสมดุลระหว่างวิสัยทัศน์ที่สร้างสรรค์และงบประมาณ การลดต้นทุนทำได้โดยไม่กระทบต่อวิสัยทัศน์ของเนื้อหา
การผลิตเกี่ยวข้องกับการถ่ายทำหลายพันช็อตในระยะเวลาหลายเดือน การผลิตจะมีวัตถุประสงค์ แต่ต้องดำเนินการภายใต้ข้อจำกัดเฉพาะ ตัวอย่างเช่น ข้อจำกัดอาจเป็นได้ว่านักแสดงสามารถให้บริการได้เพียงหนึ่งสัปดาห์ สถานที่ใช้งานได้เฉพาะบางวัน ชั่วโมงการทำงานของลูกเรือคือ 8 ชั่วโมงต่อวัน ข้อ จำกัด ด้านเวลาเช่นการถ่ายภาพกลางวันหรือกลางคืนทีมงาน อาจต้องย้ายสถานที่ระหว่างการถ่ายภาพ การเตรียมตารางการถ่ายทำที่มีข้อจำกัดเหล่านี้อาจเป็นฝันร้ายสำหรับผู้กำกับ มีการใช้เทคนิคการเพิ่มประสิทธิภาพทางคณิตศาสตร์ที่นี่โดยมีวัตถุประสงค์และข้อจำกัด เทคนิคการเพิ่มประสิทธิภาพนี้จะให้ตารางการถ่ายภาพคร่าวๆ กำหนดการนี้ได้รับการปรับปรุงเพิ่มเติมด้วยการปรับปรุง

ภายหลังการผลิตจะใช้เวลามากเท่ากับการผลิตหากไม่มากกว่านั้น เทคนิคการสร้างภาพข้อมูลใช้เพื่อตรวจสอบปัญหาคอขวดในขั้นตอนหลังการผลิต เทคนิคการแสดงภาพยังใช้เพื่อติดตามแนวโน้มในขั้นตอนหลังการผลิตและคาดการณ์ในอนาคต การคาดการณ์นี้ทำขึ้นเพื่อดูปริมาณงานของทีมต่างๆ และการจัดบุคลากรในทีมอย่างเหมาะสม

ในการโลคัลไลเซชัน การแสดงจะถูกขนานนามจากภาษาหนึ่งไปยังอีกภาษาหนึ่ง การจัดลำดับความสำคัญเกี่ยวกับรายการที่ต้องพากย์เสียงนั้นพิจารณาจากการวิเคราะห์ข้อมูล เนื้อหาพากย์ที่ได้รับความนิยมในอดีตได้รับการจัดลำดับความสำคัญ การควบคุมคุณภาพจะตรวจสอบปัญหาต่างๆ เช่น การซิงค์ระหว่างเสียงและวิดีโอ การซิงค์คำบรรยายพร้อมเสียง เป็นต้น การควบคุมคุณภาพทำได้ทั้งก่อนและหลังการเข้ารหัส (กระบวนการบีบอัดวิดีโอเป็นบิตเรตต่างกันสำหรับการสตรีมบนอุปกรณ์ต่างๆ) Netflix ได้รวบรวมข้อมูลในอดีตจากการตรวจสอบการควบคุมคุณภาพด้วยตนเอง ข้อมูลนี้ประกอบด้วยข้อผิดพลาดที่เกิดขึ้นในอดีต รูปแบบวิดีโอที่พบข้อผิดพลาด พันธมิตรที่ได้รับเนื้อหานี้ ประเภทของเนื้อหา ฯลฯ ใช่ Netflix เห็นรูปแบบของข้อผิดพลาดในประเภทดังนี้ ดี. การใช้ข้อมูลนี้ทำให้โมเดลการเรียนรู้ของเครื่องถูกสร้างขึ้นซึ่งคาดการณ์ว่า 'ผ่าน' หรือ 'ล้มเหลว' ของการตรวจสอบคุณภาพ หากอัลกอริธึมแมชชีนเลิร์นนิงคาดการณ์ 'ล้มเหลว' เนื้อหานั้นจะต้องผ่านการตรวจสอบคุณภาพด้วยตนเอง
บริษัทชั้นนำที่จ้างนักวิทยาศาสตร์ข้อมูลในอินเดีย
คุณภาพของประสบการณ์การสตรีมและการทดสอบ A/B
วิทยาศาสตร์ข้อมูลถูกใช้อย่างกว้างขวางเพื่อรับรองคุณภาพของประสบการณ์การสตรีม คุณภาพของการเชื่อมต่อเครือข่ายได้รับการคาดการณ์เพื่อให้มั่นใจในคุณภาพของการสตรีม Netflix คาดการณ์ว่ารายการใดจะถูกสตรีมในสถานที่เฉพาะและแคชเนื้อหาในเซิร์ฟเวอร์ใกล้เคียง การแคชและการจัดเก็บเนื้อหาทำได้เมื่อปริมาณการใช้อินเทอร์เน็ตต่ำ สิ่งนี้ทำให้มั่นใจได้ว่าเนื้อหาจะถูกสตรีมโดยไม่มีบัฟเฟอร์และความพึงพอใจของลูกค้าจะเพิ่มขึ้นสูงสุด การทดสอบ A/B นั้นถูกใช้อย่างกว้างขวางเมื่อใดก็ตามที่มีการเปลี่ยนแปลงอัลกอริธึมที่มีอยู่ หรือมีการนำเสนออัลกอริธึมใหม่ มีการใช้เทคนิคใหม่ๆ เช่น การแทรกสอดและการวัดซ้ำเพื่อเร่งกระบวนการทดสอบ A/B โดยใช้ตัวอย่างจำนวนน้อยมาก
สรุปได้ว่า Netflix ใช้การวิเคราะห์ข้อมูลเพื่อดึงดูดและสร้างความประทับใจให้กับลูกค้า หากคุณสนใจที่จะเจาะลึกและเรียนรู้เพิ่มเติมว่าบริษัทที่ยอดเยี่ยมแห่งนี้ใช้วิทยาศาสตร์ข้อมูลอย่างไร โปรดไปที่บล็อกการวิจัยของพวกเขา มีบทความมากมายในบล็อกของพวกเขาที่รอให้คุณเข้าไปสำรวจ
ในบล็อกชุดต่อไป เราจะมาดูกันว่า Instacart ใช้ประโยชน์จากวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องได้อย่างไร ตอนนี้คุณได้อ่านบล็อกนี้แล้ว ให้คำติชมเกี่ยวกับสิ่งที่คุณคิดเกี่ยวกับบทความนี้ เสนอคำแนะนำเกี่ยวกับบริษัทที่คุณต้องการเห็นในซีรีส์ในอนาคตของฉัน
เรียนรู้ หลักสูตรวิทยาศาสตร์ข้อมูล จากมหาวิทยาลัยชั้นนำของโลก รับโปรแกรม PG สำหรับผู้บริหาร โปรแกรมประกาศนียบัตรขั้นสูง หรือโปรแกรมปริญญาโท เพื่อติดตามอาชีพของคุณอย่างรวดเร็ว
