Aplicaciones de Data Science y Machine Learning en NETFLIX

Publicado: 2018-08-21

Las industrias están utilizando la ciencia de datos de formas emocionantes y creativas. La ciencia de datos está apareciendo en lugares inesperados mejorando la eficiencia de varios sectores. Está impulsando la toma de decisiones humana e impactando las líneas superiores e inferiores del negocio como nunca antes. Las industrias están deleitando a millones de clientes al potenciar sus aplicaciones con ciencia de datos y aprendizaje automático.
Esta serie de blogs tiene como objetivo hablar sobre aplicaciones interesantes de la ciencia de datos y el aprendizaje automático en varias empresas. Se destacará una empresa en cada entrada del blog. Esta serie de blogs hablará sobre cómo empresas como Google, Apple, LinkedIn, Uber, Instagram, Twitter, Instacart, Netflix, Washington Post, Quora, Pinterest, Amazon, Medium, Microsoft, etc. están aprovechando la ciencia de datos y el aprendizaje automático para potenciar sus negocios Entonces, comencemos esta serie con 'Netflix'.

Tabla de contenido

NETFLIX

Es bien sabido que Netflix utiliza sistemas de recomendación para sugerir películas o programas a sus clientes. Además de las recomendaciones de películas, hay muchas otras áreas menos conocidas en las que Netflix utiliza la ciencia de datos y el aprendizaje automático:

    • Decidir obras de arte personalizadas para películas y espectáculos.

    • Sugerir los mejores fotogramas de un programa a los editores para el trabajo creativo.

    • Mejorar la transmisión de calidad de servicio (QoS) al decidir sobre la codificación de video, los avances en los algoritmos del lado del cliente y del lado del servidor, el almacenamiento en caché del video, etc.

    • Optimización de diferentes etapas de producción.

  • Experimentar con varios algoritmos usando pruebas A/B y decidir la inferencia causal. Reduzca el tiempo necesario para experimentar con el entrelazado, etc.
Ejemplo de hoja de ruta para construir su almacén de datos

Obras de arte personalizadas

Cada película recomendada por Netflix viene con ilustraciones asociadas. La obra de arte que viene con una sugerencia de película no es común para todos. Al igual que la recomendación de películas, el material gráfico relacionado con un espectáculo también se personaliza. No todos los miembros ven una sola mejor obra de arte. Se creará una carpeta de obras de arte para un título específico. Según el gusto y la preferencia de la audiencia, el algoritmo de aprendizaje automático elegirá una obra de arte que maximice las posibilidades de ver el título.
Una carpeta de obras de arte creadas para el título 'Stranger Things':
Aplicaciones de Data Science y Machine Learning en NETFLIX
Personalización en el trabajo. Fila superior: Obra de arte sugerida para un espectador al que le gusta la actriz Uma Thurman. Fila inferior: sugerencia de arte para un espectador al que le gusta el actor John Travolta:
Aplicaciones de Data Science y Machine Learning en NETFLIX
La personalización de las ilustraciones no siempre es sencilla. Hay desafíos para la personalización de obras de arte. En primer lugar, solo se puede elegir una sola imagen para la personalización de la obra de arte. Por el contrario, se pueden recomendar muchas películas a la vez. En segundo lugar, la sugerencia de arte debe funcionar en asociación con un motor de recomendación de películas. Por lo general, se encuentra en la parte superior de la recomendación de películas. En tercer lugar, la recomendación de ilustraciones personalizadas debe tener en cuenta las sugerencias de imágenes para otras películas. De lo contrario, no habrá variación y diversidad en las sugerencias de obras de arte que serán monótonas. Cuarto, si se muestra la misma obra de arte o una diferente entre sesiones. Cada vez que se muestren imágenes diferentes se confundirá al espectador y también se generará el problema de atribución. El problema de atribución es qué obra de arte lleva a la audiencia a ver el espectáculo.
La personalización de las ilustraciones conduce a mejoras significativas en el descubrimiento de contenido por parte de los espectadores. La personalización de ilustraciones es la primera instancia no solo de una recomendación personalizada, sino también de cómo se hace la recomendación a los miembros. Netflix todavía está investigando y perfeccionando activamente esta técnica incipiente.
Una descripción general de la minería de reglas de asociación y sus aplicaciones

Arte del descubrimiento de imágenes

Una sola hora de 'Stranger Things' consta de 86.000 cuadros de video estáticos. Una sola temporada (10 episodios) consiste en un promedio de 9 millones de fotogramas en total. Netflix está agregando contenido regularmente para atender a sus clientes globales. En tal situación, no es posible cosechar manualmente para encontrar la obra de arte 'Adecuada' para la persona 'Adecuada'. Es casi imposible para los editores humanos buscar los mejores fotogramas que resaltarán los elementos únicos del programa. Para enfrentar este desafío a escala, Netflix creó un conjunto de herramientas para resurgir los mejores cuadros que realmente capturan el verdadero espíritu del programa.
Pipeline para capturar automáticamente los mejores fotogramas para un espectáculo:
Aplicaciones de Data Science y Machine Learning en NETFLIX
Las anotaciones de cuadros se utilizan para capturar las señales objetivas que se utilizan para la clasificación de imágenes. Para lograr anotaciones de cuadros, un video se divide en varios fragmentos pequeños. Estos fragmentos se procesan en paralelo utilizando un marco conocido como 'Archer'. Este procesamiento paralelo está ayudando a Netflix a capturar las anotaciones de fotogramas a escala. Cada pieza es manejada por un algoritmo de visión artificial para obtener las características del marco. Por ejemplo, algunas de las propiedades del cuadro que se capturan son el color, el brillo, el contraste, etc. Una categoría de características que indicará lo que está sucediendo en un cuadro y capturadas durante la anotación del cuadro son la detección de rostros, la estimación de movimiento, la detección de objetos, etc. Netflix también identificó un conjunto de propiedades de los principios básicos de la fotografía, la cinematografía y el diseño estético visual, como la regla de los tercios, etc., que se capturan durante la anotación de fotogramas.
El siguiente paso después de la anotación de fotogramas es clasificar las imágenes. Algunos factores considerados para la clasificación son los actores, la diversidad de las imágenes, la madurez del contenido, etc. Netflix está utilizando técnicas de aprendizaje profundo para agrupar las imágenes de los actores en un programa, priorizar a los personajes principales y restar prioridad a los personajes secundarios. Los fotogramas con violencia y desnudez reciben una escasa puntuación. Con este método de clasificación, se muestran los mejores fotogramas para un programa. De esta manera, el equipo editorial y de arte tendrá un conjunto de imágenes de alta calidad para trabajar en lugar de lidiar con millones de fotogramas para un episodio en particular.

Ciencia de datos en producción

Netflix está gastando ocho mil millones de dólares este año para crear contenido original. Contenido creado para millones de audiencias en todo el mundo en más de 20 idiomas. No debería sorprendernos si Netflix está utilizando Data Science para producir contenido original. De hecho, Netflix está utilizando Data Science en cada paso de la producción de contenido.

Por lo general, la producción de contenido consistirá en etapas de preproducción, producción y posproducción. La planificación, la presupuestación, etc. sucede en la preproducción. La fotografía principal es parte de la producción. Pasos como la edición, la mezcla de sonido, etc. son parte de la postproducción. La adición de subtítulos y la eliminación de fallas técnicas son parte de la localización y el control de calidad. Ahora veamos cómo la ciencia de datos ayuda a optimizar cada etapa de producción.

Pipeline para capturar automáticamente los mejores fotogramas para un espectáculo:
Aplicaciones de Data Science y Machine Learning en NETFLIX
Como se dijo anteriormente, el presupuesto es parte de la preproducción. Se deben tomar muchas decisiones antes de que comience la producción. Por ejemplo, la ubicación para disparar. La ciencia de datos se usa ampliamente para analizar las implicaciones de costos de una ubicación específica. Las decisiones se toman equilibrando delicadamente la visión creativa y los presupuestos. La minimización de costes se realiza sin comprometer la visión del contenido.
La producción implica filmar miles de tomas durante muchos meses. La producción tendrá un objetivo, pero debe llevarse a cabo bajo restricciones específicas. Por ejemplo, las restricciones pueden ser que un actor esté disponible solo durante una semana, una ubicación solo esté disponible durante determinados días, el horario de trabajo del equipo sea de 8 horas por día, restricciones de tiempo como una toma diurna o nocturna, el equipo puede que tenga que cambiar de ubicación entre tomas. Preparar un programa de rodaje con todas estas limitaciones puede ser una pesadilla para el director. Aquí se utilizan técnicas de optimización matemática con un objetivo y restricciones. Esta técnica de optimización dará un cronograma de rodaje aproximado. Este cronograma se refina aún más con ajustes.

La posproducción llevará tanto tiempo como la producción, si no más. Las técnicas de visualización de datos se utilizan para comprobar los cuellos de botella en la postproducción. Las técnicas de visualización también se utilizan para seguir la tendencia en la posproducción y proyectarla hacia el futuro. Esta previsión se realiza para ver la carga de trabajo de varios equipos y dotarlos de personal de manera adecuada.

En la localización, los programas se doblan de un idioma a otro. La priorización con respecto a qué programas deben doblarse se decide en función del análisis de datos. Se prioriza el contenido doblado que demostró ser popular en el pasado. El control de calidad verificará problemas como la sincronización entre audio y video, la sincronización de subtítulos con sonido, etc. El control de calidad se realiza antes y después de la codificación (el proceso de comprimir videos en diferentes tasas de bits para transmitir en diferentes dispositivos). Netflix acumuló datos históricos de controles de calidad manuales. Estos datos consistían en los errores que ocurrieron en el pasado, los formatos de video en los que se encontraron los errores, los socios de quienes se obtuvo este contenido, el género del contenido, etc. Sí, Netflix vio un patrón de errores en el género como bien. Con estos datos, se construyó un modelo de aprendizaje automático que predice el "aprobado" o el "fallo" de los controles de calidad. Si un algoritmo de aprendizaje automático predice un "fallo", ese activo pasará por una ronda de controles de calidad manuales.
Las principales empresas que contratan científicos de datos en la India

Transmisión de calidad de la experiencia y pruebas A/B

La ciencia de datos se usa ampliamente para garantizar la calidad de la experiencia de transmisión. Se predice la calidad de la conectividad de la red para garantizar la calidad de la transmisión. Netflix predice activamente qué programa se transmitirá en una ubicación particular y almacena en caché el contenido en el servidor cercano. El almacenamiento en caché y el almacenamiento de contenido se realizan cuando el tráfico de Internet es bajo. Esto garantiza que el contenido se transmita sin búferes y se maximice la satisfacción del cliente. Las pruebas A/B se utilizan ampliamente cada vez que se realiza un cambio en el algoritmo existente o se propone un nuevo algoritmo. Se utilizan nuevas técnicas como el intercalado y las medidas repetidas para acelerar el proceso de prueba A/B utilizando una cantidad muy inferior de muestras.
Para concluir, estas son algunas de las formas en que Netflix utiliza el análisis de datos para atraer y sorprender a los clientes. Si está interesado en profundizar y saber más sobre cómo esta maravillosa empresa está utilizando la ciencia de datos, visite su blog de Investigación. Hay un tesoro de artículos en su blog que esperan ser explorados.

Una guía para principiantes sobre ciencia de datos y sus aplicaciones

En la próxima serie de blogs, veamos cómo Instacart está aprovechando la ciencia de datos y el aprendizaje automático. Ahora que ha leído este blog, proporcione comentarios sobre lo que piensa sobre este artículo. Además, ofrezca sugerencias sobre qué compañía le gustaría ver en mi serie futura.

Aprenda cursos de ciencia de datos de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.

Prepárese para una carrera del futuro

Programa de certificado profesional en ciencia de datos para la toma de decisiones comerciales de IIMK