Applications de la science des données et de l'apprentissage automatique dans NETFLIX

Publié: 2018-08-21

Les industries utilisent la science des données de manière passionnante et créative. La science des données se présente dans des endroits inattendus améliorant l'efficacité de divers secteurs. Il dynamise la prise de décision humaine et a un impact sur les résultats de l'entreprise comme jamais auparavant. Les industries ravissent des millions de clients en alimentant leurs applications avec la science des données et l'apprentissage automatique.
Cette série de blogs vise à parler d'applications intéressantes de la science des données et de l'apprentissage automatique dans diverses entreprises. Une entreprise sera mise en avant dans chaque article de blog. Cette série de blogs expliquera comment des entreprises comme Google, Apple, LinkedIn, Uber, Instagram, Twitter, Instacart, Netflix, Washington post, Quora, Pinterest, Amazon, Medium, Microsoft, etc. tirent parti de la science des données et de l'apprentissage automatique pour alimenter leur entreprises. Alors, commençons cette série avec 'Netflix'.

Table des matières

NETFLIX

Il est bien connu que Netflix utilise des systèmes de recommandation pour suggérer des films ou des émissions à ses clients. Outre les recommandations de films, il existe de nombreux autres domaines moins connus dans lesquels Netflix utilise la science des données et l'apprentissage automatique :

    • Décider des illustrations personnalisées pour les films et les émissions

    • Suggérer les meilleurs cadres d'un spectacle aux éditeurs pour un travail créatif

    • Améliorer la qualité de service (QoS) en continu en décidant de l'encodage vidéo, des progrès des algorithmes côté client et côté serveur, de la mise en cache de la vidéo, etc.

    • Optimisation des différentes étapes de production

  • Expérimenter divers algorithmes à l'aide de tests A/B et décider de l'inférence causale. Réduisez le temps nécessaire pour expérimenter en utilisant l'entrelacement, etc.
Un exemple de feuille de route pour construire votre entrepôt de données

Oeuvre personnalisée

Chaque film recommandé par Netflix est accompagné d'une illustration associée. L'œuvre d'art qui accompagne une suggestion de film n'est pas commune à tout le monde. Comme la recommandation de film, l'œuvre liée à un spectacle est également personnalisée. Tous les membres ne voient pas une seule meilleure œuvre d'art. Un portefeuille d'œuvres d'art sera créé pour un titre spécifique. En fonction des goûts et des préférences du public, l'algorithme d'apprentissage automatique choisira une œuvre qui maximise les chances de visionner le titre.
Un portfolio d'Artwork créé pour le titre 'Stranger Things' :
Applications de la science des données et de l'apprentissage automatique dans NETFLIX
La personnalisation au travail. Rangée du haut - Œuvre suggérée pour un spectateur qui aime l'actrice Uma Thurman. Rangée du bas - Suggestion d'illustration pour un spectateur qui aime l'acteur John Travolta :
Applications de la science des données et de l'apprentissage automatique dans NETFLIX
La personnalisation des illustrations n'est pas toujours simple. Il y a des défis à la personnalisation des œuvres d'art. Tout d'abord, une seule image ne peut être choisie que pour la personnalisation de l'œuvre. En revanche, de nombreux films peuvent être recommandés à la fois. Deuxièmement, la suggestion d'œuvres d'art doit fonctionner en association avec un moteur de recommandation de films. Il se trouve généralement au-dessus de la recommandation de film. Troisièmement, la recommandation d'illustrations personnalisées doit prendre en compte les suggestions d'images pour d'autres films. Sinon, il n'y aura pas de variation et de diversité dans les suggestions d'œuvres d'art qui seront monotones. Quatrièmement, la même œuvre d'art ou une autre doit-elle être exposée entre les sessions ? Chaque fois que l'affichage d'images différentes confondra le spectateur et conduira également au problème d'attribution. Le problème d'attribution est de savoir quelle œuvre amène le public à voir l'émission.
La personnalisation des illustrations conduit à des améliorations significatives dans la découverte de contenu par les téléspectateurs. La personnalisation des œuvres d'art est la première instance non seulement d'une recommandation personnalisée, mais également de la manière dont la recommandation est faite aux membres. Netflix recherche et perfectionne toujours activement cette technique naissante.
Un aperçu de l'extraction de règles d'association et de ses applications

L'art de la découverte de l'image

Une seule heure de "Stranger Things" consiste en 86 000 images vidéo statiques. Une seule saison (10 épisodes) comprend en moyenne 9 millions d'images au total. Netflix ajoute régulièrement du contenu pour répondre à ses clients mondiaux. Dans une telle situation, il n'est pas possible de récolter manuellement pour trouver l'œuvre d'art 'Bonne' pour la personne 'Bonne'. Il est presque impossible pour les éditeurs humains de rechercher les meilleurs cadres qui feront ressortir les éléments uniques du spectacle. Pour relever ce défi à grande échelle, Netflix a créé une suite d'outils pour refaire surface les meilleures images qui capturent vraiment le véritable esprit de l'émission.
Pipeline pour capturer automatiquement les meilleures images d'un spectacle :
Applications de la science des données et de l'apprentissage automatique dans NETFLIX
Les annotations de trame sont utilisées pour capturer les signaux objectifs qui sont utilisés pour le classement des images. Pour obtenir des annotations de trame, une vidéo est divisée en plusieurs petits morceaux. Ces morceaux sont traités en parallèle à l'aide d'un framework appelé «Archer». Ce traitement parallèle aide Netflix à capturer les annotations d'image à l'échelle. Chaque pièce est gérée par un algorithme de vision artificielle pour obtenir les caractéristiques de la monture. Par exemple, certaines des propriétés de l'image qui sont capturées sont la couleur, la luminosité, le contraste, etc. Une catégorie de caractéristiques qui indiqueront ce qui se passe dans une image et capturées lors de l'annotation de l'image sont la détection de visage, l'estimation de mouvement, la détection d'objet, etc. Netflix a également identifié un ensemble de propriétés à partir des principes fondamentaux de la photographie, de la cinématographie et de la conception esthétique visuelle comme la règle du tiers, etc. qui sont capturées lors de l'annotation des images.
La prochaine étape après l'annotation du cadre consiste à classer les images. Certains facteurs pris en compte pour le classement sont les acteurs, la diversité des images, la maturité du contenu, etc. Netflix utilise des techniques d'apprentissage en profondeur pour regrouper les images des acteurs dans une émission, hiérarchiser les personnages principaux et dé-prioriser les personnages secondaires. Les cadres avec violence et nudité sont mal notés. En utilisant cette méthode de classement, les meilleures images d'un spectacle sont mises en évidence. De cette façon, l'équipe artistique et éditoriale disposera d'un ensemble d'images de haute qualité avec lesquelles travailler au lieu de traiter des millions d'images pour un épisode particulier.

Science des données en production

Netflix dépense huit milliards de dollars cette année pour créer du contenu original. Contenu créé pour des millions d'audience à travers le monde dans plus de 20 langues. Cela ne devrait pas nous surprendre si Netflix utilise Data Science pour produire du contenu original. En fait, Netflix utilise la science des données à chaque étape de la production de contenu.

Généralement, la production de contenu consistera en des étapes de pré-production, de production et de post-production. La planification, la budgétisation, etc. se produisent en pré-production. La photographie principale fait partie de la production. Des étapes telles que le montage, le mixage sonore, etc. font partie de la post-production. L'ajout de sous-titres et la suppression des problèmes techniques font partie de la localisation et du contrôle de la qualité. Voyons maintenant comment la science des données aide à optimiser chaque étape de la production.

Pipeline pour capturer automatiquement les meilleures images d'un spectacle :
Applications de la science des données et de l'apprentissage automatique dans NETFLIX
Comme dit précédemment, la budgétisation fait partie de la pré-production. De nombreuses décisions doivent être prises avant le démarrage de la production. Par exemple, le lieu de prise de vue. La science des données est largement utilisée pour analyser les implications financières d'un emplacement spécifique. Les décisions sont prises en équilibrant délicatement la vision créative et les budgets. La minimisation des coûts se fait sans compromettre la vision du contenu.
La production implique de tourner des milliers de plans sur plusieurs mois. La production aura un objectif, mais elle doit être entreprise sous des contraintes spécifiques. Par exemple, les contraintes peuvent être qu'un acteur n'est disponible qu'une semaine, un lieu n'est disponible que certains jours, les heures de travail de l'équipe sont de 8 heures par jour, des contraintes de temps telles qu'un tournage de jour ou de nuit, l'équipe peut avoir à se déplacer entre les tournages. Préparer un planning de tournage avec toutes ces contraintes peut être un cauchemar pour le réalisateur. Les techniques d'optimisation mathématique sont utilisées ici avec un objectif et des contraintes. Cette technique d'optimisation donnera un calendrier de prise de vue approximatif. Ce calendrier est encore affiné avec des ajustements.

La post-production prendra autant de temps que la production sinon plus. Des techniques de visualisation de données sont utilisées pour vérifier les goulots d'étranglement en post-production. Des techniques de visualisation sont également utilisées pour suivre la tendance de la post-production et la projeter dans le futur. Cette prévision est faite pour voir la charge de travail des différentes équipes et la dotation en personnel de l'équipe de manière appropriée.

Dans la localisation, les émissions sont doublées d'une langue à l'autre. La priorisation concernant les émissions à doubler est décidée sur la base de l'analyse des données. Le contenu doublé qui s'est avéré populaire dans le passé est prioritaire. Le contrôle de la qualité vérifiera les problèmes tels que la synchronisation entre l'audio et la vidéo, la synchronisation des sous-titres avec le son, etc. Le contrôle de la qualité est effectué avant et après l'encodage (le processus de compression des vidéos en différents débits pour la diffusion sur différents appareils). Netflix a accumulé des données historiques à partir de contrôles de qualité manuels. Ces données comprenaient les erreurs qui se sont produites dans le passé, les formats vidéo dans lesquels les erreurs ont été trouvées, les partenaires auprès desquels ce contenu a été obtenu, le genre du contenu, etc. Oui, Netflix a vu un modèle d'erreurs dans le genre comme bien. À l'aide de ces données, un modèle d'apprentissage automatique a été construit qui prédit soit la « réussite » ou « l'échec » des contrôles de qualité. Si un algorithme d'apprentissage automatique prédit un "échec", cet actif sera soumis à une série de contrôles de qualité manuels.
Principales entreprises qui embauchent des data scientists en Inde

Qualité d'expérience du streaming et tests A/B

La science des données est largement utilisée pour garantir la qualité de l'expérience de streaming. La qualité de la connectivité réseau est prévue pour assurer la qualité du streaming. Netflix prédit activement quelle émission sera diffusée à un endroit particulier et met en cache le contenu sur le serveur à proximité. La mise en cache et le stockage du contenu sont effectués lorsque le trafic Internet est faible. Cela garantit que le contenu est diffusé sans tampons et que la satisfaction du client est maximisée. Les tests A/B sont largement utilisés chaque fois qu'une modification est apportée à l'algorithme existant ou qu'un nouvel algorithme est proposé. De nouvelles techniques telles que l'entrelacement et les mesures répétées sont utilisées pour accélérer le processus de test A/B en utilisant un très petit nombre d'échantillons.
Pour conclure, voici quelques façons dont Netflix utilise l'analyse des données pour engager et impressionner les clients. Si vous souhaitez approfondir et en savoir plus sur la façon dont cette merveilleuse entreprise utilise la science des données, visitez leur blog de recherche. Il y a un trésor d'articles sur leur blog qui attendent d'être explorés.

Guide du débutant sur la science des données et ses applications

Dans la prochaine série de blogs, voyons comment Instacart tire parti de la science des données et de l'apprentissage automatique. Maintenant que vous avez lu ce blog, donnez votre avis sur ce que vous pensez de cet article. Proposez également des suggestions concernant la société que vous aimeriez voir dans ma future série.

Apprenez des cours de science des données dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Préparez-vous à une carrière d'avenir

Programme de certificat professionnel en science des données pour la prise de décision commerciale de l'IIMK