Applicazioni di Data Science e Machine Learning in NETFLIX

Pubblicato: 2018-08-21

Le industrie utilizzano la scienza dei dati in modi eccitanti e creativi. La scienza dei dati si sta rivelando in luoghi inaspettati migliorando l'efficienza di vari settori. Sta potenziando il processo decisionale umano e ha un impatto sui profitti e sui profitti dell'azienda come mai prima d'ora. Le industrie soddisfano milioni di clienti potenziando le loro applicazioni con la scienza dei dati e l'apprendimento automatico.
Questa serie di blog mira a parlare di interessanti applicazioni della scienza dei dati e dell'apprendimento automatico in varie aziende. Un'azienda sarà messa in evidenza in ogni post del blog. Questa serie di blog parlerà di come aziende come Google, Apple, LinkedIn, Uber, Instagram, Twitter, Instacart, Netflix, Washington Post, Quora, Pinterest, Amazon, Medium, Microsoft, ecc. stanno sfruttando Data Science e Machine Learning per potenziare i propri imprese. Quindi, iniziamo questa serie con "Netflix".

Sommario

NETFLIX

È risaputo che Netflix utilizza i Sistemi di Raccomandazione per suggerire film o programmi ai propri clienti. Oltre ai consigli sui film, ci sono molte altre aree meno conosciute in cui Netflix utilizza la scienza dei dati e l'apprendimento automatico sono:

    • Decidere le opere d'arte personalizzate per i film e gli spettacoli

    • Suggerendo i migliori fotogrammi di uno spettacolo agli editori per il lavoro creativo

    • Miglioramento dello streaming della qualità del servizio (QoS) decidendo la codifica video, i progressi negli algoritmi lato client e lato server, la memorizzazione nella cache del video, ecc.

    • Ottimizzazione delle diverse fasi di produzione

  • Sperimentazione con vari algoritmi usando il test A/B e decidendo l'inferenza causale. Riduci il tempo necessario per sperimentare usando l'intreccio, ecc.
Una tabella di marcia di esempio per la creazione del tuo data warehouse

Opere d'arte personalizzate

Ogni film consigliato da Netflix viene fornito con un'illustrazione associata. L'opera d'arte che accompagna un suggerimento per un film non è comune a tutti. Come la raccomandazione di un film, anche l'opera d'arte relativa a uno spettacolo è personalizzata. Tutti i membri non vedono una singola opera d'arte migliore. Verrà creato un portfolio di opere d'arte per un titolo specifico. A seconda del gusto e delle preferenze del pubblico, l'algoritmo di apprendimento automatico sceglierà un'opera d'arte che massimizza le possibilità di visualizzare il titolo.
Un portfolio di opere d'arte create per il titolo 'Stranger Things':
Applicazioni di Data Science e Machine Learning in NETFLIX
Personalizzazione al lavoro. Riga in alto – Opere d'arte suggerite per uno spettatore a cui piace l'attrice Uma Thurman. Riga in basso – Suggerimento per l'opera d'arte per uno spettatore a cui piace l'attore John Travolta:
Applicazioni di Data Science e Machine Learning in NETFLIX
La personalizzazione delle opere d'arte non è sempre semplice. Ci sono sfide per la personalizzazione delle opere d'arte. In primo luogo, una singola immagine può essere scelta solo per la personalizzazione dell'opera d'arte. Al contrario, molti film possono essere consigliati alla volta. In secondo luogo, il suggerimento per la grafica dovrebbe funzionare in associazione con un motore di suggerimenti per i film. In genere si trova in cima alla raccomandazione del film. In terzo luogo, la raccomandazione di opere d'arte personalizzate dovrebbe tenere conto dei suggerimenti di immagini per altri film. In caso contrario, non ci saranno variazioni e diversità nelle proposte di opere d'arte che saranno monotone. Quarto, dovrebbe essere visualizzata la stessa opera d'arte o una diversa tra le sessioni. Ogni volta che mostrare immagini diverse confonderà lo spettatore e porterà anche al problema dell'attribuzione. Il problema di attribuzione è quale opera d'arte porta il pubblico a vedere lo spettacolo.
La personalizzazione delle opere d'arte porta a miglioramenti significativi nella scoperta dei contenuti da parte degli spettatori. La personalizzazione dell'opera d'arte è la prima istanza non solo di una raccomandazione personalizzata, ma anche di come la raccomandazione viene fatta ai membri. Netflix sta ancora attivamente ricercando e perfezionando questa tecnica nascente.
Una panoramica dell'estrazione di regole di associazione e delle sue applicazioni

Arte della scoperta dell'immagine

Una singola ora di "Stranger Things" è composta da 86.000 fotogrammi video statici. Una singola stagione (10 episodi) è composta in media da 9 milioni di fotogrammi totali. Netflix aggiunge regolarmente contenuti per soddisfare i suoi clienti globali. In una situazione del genere non è possibile raccogliere manualmente per trovare l'opera d'arte "giusta" per la persona "giusta". È quasi impossibile per gli editori umani cercare i migliori fotogrammi che mettano in risalto gli elementi unici dello spettacolo. Per affrontare questa sfida su larga scala, Netflix ha creato una suite di strumenti per far riemergere i migliori frame che catturano veramente il vero spirito dello spettacolo.
Pipeline per acquisire automaticamente i fotogrammi migliori per uno spettacolo:
Applicazioni di Data Science e Machine Learning in NETFLIX
Le annotazioni dei frame vengono utilizzate per acquisire i segnali oggettivi utilizzati per la classifica delle immagini. Per ottenere le annotazioni dei fotogrammi, un video è diviso in più piccoli blocchi. Questi blocchi vengono elaborati in parallelo utilizzando un framework noto come "Archer". Questa elaborazione parallela sta aiutando Netflix a catturare le annotazioni del frame in scala. Ogni pezzo è gestito da un algoritmo di visione artificiale per ottenere le caratteristiche del telaio. Ad esempio, alcune delle proprietà della cornice che vengono catturate sono colore, luminosità, contrasto, ecc. Una categoria di caratteristiche che diranno cosa sta accadendo in una cornice e catturate durante l'annotazione della cornice sono il rilevamento del volto, la stima del movimento, il rilevamento di oggetti, ecc. Netflix ha anche identificato una serie di proprietà dai principi fondamentali della fotografia, della cinematografia e del design estetico visivo come la regola del terzo ecc. che vengono acquisite durante l'annotazione del fotogramma.
Il passaggio successivo dopo l'annotazione del frame è classificare le immagini. Alcuni fattori considerati per la classifica sono gli attori, la diversità delle immagini, la maturità dei contenuti, ecc. Netflix utilizza tecniche di deep learning per raggruppare le immagini degli attori in uno spettacolo, dare priorità ai personaggi principali e de-priorità ai personaggi secondari. I fotogrammi con violenza e nudità hanno un punteggio esiguo. Utilizzando questo metodo di classificazione vengono visualizzati i migliori fotogrammi per uno spettacolo. In questo modo la grafica e il team editoriale avranno una serie di immagini di alta qualità con cui lavorare invece di gestire milioni di fotogrammi per un particolare episodio.

Scienza dei dati in produzione

Netflix sta spendendo otto miliardi di dollari quest'anno per la creazione di contenuti originali. Contenuti creati per milioni di spettatori in tutto il mondo in più di 20 lingue. Non dovrebbe sorprenderci se Netflix utilizza Data Science per la produzione di contenuti originali. In effetti, Netflix utilizza Data Science in ogni fase della produzione di contenuti.

In genere la produzione di contenuti consisterà in fasi di pre-produzione, produzione e post-produzione. La pianificazione, il budgeting ecc. avvengono in pre-produzione. Le riprese principali fanno parte della produzione. Passaggi come l'editing, il missaggio del suono ecc. fanno parte della post-produzione. L'aggiunta di sottotitoli e la rimozione dei problemi tecnici fanno parte della localizzazione e del controllo di qualità. Ora vediamo come la scienza dei dati aiuta a ottimizzare ogni fase della produzione.

Pipeline per acquisire automaticamente i fotogrammi migliori per uno spettacolo:
Applicazioni di Data Science e Machine Learning in NETFLIX
Come detto in precedenza, il budgeting fa parte della pre-produzione. Molte decisioni devono essere prese prima dell'inizio della produzione. Ad esempio, il luogo per le riprese. La scienza dei dati è ampiamente utilizzata per analizzare le implicazioni sui costi di una posizione specifica. Le decisioni vengono prese bilanciando delicatamente la visione creativa e i budget. La minimizzazione dei costi avviene senza compromettere la visione del contenuto.
La produzione prevede la ripresa di migliaia di riprese nell'arco di molti mesi. La produzione avrà un obiettivo, ma deve essere intrapresa con vincoli specifici. Ad esempio, i vincoli possono essere che un attore è disponibile solo per una settimana, una location è disponibile solo per giorni particolari, l'orario di lavoro per la troupe è di 8 ore al giorno, vincoli di tempo come una ripresa diurna o notturna, la squadra potrebbe essere necessario spostare le posizioni tra le riprese. Preparare un programma di riprese con tutti questi vincoli può essere un incubo per il regista. Le tecniche di ottimizzazione matematica vengono qui utilizzate con un obiettivo e vincoli. Questa tecnica di ottimizzazione fornirà un programma di riprese approssimativo. Questo programma è ulteriormente perfezionato con adeguamenti.

La post-produzione richiederà tanto tempo quanto la produzione, se non di più. Le tecniche di visualizzazione dei dati vengono utilizzate per controllare i colli di bottiglia in post-produzione. Le tecniche di visualizzazione vengono utilizzate anche per tracciare la tendenza in post-produzione e proiettarla nel futuro. Questa previsione viene eseguita per vedere il carico di lavoro dei vari team e per dotare il team in modo appropriato.

Nella localizzazione, gli spettacoli sono doppiati da una lingua all'altra. La priorità in merito agli spettacoli da doppiare viene decisa in base all'analisi dei dati. I contenuti doppiati che si sono rivelati popolari in passato hanno la priorità. Il controllo di qualità verificherà la presenza di problemi come la sincronizzazione tra audio e video, la sincronizzazione dei sottotitoli con l'audio, ecc. Il controllo della qualità viene eseguito sia prima che dopo la codifica (il processo di compressione dei video in bitrate diversi per lo streaming su dispositivi diversi). Netflix ha accumulato dati storici dai controlli di qualità manuali. Questi dati erano costituiti dagli errori che si sono verificati in passato, dai formati video in cui sono stati trovati gli errori, dai partner da cui è stato ottenuto questo contenuto, dal genere del contenuto ecc. Sì, Netflix ha visto uno schema di errori nel genere come bene. Utilizzando questi dati è stato costruito un modello di apprendimento automatico che prevede il "superamento" o il "fallimento" dei controlli di qualità. Se un algoritmo di apprendimento automatico prevede il "fallimento", la risorsa verrà sottoposta a un ciclo di controlli di qualità manuali.
Le migliori aziende che assumono data scientist in India

Qualità dell'esperienza in streaming e test A/B

La scienza dei dati è ampiamente utilizzata per garantire la qualità dell'esperienza di streaming. La qualità della connettività di rete è prevista per garantire la qualità dello streaming. Netflix prevede attivamente quale programma verrà trasmesso in streaming in una determinata posizione e memorizza nella cache il contenuto nel server vicino. La memorizzazione nella cache e la memorizzazione dei contenuti vengono eseguite quando il traffico Internet è basso. Ciò garantisce che il contenuto venga riprodotto in streaming senza buffer e la soddisfazione del cliente sia massimizzata. Il test A/B viene ampiamente utilizzato ogni volta che viene apportata una modifica all'algoritmo esistente o viene proposto un nuovo algoritmo. Nuove tecniche come l'interleaving e le misure ripetute vengono utilizzate per accelerare il processo di test A/B utilizzando un numero molto inferiore di campioni.
Per concludere, questi sono alcuni dei modi in cui Netflix utilizza l'analisi dei dati per coinvolgere e stupire i clienti. Se sei interessato ad approfondire e saperne di più su come questa meravigliosa azienda sta usando la scienza dei dati, visita il loro blog di ricerca. C'è una miniera di articoli sul loro blog in attesa di essere esplorati.

Una guida per principianti alla scienza dei dati e alle sue applicazioni

Nella prossima serie di blog, vediamo come Instacart sta sfruttando la scienza dei dati e l'apprendimento automatico. Ora che hai letto questo blog, fornisci un feedback su ciò che pensi di questo articolo. Inoltre, offri suggerimenti su quale azienda vorresti vedere nelle mie serie future.

Impara i corsi di scienza dei dati dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

Prepararsi per una carriera del futuro

Programma di certificazione professionale in Data Science per il processo decisionale aziendale da IIMK