Aplicații ale științei datelor și învățării automate în NETFLIX
Publicat: 2018-08-21Industriile folosesc știința datelor în moduri interesante și creative. Știința datelor apare în locuri neașteptate, îmbunătățind eficiența diferitelor sectoare. Întărește luarea deciziilor umane și are un impact asupra liniilor de sus și de jos ale afacerii ca niciodată înainte. Industriile încântă milioane de clienți, alimentându-și aplicațiile cu știința datelor și învățarea automată.
Această serie de bloguri își propune să vorbească despre aplicații interesante ale științei datelor și ale învățării automate în diverse companii. O companie va fi evidențiată în fiecare postare pe blog. Această serie de bloguri va vorbi despre modul în care companii precum Google, Apple, LinkedIn, Uber, Instagram, Twitter, Instacart, Netflix, Washington post, Quora, Pinterest, Amazon, Medium, Microsoft etc. folosesc știința datelor și învățarea automată pentru a-și alimenta afacerilor. Deci, haideți să începem această serie cu „Netflix”.
Cuprins
NETFLIX
Este bine cunoscut faptul că Netflix folosește sisteme de recomandare pentru a sugera filme sau emisiuni clienților săi. În afară de recomandările de filme, există multe alte domenii mai puțin cunoscute în care Netflix utilizează știința datelor și învățarea automată sunt:
- Decizia lucrărilor de artă personalizate pentru filme și spectacole
- Sugerarea celor mai bune cadre dintr-o emisiune editorilor pentru munca creativă
- Îmbunătățirea calității serviciului (QoS) în flux prin luarea unei decizii cu privire la codificarea video, progresele în algoritmii de partea client și server, memorarea în cache a videoclipului etc.
- Optimizarea diferitelor etape de producție
- Experimentarea cu diverși algoritmi folosind testarea A/B și determinarea inferenței cauzale. Reduceți timpul necesar pentru experimentarea utilizând împletirea etc.
Opera de artă personalizată
Fiecare film recomandat de Netflix vine cu lucrări de artă asociate. Opera de artă care vine împreună cu o sugestie de film nu este comună pentru toată lumea. Ca și recomandarea de film, și opera de artă legată de un spectacol este personalizată. Toți membrii nu văd o singură lucrare de artă. Un portofoliu de lucrări de artă va fi creat pentru un anumit titlu. În funcție de gustul și preferințele audienței, algoritmul de învățare automată va alege o lucrare de artă care maximizează șansele de a vizualiza titlul.
Un portofoliu de lucrări de artă create pentru titlul „Stranger Things”:
Personalizare la locul de muncă. Rândul de sus – Lucrări de artă sugerate pentru un spectator căruia îi place actrița Uma Thurman. Rândul de jos – Sugestie de artă pentru un spectator căruia îi place actorul John Travolta:
Personalizarea operelor de artă nu este întotdeauna simplă. Există provocări pentru personalizarea operelor de artă. În primul rând, o singură imagine poate fi aleasă doar pentru personalizarea lucrării de artă. În schimb, multe filme pot fi recomandate simultan. În al doilea rând, sugestia de artă ar trebui să funcționeze în asociere cu un motor de recomandare de filme. De obicei, se află pe partea superioară a recomandărilor de film. În al treilea rând, recomandarea personalizată a lucrărilor de artă ar trebui să țină cont de sugestiile de imagini pentru alte filme. În caz contrar, nu vor exista variații și diversitate în sugestiile de lucrări de artă care vor fi monotone. În al patrulea rând, ar trebui să fie afișată aceeași opera de artă sau una diferită între sesiuni. De fiecare dată afișarea de imagini diferite va deruta privitorul și va duce, de asemenea, la problema de atribuire. Problema de atribuire este opera de artă care determină publicul să vizioneze spectacolul.
Personalizarea operelor de artă duce la îmbunătățiri semnificative în descoperirea conținutului de către spectatori. Personalizarea lucrărilor de artă este prima instanță nu numai a unei recomandări personalizate, ci și a modului în care recomandarea este făcută membrilor. Netflix încă cercetează și perfecționează activ această tehnică în curs de dezvoltare.
O privire de ansamblu asupra exploatării regulilor de asociere și a aplicațiilor sale
Arta descoperirii imaginii
O singură oră de „Stranger Things” constă din 86.000 de cadre video statice. Un singur sezon (10 episoade) constă în medie 9 milioane de cadre totale. Netflix adaugă conținut în mod regulat pentru a-și satisface clienții globali. Într-o astfel de situație, nu este posibil să recoltați manual pentru a găsi opera de artă „Drept” pentru persoana „Drept”. Este aproape imposibil pentru editorii umani să caute cele mai bune cadre care vor scoate în evidență elementele unice ale spectacolului. Pentru a face față acestei provocări la scară, Netflix a creat o suită de instrumente pentru a reapariți cele mai bune cadre care surprind cu adevărat spiritul adevărat al spectacolului.
Pipeline pentru a captura automat cele mai bune cadre pentru un spectacol:
Adnotările cadru sunt utilizate pentru a capta semnalele obiective care sunt utilizate pentru clasarea imaginilor. Pentru a realiza adnotări de cadre, un videoclip este împărțit în mai multe bucăți mici. Aceste bucăți sunt procesate în paralel folosind un cadru cunoscut sub numele de „Archer”. Această procesare paralelă ajută Netflix să capteze adnotările cadrelor la scară. Fiecare piesă este manipulată de un algoritm de viziune artificială pentru a obține caracteristicile cadrului. De exemplu, unele dintre proprietățile cadrului care sunt capturate sunt culoarea, luminozitatea, contrastul etc. O categorie de caracteristici care vor spune ce se întâmplă într-un cadru și surprinse în timpul adnotării cadrului sunt detectarea feței, estimarea mișcării, detectarea obiectelor etc. Netflix a identificat, de asemenea, un set de proprietăți din principiile de bază ale fotografiei, cinematografiei și designului estetic vizual, cum ar fi regula a treia etc., care sunt capturate în timpul adnotării cadrelor.
Următorul pas după adnotarea cadru este clasarea imaginilor. Unii factori luați în considerare pentru clasare sunt actorii, diversitatea imaginilor, maturitatea conținutului etc. Netflix folosește tehnici de învățare profundă pentru a grupa imaginile actorilor într-un spectacol, pentru a prioritiza personajele principale și pentru a deprioritiza personajele secundare. Cadrele cu violență și nuditate au un punctaj slab. Folosind această metodă de clasare sunt scoase la suprafață cele mai bune cadre pentru un spectacol. În acest fel, lucrările de artă și echipa editorială vor avea un set de imagini de înaltă calitate cu care să lucreze, în loc să se ocupe de milioane de cadre pentru un anumit episod.

Știința datelor în producție
Netflix cheltuiește opt miliarde de dolari anul acesta pentru crearea de conținut original. Conținut creat pentru milioane de audiențe de pe tot globul în peste 20 de limbi. Nu ar trebui să ne surprindă dacă Netflix folosește Data Science pentru a produce conținut original. De fapt, Netflix folosește Data Science în fiecare pas al producției de conținut.
De obicei, producția de conținut va consta în faze de pre-producție, producție și post-producție. Planificarea, bugetarea etc. are loc în pre-producție. Fotografia principală face parte din producție. Pași precum editarea, mixarea sunetului etc. fac parte din post-producție. Adăugarea de subtitrări și eliminarea erorilor tehnice fac parte din localizare și controlul calității. Acum să vedem cum ajută știința datelor la optimizarea fiecărei etape a producției.
Pipeline pentru a captura automat cele mai bune cadre pentru un spectacol:
După cum sa spus mai devreme, bugetarea face parte din pre-producție. Multe decizii trebuie luate înainte de începerea producției. De exemplu, locația pentru fotografiere. Știința datelor este utilizată pe scară largă pentru a analiza implicațiile de cost ale unei anumite locații. Deciziile sunt luate prin echilibrarea delicată a viziunii creative și a bugetelor. Minimizarea costurilor se face fără a compromite viziunea conținutului.
Producția implică filmarea a mii de cadre pe mai multe luni. Producția va avea un obiectiv, dar trebuie realizată sub constrângeri specifice. De exemplu, constrângerile pot fi că un actor este disponibil doar pentru o săptămână, o locație este disponibilă doar pentru anumite zile, programul de lucru al echipajului este de 8 ore pe zi, constrângeri de timp, cum ar fi o fotografie de zi sau de noapte, echipa poate fi nevoit să mute locații între lăstari. Pregătirea unui program de filmări cu toate aceste constrângeri poate fi un coșmar pentru regizor. Tehnicile de optimizare matematică sunt folosite aici cu un obiectiv și constrângeri. Această tehnică de optimizare va oferi un program brut de fotografiere. Acest program este rafinat în continuare cu ajustări.

Post-producția va dura la fel de mult ca și producția, dacă nu mai mult. Tehnicile de vizualizare a datelor sunt folosite pentru a verifica blocajele din post-producție. Tehnicile de vizualizare sunt, de asemenea, folosite pentru a urmări tendința în post-producție și pentru a o proiecta în viitor. Această prognoză este făcută pentru a vedea volumul de muncă al diferitelor echipe și pentru a dobândi echipa în mod corespunzător.

În localizare, emisiunile sunt dublate dintr-o limbă în alta. Prioritizarea în ceea ce privește emisiunile care trebuie dublate este decisă pe baza analizei datelor. Conținutul dublat care s-a dovedit popular în trecut este prioritar. Controlul calității va verifica probleme precum sincronizarea între audio și video, sincronizarea subtitrarilor cu sunetul etc. Controlul calității se face atât înainte, cât și după codificare (procesul de comprimare a videoclipurilor în diferite rate de biți pentru streaming pe diferite dispozitive). Netflix a acumulat date istorice din controalele manuale de control al calității. Aceste date constau din erorile care au apărut în trecut, formatele video în care au fost găsite erorile, partenerii de la care a fost obținut acest conținut, genul conținutului etc. Da, Netflix a văzut un model de erori în gen, ca bine. Folosind aceste date, a fost construit un model de învățare automată care prezice fie „proces” fie „eșec” al verificărilor de calitate. Dacă un algoritm de învățare automată prezice „eșecul”, atunci acel activ va trece printr-o rundă de verificări manuale de calitate.
Cele mai bune companii care angajează oameni de știință în date în India
Calitatea experienței în streaming și testarea A/B
Știința datelor este utilizată pe scară largă pentru a asigura calitatea experienței de streaming. Calitatea conectivității la rețea este prevăzută pentru a asigura calitatea streamingului. Netflix prezice în mod activ ce emisiune va fi transmisă în flux într-o anumită locație și memorează în cache conținutul pe serverul din apropiere. Memorarea în cache și stocarea conținutului se fac atunci când traficul de internet este scăzut. Acest lucru asigură că conținutul este transmis în flux fără tampon și satisfacția clienților este maximizată. Testarea A/B este utilizată pe scară largă ori de câte ori se face o modificare a algoritmului existent sau se propune un nou algoritm. Noi tehnici precum intercalarea și măsurile repetate sunt folosite pentru a accelera procesul de testare A/B folosind un număr foarte mic de mostre.
În concluzie, acestea sunt câteva modalități prin care Netflix folosește analiza datelor pentru a implica și uimește clienții. Dacă sunteți interesat să vă scufundați în adâncime și să aflați mai multe despre modul în care această companie minunată folosește știința datelor, vizitați blogul de cercetare. Există o comoară de articole pe blogul lor care așteaptă să fie explorate.
În următoarea serie de bloguri, să vedem cum Instacart valorifică știința datelor și învățarea automată. Acum că ați citit acest blog, oferiți feedback despre ceea ce credeți despre acest articol. De asemenea, oferiți sugestii cu privire la ce companie ați dori să vedeți în seria mea viitoare.
Învață cursuri de știință a datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.
