Zastosowania nauki o danych i uczenia maszynowego w NETFLIX

Opublikowany: 2018-08-21

Branże wykorzystują naukę o danych w ekscytujący i kreatywny sposób. Data Science pojawia się w nieoczekiwanych miejscach, poprawiając wydajność różnych sektorów. Wspomaga podejmowanie decyzji przez ludzi i wpływa na szczyty i wyniki firmy, jak nigdy dotąd. Branże zachwycają miliony klientów, wzbogacając swoje aplikacje o naukę o danych i uczenie maszynowe.
Ta seria blogów ma na celu omówienie ciekawych zastosowań data science i uczenia maszynowego w różnych firmach. W każdym poście na blogu zostanie wyróżniona firma. Ta seria blogów opowie o tym, w jaki sposób firmy takie jak Google, Apple, LinkedIn, Uber, Instagram, Twitter, Instacart, Netflix, Washington post, Quora, Pinterest, Amazon, Medium, Microsoft itp. wykorzystują naukę danych i uczenie maszynowe do napędzania swoich biznes. Zacznijmy więc tę serię od „Netflixa”.

Spis treści

NETFLIX

Powszechnie wiadomo, że Netflix wykorzystuje Systemy Rekomendacji do sugerowania swoim klientom filmów lub programów. Oprócz rekomendacji filmowych istnieje wiele innych mniej znanych obszarów, w których Netflix wykorzystuje naukę danych i uczenie maszynowe:

    • Decydowanie o spersonalizowanej grafice do filmów i programów

    • Proponowanie redaktorom najlepszych kadrów z pokazu do pracy twórczej

    • Poprawa strumieniowej jakości usług (QoS) poprzez decydowanie o kodowaniu wideo, postępach w algorytmach po stronie klienta i po stronie serwera, buforowaniu wideo itp.

    • Optymalizacja różnych etapów produkcji

  • Eksperymentowanie z różnymi algorytmami przy użyciu testów A/B i podejmowanie decyzji o przyczynach. Skróć czas potrzebny na eksperymentowanie za pomocą przeplatania itp.
Przykładowa mapa drogowa tworzenia hurtowni danych

Spersonalizowana grafika

Każdy film polecany przez Netflix ma powiązaną grafikę. Grafika, która pojawia się wraz z sugestią filmową, nie jest wspólna dla wszystkich. Podobnie jak rekomendacja filmowa, grafika związana z pokazem jest również spersonalizowana. Wszyscy członkowie nie widzą ani jednej najlepszej grafiki. Dla konkretnego tytułu zostanie stworzone portfolio dzieł sztuki. W zależności od gustu i preferencji odbiorców, algorytm uczenia maszynowego wybierze grafikę, która zmaksymalizuje szanse na obejrzenie tytułu.
Portfolio prac stworzonych dla tytułu „Stranger Things”:
Zastosowania nauki o danych i uczenia maszynowego w NETFLIX
Personalizacja w pracy. Górny rząd – grafika sugerowana dla widza, który lubi aktorkę Umę Thurman. Dolny rząd – propozycja grafiki dla widza, który lubi aktora Johna Travoltę:
Zastosowania nauki o danych i uczenia maszynowego w NETFLIX
Personalizacja grafiki nie zawsze jest prosta. Personalizacja grafiki wiąże się z wyzwaniami. Po pierwsze, do personalizacji grafiki można wybrać tylko jeden obraz. W przeciwieństwie do tego, wiele filmów można polecić jednocześnie. Po drugie, propozycja grafiki powinna działać w połączeniu z silnikiem rekomendacji filmów. Zwykle znajduje się na szczycie rekomendacji filmowych. Po trzecie, rekomendacja spersonalizowanej grafiki powinna uwzględniać sugestie obrazów do innych filmów. W przeciwnym razie nie będzie zmienności i różnorodności w sugestiach dotyczących grafiki, które będą monotonne. Po czwarte, czy między sesjami powinna być wyświetlana ta sama lub inna grafika. Za każdym razem pokazywanie różnych obrazów zdezorientuje widza, a także doprowadzi do problemu atrybucji. Problem atrybucji polega na tym, która grafika prowadzi publiczność do obejrzenia programu.
Personalizacja grafiki prowadzi do znacznej poprawy w odkrywaniu treści przez widzów. Personalizacja grafiki to pierwszy przykład nie tylko spersonalizowanej rekomendacji, ale także sposobu, w jaki rekomendacja jest kierowana do członków. Netflix nadal aktywnie bada i udoskonala tę rodzącą się technikę.
Przegląd zasad asocjacyjnych i ich zastosowań

Sztuka odkrywania obrazu

Jedna godzina „Stranger Things” składa się z 86 000 statycznych klatek wideo. Pojedynczy sezon (10 odcinków) zawiera łącznie średnio 9 milionów klatek. Netflix regularnie dodaje treści, aby zaspokoić potrzeby swoich globalnych klientów. W takiej sytuacji nie jest możliwe ręczne zbieranie plonów w celu znalezienia „właściwej” grafiki dla „właściwej” osoby. Redaktorzy prawie nie potrafią znaleźć najlepszych kadrów, które wydobędą niepowtarzalne elementy spektaklu. Aby sprostać temu wyzwaniu na dużą skalę, Netflix zbudował zestaw narzędzi do wyświetlania najlepszych klatek, które naprawdę oddają prawdziwego ducha serialu.
Pipeline do automatycznego przechwytywania najlepszych klatek do pokazu:
Zastosowania nauki o danych i uczenia maszynowego w NETFLIX
Adnotacje ramek służą do przechwytywania obiektywnych sygnałów, które są wykorzystywane do rankingu obrazów. Aby uzyskać adnotacje klatek, film jest dzielony na wiele małych części. Te fragmenty są przetwarzane równolegle przy użyciu frameworka znanego jako „Archer”. To przetwarzanie równoległe pomaga Netflixowi uchwycić adnotacje klatek w odpowiedniej skali. Każdy element jest obsługiwany przez algorytm widzenia maszynowego w celu uzyskania charakterystyki ramy. Na przykład niektóre z przechwyconych właściwości klatki to kolor, jasność, kontrast itp. Kategoria funkcji, która powie, co dzieje się w ramce i co jest uchwycone podczas dodawania adnotacji do ramki, to wykrywanie twarzy, szacowanie ruchu, wykrywanie obiektów itp. Netflix zidentyfikował również zestaw właściwości z podstawowych zasad fotografii, kinematografii i wizualnego projektowania estetycznego, takich jak zasada trzeciego itp., które są rejestrowane podczas adnotacji kadru.
Następnym krokiem po adnotacji ramki jest uszeregowanie obrazów. Niektóre czynniki brane pod uwagę w rankingu to aktorzy, różnorodność obrazów, dojrzałość treści itp. Netflix wykorzystuje techniki głębokiego uczenia się, aby grupować obrazy aktorów w serialu, ustalać priorytety głównych bohaterów i usuwać priorytety drugoplanowych. Kadry z przemocą i nagością otrzymują skromny wynik. Korzystając z tej metody rankingu, wyświetla się najlepsze klatki do pokazu. W ten sposób zespół graficzny i redakcyjny będą mieli do pracy zestaw wysokiej jakości obrazów, zamiast zajmować się milionami klatek dla konkretnego odcinka.

Data Science w produkcji

Netflix wydaje w tym roku osiem miliardów dolarów na tworzenie oryginalnych treści. Treści tworzone dla milionów odbiorców na całym świecie w ponad 20 językach. Nie powinno nas dziwić, jeśli Netflix wykorzystuje Data Science do tworzenia oryginalnych treści. W rzeczywistości Netflix wykorzystuje Data Science na każdym etapie produkcji treści.

Zazwyczaj tworzenie treści składa się z etapów przedprodukcyjnych, produkcyjnych i poprodukcyjnych. Planowanie, budżetowanie itp. odbywa się w fazie przedprodukcyjnej. Częścią produkcji jest główna fotografia. Etapy takie jak montaż, miksowanie dźwięku itp. są częścią postprodukcji. Dodawanie napisów i usuwanie usterek technicznych jest częścią lokalizacji i kontroli jakości. Zobaczmy teraz, jak analityka danych pomaga optymalizować każdy etap produkcji.

Pipeline do automatycznego przechwytywania najlepszych klatek do pokazu:
Zastosowania nauki o danych i uczenia maszynowego w NETFLIX
Jak wspomniano wcześniej, budżetowanie jest częścią przedprodukcyjnej. Wiele decyzji trzeba podjąć przed rozpoczęciem produkcji. Na przykład miejsce fotografowania. Nauka o danych jest szeroko wykorzystywana do analizowania konsekwencji kosztowych określonej lokalizacji. Decyzje podejmowane są poprzez delikatne równoważenie kreatywnej wizji i budżetów. Minimalizacja kosztów odbywa się bez uszczerbku dla wizji treści.
Produkcja polega na oddaniu tysięcy ujęć na przestrzeni wielu miesięcy. Produkcja będzie miała cel, ale musi być podjęta pod określonymi ograniczeniami. Na przykład ograniczenia mogą polegać na tym, że aktor jest dostępny tylko przez jeden tydzień, lokalizacja jest dostępna tylko w określone dni, czas pracy załogi wynosi 8 godzin dziennie, ograniczenia czasowe, takie jak ujęcie dzienne lub nocne, zespół może być zmuszona do przenoszenia lokalizacji między pędami. Przygotowanie planu zdjęciowego z tymi wszystkimi ograniczeniami może być koszmarem dla reżysera. Wykorzystywane są tutaj techniki optymalizacji matematycznej z celem i ograniczeniami. Ta technika optymalizacji zapewni przybliżony harmonogram zdjęć. Harmonogram ten jest dalej dopracowywany poprzez korekty.

Postprodukcja zajmie tyle samo czasu, jeśli nie więcej. Techniki wizualizacji danych służą do sprawdzania wąskich gardeł w postprodukcji. Techniki wizualizacji służą również do śledzenia trendów w postprodukcji i projekcji ich w przyszłość. To prognozowanie ma na celu sprawdzenie obciążenia pracą różnych zespołów i odpowiedniego obsadzenia zespołu.

W lokalizacji programy są dubbingowane z jednego języka na drugi. Na podstawie analizy danych ustala się priorytety, które programy wymagają dubbingu. Priorytetem są treści z dubbingiem, które okazały się popularne w przeszłości. Kontrola jakości sprawdza, czy nie występują problemy, takie jak synchronizacja między dźwiękiem i wideo, synchronizacja napisów z dźwiękiem itp. Kontrola jakości odbywa się zarówno przed, jak i po kodowaniu (proces kompresji wideo do różnych przepływności w celu przesyłania strumieniowego na różne urządzenia). Netflix zgromadził dane historyczne z ręcznych kontroli jakości. Dane te składały się z błędów, które wystąpiły w przeszłości, formatów wideo, w których wykryto błędy, partnerów, od których uzyskano tę treść, gatunku treści itp. Tak, Netflix widział wzorzec błędów w tym gatunku jako dobrze. Korzystając z tych danych, zbudowano model uczenia maszynowego, który przewiduje „powodzenie” lub „niepowodzenie” kontroli jakości. Jeśli algorytm uczenia maszynowego przewiduje „niepowodzenie”, zasób przejdzie rundę ręcznych kontroli jakości.
Indie – najlepsze firmy zatrudniające analityków danych

Jakość transmisji strumieniowej i testy A/B

Analiza danych jest szeroko wykorzystywana do zapewniania jakości transmisji strumieniowej. Przewiduje się jakość połączenia sieciowego, aby zapewnić jakość przesyłania strumieniowego. Netflix aktywnie przewiduje, który program będzie transmitowany w określonej lokalizacji i buforuje zawartość na pobliskim serwerze. Buforowanie i przechowywanie treści odbywa się, gdy ruch w Internecie jest niski. Gwarantuje to, że zawartość jest przesyłana strumieniowo bez buforów, a satysfakcja klienta jest zmaksymalizowana. Testy A/B są szeroko stosowane za każdym razem, gdy wprowadzana jest zmiana w istniejącym algorytmie lub gdy proponowany jest nowy algorytm. Nowe techniki, takie jak przeplatanie i powtarzane pomiary, są wykorzystywane do przyspieszenia procesu testowania A/B przy użyciu bardzo mniejszej liczby próbek.
Podsumowując, oto kilka sposobów, w jakie Netflix wykorzystuje analizę danych do angażowania i zadziwiania klientów. Jeśli jesteś zainteresowany głębokim nurkowaniem i chcesz dowiedzieć się więcej o tym, jak ta wspaniała firma wykorzystuje analitykę danych, odwiedź ich blog Research. Na ich blogu znajduje się skarbnica artykułów, które czekają na odkrycie.

Przewodnik dla początkujących po analizie danych i jej zastosowaniach

W nadchodzącej serii blogów zobaczmy, jak Instacart wykorzystuje naukę o danych i uczenie maszynowe. Po przeczytaniu tego bloga podziel się opinią na temat tego artykułu. Zaproponuj również sugestie dotyczące tego, którą firmę chciałbyś zobaczyć w mojej przyszłej serii.

Ucz się kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Przygotuj się na karierę przyszłości

Professional Certificate Program in Data Science do podejmowania decyzji biznesowych od IIMK