NETFLIX에서 데이터 과학 및 기계 학습의 응용

게시 됨: 2018-08-21

업계에서는 흥미롭고 창의적인 방식으로 데이터 과학을 사용하고 있습니다. 다양한 분야의 효율성을 높이는 데이터 사이언스가 의외의 곳에 등장하고 있습니다. 이는 인간의 의사 결정 능력을 강화하고 전례 없는 방식으로 비즈니스의 매출과 이익에 영향을 미치고 있습니다. 업계에서는 데이터 과학 및 기계 학습으로 애플리케이션을 강화함으로써 수백만 고객을 기쁘게 하고 있습니다.
이 블로그 시리즈는 다양한 회사에서 데이터 과학 및 머신 러닝의 흥미로운 적용에 대해 이야기하는 것을 목표로 합니다. 회사는 각 블로그 게시물에서 스포트라이트를 받을 것입니다. 이 블로그 시리즈는 Google, Apple, LinkedIn, Uber, Instagram, Twitter, Instacart, Netflix, Washington post, Quora, Pinterest, Amazon, Medium, Microsoft 등과 같은 회사가 데이터 과학 및 기계 학습을 활용하여 기업. 그럼 이번 시리즈는 '넷플릭스'로 시작해 볼까요?

넷플릭스

Netflix가 고객에게 영화나 프로그램을 제안하기 위해 추천 시스템을 사용한다는 것은 잘 알려져 있습니다. 영화 추천 외에도 Netflix가 데이터 과학 및 머신 러닝을 사용하는 잘 알려지지 않은 영역이 많이 있습니다.

- 영화 및 쇼를 위한 개인화된 아트워크 결정

- 창작 활동을 위해 편집자에게 쇼에서 최고의 프레임 제안

- 비디오 인코딩, 클라이언트 측 및 서버 측 알고리즘의 발전, 비디오 캐싱 등을 결정하여 서비스 품질(QoS) 스트리밍 개선

- 다양한 생산 단계 최적화

A/B 테스팅을 이용한 다양한 알고리즘 실험 및 인과관계 추론 인터위빙 등을 사용하여 실험에 걸리는 시간을 단축합니다.

데이터 웨어하우스 구축을 위한 샘플 로드맵

개인화 된 작품

Netflix에서 추천하는 모든 영화에는 관련 아트워크가 함께 제공됩니다. 영화 추천과 함께 제공되는 아트워크는 모든 사람에게 공통적인 것은 아닙니다. 영화 추천과 마찬가지로 쇼와 관련된 아트웍도 개인화됩니다. 모든 회원이 하나의 베스트 아트워크를 볼 수 없습니다. 특정 타이틀에 대한 아트웍 포트폴리오가 생성됩니다. 청중의 취향과 선호도에 따라 기계 학습 알고리즘은 제목을 볼 기회를 최대화하는 작품을 선택합니다.
'기묘한 이야기'라는 제목으로 제작된 아트워크 포트폴리오:
NETFLIX에서 데이터 과학 및 기계 학습의 응용
직장에서의 개인화. 맨 위 행 – 여배우 Uma Thurman을 좋아하는 시청자를 위해 제안된 아트워크. 맨 아래 줄 – 배우 John Travolta를 좋아하는 시청자를 위한 작품 제안:

작품 개인화는 항상 간단하지 않습니다. 예술 작품 개인화에 대한 도전이 있습니다. 첫째, 하나의 이미지는 아트웍 개인화를 위해서만 선택할 수 있습니다. 대조적으로, 한 번에 많은 영화를 추천할 수 있습니다. 둘째, 작품 제안은 영화 추천 엔진과 연계하여 작동해야 합니다. 그것은 일반적으로 영화 추천 위에 앉습니다. 셋째, 개인화 된 작품 추천은 다른 영화에 대한 이미지 제안을 고려해야 합니다. 그렇지 않으면 단조로운 작품 제안에 다양성과 다양성이 없을 것입니다. 넷째, 세션 간에 동일한 작품 또는 다른 작품을 표시해야 합니다. 매번 다른 이미지를 보여주는 것은 보는 사람을 혼란스럽게 하고 또한 귀속 문제로 이어질 것입니다. 귀속 문제는 아트워크가 청중이 쇼를 보도록 유도하는 것입니다.
아트워크 개인화는 시청자가 콘텐츠를 찾는 데 상당한 개선을 가져옵니다. Artwork Personalization은 개인화 추천 뿐만 아니라 회원들에게 추천하는 방법의 첫 번째 사례입니다. Netflix는 여전히 이 초기 기술을 적극적으로 연구하고 완성하고 있습니다.
연관 규칙 마이닝 및 응용 프로그램 개요

이미지 발견의 예술

'기묘한 이야기'의 한 시간은 86,000개의 정적 비디오 프레임으로 구성됩니다. 단일 시즌(10개 에피소드)은 평균 9백만 개의 총 프레임으로 구성됩니다. Netflix는 전 세계 고객을 수용하기 위해 정기적으로 콘텐츠를 추가하고 있습니다. 이러한 상황에서는 '적합한' 사람의 '적절한' 작품을 찾기 위해 수동으로 수확할 수 없습니다. 인간 편집자가 쇼의 독특한 요소를 끌어낼 최고의 프레임을 찾는 것은 거의 불가능합니다. 이 문제를 대규모로 해결하기 위해 Netflix는 프로그램의 진정한 정신을 진정으로 포착하는 최고의 프레임을 재현하는 도구 모음을 구축했습니다.
쇼에 가장 적합한 프레임을 자동으로 캡처하는 파이프라인:
NETFLIX에서 데이터 과학 및 기계 학습의 응용
프레임 주석은 이미지 순위 지정에 사용되는 객관적인 신호를 캡처하는 데 사용됩니다. 프레임 주석을 달성하기 위해 비디오는 여러 개의 작은 청크로 나뉩니다. 이러한 청크는 'Archer'라는 프레임워크를 사용하여 병렬로 처리됩니다. 이 병렬 처리는 Netflix가 프레임 주석을 대규모로 캡처하는 데 도움이 됩니다. 각 조각은 프레임 특성을 얻기 위해 머신 비전 알고리즘에 의해 처리됩니다. 예를 들어, 캡처되는 프레임의 속성 중 일부는 색상, 밝기, 대비 등이 있습니다. 프레임에서 어떤 일이 일어나고 있는지 알려주고 프레임 주석 중에 포착되는 기능 범주는 얼굴 감지, 모션 추정, 객체 감지 등입니다. 또한 Netflix는 프레임 주석 중에 캡처되는 사진, 영화 촬영 및 3분의 1과 같은 시각적 미적 디자인의 핵심 원칙에서 일련의 속성을 식별했습니다.
프레임 주석 후 다음 단계는 이미지의 순위를 지정하는 것입니다. 순위에 고려되는 몇 가지 요소는 배우, 이미지의 다양성, 콘텐츠 성숙도 등입니다. Netflix는 딥 러닝 기술을 사용하여 쇼의 배우 이미지를 클러스터링하고, 주인공의 우선 순위를 지정하고, 보조 캐릭터의 우선 순위를 낮춥니다. 폭력과 과도한 노출이 있는 프레임은 낮은 점수를 받습니다. 이 순위 지정 방법을 사용하면 쇼에 가장 적합한 프레임이 표시됩니다. 이런 식으로 아트웍과 편집 팀은 특정 에피소드에 대해 수백만 개의 프레임을 처리하는 대신 작업할 고품질 이미지 세트를 갖게 됩니다.

생산의 데이터 과학

넷플릭스는 올해 오리지널 콘텐츠 제작에 80억 달러를 투자하고 있다. 전 세계 수백만 명의 청중을 위해 20개 이상의 언어로 제작된 콘텐츠. Netflix가 원본 콘텐츠를 제작하기 위해 데이터 과학을 사용하고 있다고 해도 놀라운 일이 아닙니다. 실제로 Netflix는 콘텐츠 제작의 모든 단계에서 데이터 과학을 사용하고 있습니다.

일반적으로 콘텐츠 제작은 사전 제작, 제작 및 후반 제작 단계로 구성됩니다. 기획, 예산 편성 등은 사전 제작 단계에서 발생합니다. 주요 사진은 프로덕션의 일부입니다. 편집, 사운드 믹싱 등과 같은 단계는 후반 작업의 일부입니다. 자막을 추가하고 기술적 결함을 제거하는 것은 현지화 및 품질 관리의 일부입니다. 이제 데이터 과학이 생산의 각 단계를 최적화하는 데 어떻게 도움이 되는지 살펴보겠습니다.

쇼에 가장 적합한 프레임을 자동으로 캡처하는 파이프라인:
NETFLIX에서 데이터 과학 및 기계 학습의 응용
앞서 말했듯이 예산 책정은 사전 제작의 일부입니다. 생산을 시작하기 전에 많은 결정을 내려야 합니다. 예를 들어 촬영 장소. 데이터 과학은 특정 위치의 비용 영향을 분석하는 데 광범위하게 사용됩니다. 창의적인 비전과 예산의 균형을 섬세하게 조정하여 결정을 내립니다. 비용 최소화는 콘텐츠의 비전을 손상시키지 않으면서 이루어집니다.
프로덕션에는 수개월에 걸쳐 수천 장의 샷을 촬영하는 작업이 포함됩니다. 생산에는 목표가 있지만 특정 제약 조건에서 수행해야 합니다. 예를 들어, 배우가 1주일 동안만 근무할 수 있는 제약 조건이 있을 수 있으며, 특정 요일에만 장소가 제공되는 경우, 스태프의 근무 시간이 하루 8시간인 경우, 주간 촬영 또는 야간 촬영과 같은 시간 제약이 있는 팀, 촬영 사이에 위치를 이동해야 할 수도 있습니다. 이러한 모든 제약으로 촬영 일정을 준비하는 것은 감독에게 악몽이 될 수 있습니다. 여기서 수학적 최적화 기술이 목적 및 제약 조건과 함께 사용됩니다. 이 최적화 기술은 대략적인 촬영 일정을 제공합니다. 이 일정은 조정을 통해 더욱 구체화됩니다.

포스트 프로덕션은 프로덕션만큼 더 많은 시간이 소요됩니다. 데이터 시각화 기술은 후반 작업에서 병목 현상을 확인하는 데 사용됩니다. 시각화 기술은 후반 작업의 추세를 추적하고 미래에 투영하는 데에도 사용됩니다. 이 예측은 다양한 팀의 작업량을 확인하고 팀에 적절한 인력을 배치하기 위해 수행됩니다.

현지화에서 프로그램은 한 언어에서 다른 언어로 더빙됩니다. 더빙해야 할 프로그램의 우선 순위는 데이터 분석을 기반으로 결정됩니다. 과거에 인기가 있었던 더빙 콘텐츠가 우선 적용됩니다. 품질 관리는 오디오와 비디오 간의 동기화, 자막과 사운드의 동기화 등과 같은 문제를 확인합니다. 품질 관리는 인코딩 전후에 모두 수행됩니다(다른 장치에서 스트리밍하기 위해 비디오를 다른 비트 전송률로 압축하는 프로세스). Netflix는 수동 품질 관리 검사를 통해 과거 데이터를 축적했습니다. 이 데이터는 과거에 발생한 오류, 오류가 발견된 비디오 형식, 이 콘텐츠를 얻은 파트너, 콘텐츠의 장르 등으로 구성되었습니다. 예, Netflix는 장르에서 오류 패턴을 다음과 같이 보았습니다. 잘. 이 데이터를 사용하여 품질 검사의 '통과' 또는 '실패'를 예측하는 기계 학습 모델이 구축되었습니다. 기계 학습 알고리즘이 '실패'를 예측하면 해당 자산은 수동 품질 검사를 거칩니다.
인도에서 데이터 과학자를 고용하는 최고의 기업

스트리밍 경험 품질 및 A/B 테스트

데이터 과학은 스트리밍 경험의 품질을 보장하기 위해 광범위하게 사용됩니다. 스트리밍 품질을 보장하기 위해 네트워크 연결 품질이 예측됩니다. Netflix는 특정 위치에서 스트리밍할 프로그램을 능동적으로 예측하고 인근 서버에 콘텐츠를 캐시합니다. 콘텐츠의 캐싱 및 저장은 인터넷 트래픽이 적을 때 수행됩니다. 이를 통해 콘텐츠가 버퍼 없이 스트리밍되고 고객 만족도가 극대화됩니다. A/B 테스트는 기존 알고리즘이 변경되거나 새로운 알고리즘이 제안될 때마다 광범위하게 사용됩니다. 인터리빙 및 반복 측정과 같은 새로운 기술은 매우 적은 수의 샘플을 사용하여 A/B 테스트 프로세스의 속도를 높이는 데 사용됩니다.
결론적으로 다음은 Netflix가 데이터 분석을 사용하여 고객을 참여시키고 경외하는 몇 가지 방법입니다. 이 놀라운 회사가 데이터 과학을 사용하는 방법에 대해 자세히 알아보고 더 자세히 알고 싶다면 해당 연구 블로그를 방문하십시오. 그들의 블로그에는 탐색을 기다리는 기사의 보고가 있습니다.

데이터 과학 및 응용 프로그램에 대한 초보자 가이드

다가오는 블로그 시리즈에서는 Instacart가 데이터 과학과 머신 러닝을 어떻게 활용하고 있는지 알아보겠습니다. 이제 이 블로그를 읽었으며 이 기사에 대해 어떻게 생각하는지 피드백을 제공하십시오. 또한 내 미래 시리즈에서 보고 싶은 회사에 대한 제안을 제공하십시오.

세계 최고의 대학에서 데이터 과학 과정 을 배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

미래의 직업을 위한 준비

IIMK의 비즈니스 의사 결정을 위한 데이터 과학 전문 인증 프로그램