NETFLIXでのデータサイエンスと機械学習のアプリケーション

公開: 2018-08-21

業界は、刺激的で創造的な方法でデータサイエンスを使用しています。 データサイエンスは予想外の場所に現れ、さまざまなセクターの効率を向上させています。 これは、人間の意思決定を強化し、かつてないほどビジネスのトップラインとボトムラインに影響を与えています。 業界は、データサイエンスと機械学習を使用してアプリケーションを強化することで、何百万もの顧客を喜ばせています。
このブログシリーズは、さまざまな企業におけるデータサイエンスと機械学習の興味深いアプリケーションについて話すことを目的としています。 各ブログ投稿で企業にスポットライトが当てられます。 このブログシリーズでは、Google、Apple、LinkedIn、Uber、Instagram、Twitter、Instacart、Netflix、Washington post、Quora、Pinterest、Amazon、Medium、Microsoftなどの企業がデータサイエンスと機械学習を活用して自社を強化する方法について説明します。ビジネス。 それでは、このシリーズを「Netflix」から始めましょう。

目次

NETFLIX

Netflixが顧客に映画や番組を提案するためにレコメンデーションシステムを使用していることはよく知られています。 映画の推奨事項とは別に、Netflixがデータサイエンスと機械学習を使用しているあまり知られていない分野は他にもたくさんあります。

    • 映画やショーのためのパーソナライズされたアートワークの決定

    • ショーから編集者にクリエイティブな仕事のための最高のフレームを提案する

    • ビデオエンコーディング、クライアント側およびサーバー側のアルゴリズムの進歩、ビデオのキャッシュなどを決定することにより、サービス品質(QoS)ストリーミングを改善します。

    • 生産のさまざまな段階を最適化する

  • A / Bテストを使用してさまざまなアルゴリズムを試し、因果推論を決定します。 織り合わせなどを使って実験にかかる時間を短縮します。
データウェアハウスを構築するためのサンプルロードマップ

パーソナライズされたアートワーク

Netflixが推奨するすべての映画には、関連するアートワークが付属しています。 映画の提案に伴うアートワークは、すべての人に共通しているわけではありません。 映画の推薦のように、ショーに関連するアートワークもパーソナライズされています。 すべてのメンバーが最高のアートワークを1つも見ているわけではありません。 アートワークのポートフォリオは、特定のタイトルに対して作成されます。 オーディエンスの好みと好みに応じて、機械学習アルゴリズムは、タイトルを表示する可能性を最大化するアートワークを選択します。
「ストレンジャー・シングス」というタイトルのために作成されたアートワークのポートフォリオ:
NETFLIXでのデータサイエンスと機械学習のアプリケーション
職場でのパーソナライズ。 上段–女優のユマサーマンが好きな視聴者に提案されたアートワーク。 下の行–俳優のジョントラボルタが好きな視聴者のためのアートワークの提案:
NETFLIXでのデータサイエンスと機械学習のアプリケーション
アートワークのパーソナライズは必ずしも簡単ではありません。 アートワークのパーソナライズには課題があります。 まず、アートワークのパーソナライズには1つの画像しか選択できません。 対照的に、一度に多くの映画を推薦することができます。 第二に、アートワークの提案は、映画のレコメンデーションエンジンと連携して機能する必要があります。 それは通常、映画の推薦の上にあります。 第三に、パーソナライズされたアートワークの推奨事項では、他の映画の画像の提案を考慮に入れる必要があります。 そうでなければ、単調になるアートワークの提案に変化や多様性はありません。 第4に、セッション間で同じアートワークまたは異なるアートワークを表示する必要があります。 異なる画像を表示するたびに、視聴者が混乱し、帰属の問題が発生します。 アトリビューションの問題は、どのアートワークが視聴者にショーを視聴させるかということです。
アートワークのパーソナライズは、視聴者によるコンテンツの発見を大幅に改善します。 アートワークのパーソナライズは、パーソナライズされた推奨事項だけでなく、メンバーへの推奨事項の最初のインスタンスです。 Netflixはまだ積極的にこの初期の技術を研究し、完成させています。
アソシエーションルールマイニングとそのアプリケーションの概要

アートオブイメージディスカバリー

「ストレンジャー・シングス」の1時間は、86,000の静的ビデオフレームで構成されています。 1シーズン(10エピソード)は、平均で合計900万フレームで構成されます。 Netflixは、世界中の顧客に対応するために定期的にコンテンツを追加しています。 このような状況では、「正しい」人の「正しい」アートワークを見つけるために手動で収穫することはできません。 人間の編集者がショーのユニークな要素を引き出す最高のフレームを探すことはほぼ不可能です。 この課題に大規模に取り組むために、Netflixは、ショーの真の精神を真に捉えた最高のフレームを再表示するための一連のツールを構築しました。
ショーに最適なフレームを自動的にキャプチャするパイプライン:
NETFLIXでのデータサイエンスと機械学習のアプリケーション
フレーム注釈は、画像のランク付けに使用される客観的な信号をキャプチャするために使用されます。 フレームアノテーションを実現するために、ビデオは複数の小さなチャンクに分割されます。 これらのチャンクは、「Archer」と呼ばれるフレームワークを使用して並行して処理されます。 この並列処理は、Netflixがフレーム注釈をスケールでキャプチャするのに役立ちます。 各ピースは、フレーム特性を取得するためにマシンビジョンアルゴリズムによって処理されます。 たとえば、キャプチャされるフレームのプロパティには、色、明るさ、コントラストなどがあります。フレーム内で何が起こっているかを示し、フレームアノテーション中にキャプチャされる機能のカテゴリには、顔検出、モーションエスティメーション、オブジェクト検出などがあります。 Netflixはまた、フレームアノテーション中にキャプチャされる、写真、映画撮影、および3分の1のルールなどの視覚的美的デザインのコア原則から一連のプロパティを識別しました。
フレーム注釈の次のステップは、画像をランク付けすることです。 ランキングで考慮される要素には、俳優、画像の多様性、コンテンツの成熟度などがあります。Netflixはディープラーニング技術を使用して、ショーの俳優の画像をクラスター化し、メインキャラクターに優先順位を付け、セカンダリキャラクターの優先順位を下げています。 暴力やヌードのあるフレームには、わずかなスコアしか与えられません。 このランキング方法を使用して、ショーに最適なフレームが表示されます。 このようにして、アートワークおよび編集チームは、特定のエピソードの何百万ものフレームを処理する代わりに、高品質の画像のセットを使用できるようになります。

生産におけるデータサイエンス

Netflixは今年、オリジナルコンテンツの作成に80億ドルを費やしています。 20以上の言語で、世界中の何百万もの視聴者向けに作成されたコンテンツ。 Netflixがオリジナルコンテンツの制作にデータサイエンスを使用している場合でも、驚くことではありません。 実際、Netflixはコンテンツ制作のすべてのステップでデータサイエンスを使用しています。

通常、コンテンツの制作は、プリプロダクション、プロダクション、ポストプロダクションの各段階で構成されます。 計画、予算編成などは、プリプロダクションで行われます。 主要撮影は制作の一部です。 編集、サウンドミキシングなどのステップはポストプロダクションの一部です。 サブタイトルの追加と技術的な不具合の除去は、ローカリゼーションと品質管理の一部です。 次に、データサイエンスが生産の各段階を最適化するのにどのように役立つかを見てみましょう。

ショーに最適なフレームを自動的にキャプチャするパイプライン:
NETFLIXでのデータサイエンスと機械学習のアプリケーション
先に述べたように、予算編成はプリプロダクションの一部です。 生産を開始する前に、多くの決定を下す必要があります。 たとえば、撮影場所。 データサイエンスは、特定の場所のコストへの影響を分析するために広く使用されています。 決定は、創造的なビジョンと予算の微妙なバランスをとることによって行われます。 コストの最小化は、コンテンツのビジョンを損なうことなく行われます。
制作には、何ヶ月にもわたる何千ものショットの撮影が含まれます。 制作には目的がありますが、特定の制約の下で実施する必要があります。 たとえば、俳優が1週間しか利用できない、場所が特定の日にしか利用できない、乗組員の労働時間が1日8時間である、日中のショットや夜のショットなどの時間の制約があるなどの制約があります。撮影間で場所を移動する必要がある場合があります。 これらすべての制約を考慮して撮影スケジュールを準備することは、監督にとって悪夢になる可能性があります。 ここでは、数学的最適化手法を目的と制約とともに使用します。 この最適化手法により、大まかな撮影スケジュールが得られます。 このスケジュールは、調整によりさらに洗練されています。

ポストプロダクションは、それ以上ではないにしても、プロダクションと同じくらいの時間がかかります。 データ視覚化技術は、ポストプロダクションのボトルネックをチェックするために使用されます。 視覚化技術は、ポストプロダクションの傾向を追跡し、将来に向けて予測するためにも使用されます。 この予測は、さまざまなチームの作業負荷を確認し、チームに適切なスタッフを配置するために行われます。

ローカリゼーションでは、番組はある言語から別の言語に吹き替えられます。 どの番組を吹き替える必要があるかに関する優先順位は、データ分析に基づいて決定されます。 過去に人気を博した吹き替えコンテンツが優先されます。 品質管理は、オーディオとビデオの同期、字幕とサウンドの同期などの問題をチェックします。品質管理は、エンコードの前後の両方で行われます(さまざまなデバイスでストリーミングするためにビデオをさまざまなビットレートに圧縮するプロセス)。 Netflixは、手動の品質管理チェックからの履歴データを蓄積しました。 このデータは、過去に発生したエラー、エラーが見つかったビデオ形式、このコンテンツを取得したパートナー、コンテンツのジャンルなどで構成されていました。はい、Netflixはジャンルのエラーのパターンを次のように見ました。良い。 このデータを使用して、品質チェックの「合格」または「不合格」のいずれかを予測する機械学習モデルが構築されました。 機械学習アルゴリズムが「失敗」を予測した場合、そのアセットは手動の品質チェックを繰り返します。
インドでデータサイエンティストを採用しているトップ企業

ストリーミング品質のエクスペリエンスとA/Bテスト

データサイエンスは、ストリーミングエクスペリエンスの品質を確保するために広く使用されています。 ネットワーク接続の品質は、ストリーミングの品質を保証するために予測されます。 Netflixは、特定の場所でストリーミングされる番組を積極的に予測し、コンテンツを近くのサーバーにキャッシュします。 コンテンツのキャッシュと保存は、インターネットトラフィックが少ないときに行われます。 これにより、コンテンツがバッファなしでストリーミングされ、顧客満足度が最大化されます。既存のアルゴリズムに変更が加えられた場合、または新しいアルゴリズムが提案された場合は常に、A/Bテストが広く使用されます。 インターリーブや反復測定などの新しい手法を使用して、非常に少ない数のサンプルを使用してA/Bテストプロセスを高速化します。
結論として、これらはNetflixがデータ分析を使用して顧客を引き付け、畏敬の念を抱くいくつかの方法です。 深く掘り下げて、この素晴らしい会社がデータサイエンスをどのように使用しているかについて詳しく知りたい場合は、Researchブログにアクセスしてください。 彼らのブログには、探索されるのを待っている記事の宝庫があります。

データサイエンスとその応用に関する初心者向けガイド

今後のブログシリーズでは、Instacartがデータサイエンスと機械学習をどのように活用しているかを見てみましょう。 これで、このブログを読み、この記事についての感想についてフィードバックを提供してください。 また、私の将来のシリーズでどの会社を見たいかについての提案を提供してください。

世界のトップ大学からデータサイエンスコース学びましょうエグゼクティブPGプログラム、高度な証明書プログラム、または修士プログラムを取得して、キャリアを早急に進めましょう。

未来のキャリアに備える

IIMKからのビジネス意思決定のためのデータサイエンスの専門資格プログラム