Приложения науки о данных и машинного обучения в NETFLIX

Опубликовано: 2018-08-21

Отрасли используют науку о данных интересными и творческими способами. Наука о данных появляется в неожиданных местах, повышая эффективность различных секторов. Это стимулирует принятие решений людьми и влияет на верхние и нижние границы бизнеса, как никогда раньше. Отрасли радуют миллионы клиентов, дополняя свои приложения наукой о данных и машинным обучением.
Цель этой серии блогов — рассказать об интересных применениях науки о данных и машинного обучения в различных компаниях. Компания будет освещена в каждом сообщении в блоге. В этой серии блогов будет рассказано о том, как такие компании, как Google, Apple, LinkedIn, Uber, Instagram, Twitter, Instacart, Netflix, Washington Post, Quora, Pinterest, Amazon, Medium, Microsoft и т. д., используют науку о данных и машинное обучение для повышения эффективности своей работы. предприятия. Итак, давайте начнем эту серию с «Netflix».

Оглавление

НЕТФЛИКС

Хорошо известно, что Netflix использует системы рекомендаций для предложения фильмов или шоу своим клиентам. Помимо рекомендаций фильмов, есть много других менее известных областей, в которых Netflix использует науку о данных и машинное обучение:

    • Выбор персонализированного художественного оформления для фильмов и шоу

    • Предложение лучших кадров из шоу в редакцию для творчества

    • Улучшение потоковой передачи качества обслуживания (QoS) путем принятия решения о кодировании видео, улучшений алгоритмов на стороне клиента и на стороне сервера, кэширования видео и т. д.

    • Оптимизация различных этапов производства

  • Экспериментирование с различными алгоритмами с использованием A/B-тестирования и принятие причинно-следственных связей. Сократите время, затрачиваемое на эксперименты с использованием переплетения и т. д.
Пример дорожной карты для создания хранилища данных

Персонализированные произведения искусства

Каждый фильм, рекомендованный Netflix, поставляется с соответствующей иллюстрацией. Художественное произведение, которое приходит вместе с предложением фильма, не является общим для всех. Как и рекомендации фильмов, художественные работы, связанные с шоу, также персонализированы. Все участники не видят ни одного лучшего художественного произведения. Портфолио художественных работ будет создано для конкретного названия. В зависимости от вкуса и предпочтений аудитории алгоритм машинного обучения подберет обложку, которая максимизирует шансы просмотра названия.
Портфолио иллюстраций, созданных для названия «Очень странные дела»:
Приложения науки о данных и машинного обучения в NETFLIX
Персонализация в работе. Верхний ряд — работа, предложенная зрителю, которому нравится актриса Ума Турман. Нижний ряд — художественные работы для зрителя, которому нравится актер Джон Траволта:
Приложения науки о данных и машинного обучения в NETFLIX
Персонализация художественного произведения не всегда проста. Есть проблемы с персонализацией произведений искусства. Во-первых, для персонализации Artwork можно выбрать только одно изображение. Напротив, многие фильмы могут быть рекомендованы одновременно. Во-вторых, предложение обложки должно работать вместе с механизмом рекомендации фильмов. Обычно он располагается над рекомендацией фильмов. В-третьих, персональные рекомендации по оформлению должны учитывать предложения по изображениям для других фильмов. В противном случае не будет вариаций и разнообразия в художественных предложениях, которые будут однообразными. В-четвертых, следует ли отображать одно и то же произведение искусства или другое между сеансами. Каждый раз показ разных изображений будет сбивать с толку зрителя, а также приведет к проблеме атрибуции. Проблема атрибуции заключается в том, какие произведения искусства приводят аудиторию к просмотру шоу.
Персонализация иллюстраций приводит к значительному улучшению восприятия контента зрителями. Персонализация художественного произведения — это первый случай не только персонализированной рекомендации, но и того, как рекомендация дается участникам. Netflix все еще активно исследует и совершенствует эту зарождающуюся технику.
Обзор интеллектуального анализа правил ассоциации и его приложений

Искусство открытия изображений

Один час «Очень странных дел» состоит из 86 000 статичных видеокадров. Один сезон (10 серий) состоит в среднем из 9 миллионов кадров. Netflix регулярно добавляет контент, чтобы обслуживать своих клиентов по всему миру. В такой ситуации невозможно собрать вручную, чтобы найти «Правильное» произведение искусства для «Правильного» человека. Людям-редакторам практически невозможно искать лучшие кадры, которые подчеркнут уникальные элементы шоу. Чтобы решить эту проблему в масштабе, Netflix создала набор инструментов для воссоздания лучших кадров, которые действительно отражают истинный дух шоу.
Конвейер для автоматического захвата лучших кадров для шоу:
Приложения науки о данных и машинного обучения в NETFLIX
Аннотации кадров используются для захвата объективных сигналов, которые используются для ранжирования изображений. Чтобы получить аннотации кадров, видео делится на несколько небольших фрагментов. Эти фрагменты обрабатываются параллельно с использованием фреймворка, известного как Archer. Эта параллельная обработка помогает Netflix захватывать аннотации кадров в масштабе. Каждая часть обрабатывается алгоритмом машинного зрения для получения характеристик кадра. Например, некоторые из свойств захваченного кадра — это цвет, яркость, контрастность и т. д. Категория функций, которые сообщают, что происходит в кадре и фиксируется во время аннотации кадра, — это обнаружение лиц, оценка движения, обнаружение объектов и т. д. Netflix также определил набор свойств из основных принципов фотографии, кинематографии и визуального эстетического дизайна, таких как правило трети и т. д., которые фиксируются во время аннотации кадра.
Следующим шагом после аннотации кадров является ранжирование изображений. Некоторыми факторами, учитываемыми при ранжировании, являются актеры, разнообразие изображений, зрелость контента и т. д. Netflix использует методы глубокого обучения, чтобы группировать изображения актеров в шоу, расставлять приоритеты для главных героев и отменять приоритеты для второстепенных персонажей. Кадры с насилием и наготой получают мизерную оценку. Используя этот метод ранжирования, выявляются лучшие кадры для шоу. Таким образом, художники и редакторы будут иметь набор высококачественных изображений для работы вместо того, чтобы иметь дело с миллионами кадров для конкретного эпизода.

Наука о данных в производстве

В этом году Netflix тратит восемь миллиардов долларов на создание оригинального контента. Контент, созданный для миллионов зрителей по всему миру на более чем 20 языках. Нас не должно удивлять, если Netflix использует науку о данных для создания оригинального контента. Фактически, Netflix использует науку о данных на каждом этапе производства контента.

Обычно создание контента будет состоять из этапов подготовки, производства и постпродакшна. Планирование, составление бюджета и т. д. происходит на этапе подготовки к производству. Основная фотография является частью производства. Такие этапы, как редактирование, микширование звука и т. д., являются частью постобработки. Добавление субтитров и устранение технических сбоев являются частью локализации и контроля качества. Теперь давайте посмотрим, как наука о данных помогает оптимизировать каждый этап производства.

Конвейер для автоматического захвата лучших кадров для шоу:
Приложения науки о данных и машинного обучения в NETFLIX
Как было сказано ранее, составление бюджета является частью подготовки к съемкам. Перед запуском производства необходимо принять множество решений. Например, место для съемки. Наука о данных широко используется для анализа финансовых последствий конкретного местоположения. Решения принимаются путем деликатного балансирования творческого видения и бюджета. Минимизация затрат осуществляется без ущерба для видения контента.
Производство включает в себя съемки тысяч кадров в течение многих месяцев. Производство будет иметь цель, но оно должно осуществляться при определенных ограничениях. Например, ограничения могут заключаться в том, что актер доступен только в течение одной недели, локация доступна только в определенные дни, рабочее время съемочной группы составляет 8 часов в день, временные ограничения, такие как дневная съемка или ночная съемка, команда возможно, придется перемещать места между съемками. Составление графика съемок со всеми этими ограничениями может стать кошмаром для режиссера. Здесь используются методы математической оптимизации с целью и ограничениями. Этот метод оптимизации даст приблизительный график съемки. Этот график уточняется с корректировками.

Постпродакшн займет столько же времени, сколько производство, если не больше. Методы визуализации данных используются для проверки узких мест в постпродакшне. Методы визуализации также используются для отслеживания тренда в постпродакшне и прогнозирования его на будущее. Это прогнозирование делается для того, чтобы увидеть рабочую нагрузку различных команд и соответствующим образом укомплектовать команду.

При локализации шоу дублируются с одного языка на другой. Приоритет в отношении того, какие шоу необходимо дублировать, определяется на основе анализа данных. Дублированный контент, доказавший свою популярность в прошлом, имеет приоритет. Контроль качества проверяет наличие таких проблем, как синхронизация аудио и видео, синхронизация субтитров со звуком и т. д. Контроль качества осуществляется как до, так и после кодирования (процесс сжатия видео с разным битрейтом для потоковой передачи на разных устройствах). Netflix накопил исторические данные из ручных проверок качества. Эти данные состояли из ошибок, которые произошли в прошлом, форматов видео, в которых были обнаружены ошибки, партнеров, от которых был получен этот контент, жанра контента и т. д. Да, Netflix увидел закономерность ошибок в жанре как хорошо. Используя эти данные, была построена модель машинного обучения, которая предсказывает «прохождение» или «непрохождение» проверки качества. Если алгоритм машинного обучения предсказывает «сбой», то этот ресурс будет проходить ручную проверку качества.
Лучшие компании, нанимающие специалистов по данным в Индии

Потоковое качество опыта и A/B-тестирование

Наука о данных широко используется для обеспечения качества потоковой передачи. Прогнозируется, что качество сетевого подключения обеспечит качество потоковой передачи. Netflix активно прогнозирует, какое шоу будет транслироваться в определенном месте, и кэширует контент на ближайшем сервере. Кэширование и хранение контента выполняются при низком интернет-трафике. Это обеспечивает потоковую передачу контента без буферов и максимальное удовлетворение потребностей клиентов. A/B-тестирование широко используется всякий раз, когда в существующий алгоритм вносятся изменения или предлагается новый алгоритм. Новые методы, такие как чередование и повторные измерения, используются для ускорения процесса A/B-тестирования с использованием очень меньшего количества образцов.
В заключение, вот некоторые способы, которыми Netflix использует анализ данных, чтобы привлечь клиентов и вызвать у них благоговейный трепет. Если вы заинтересованы в том, чтобы погрузиться глубже и узнать больше о том, как эта замечательная компания использует науку о данных, посетите их исследовательский блог. В их блоге есть сокровищница статей, ожидающих изучения.

Руководство для начинающих по науке о данных и ее приложениям

В предстоящей серии блогов давайте посмотрим, как Instacart использует науку о данных и машинное обучение. Теперь, когда вы прочитали этот блог, оставьте отзыв о том, что вы думаете об этой статье. Кроме того, предлагайте предложения относительно того, какую компанию вы хотели бы видеть в моей будущей серии.

Изучите курсы по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Подготовьтесь к карьере будущего

Программа профессиональных сертификатов в области науки о данных для принятия бизнес-решений от IIMK