Aplicações de Data Science e Machine Learning no NETFLIX
Publicados: 2018-08-21As indústrias estão usando a ciência de dados de maneiras empolgantes e criativas. Data Science está aparecendo em lugares inesperados melhorando a eficiência de vários setores. Ele está potencializando a tomada de decisões humanas e impactando as linhas de cima e de baixo dos negócios como nunca antes. As indústrias estão encantando milhões de clientes ao potencializar seus aplicativos com ciência de dados e aprendizado de máquina.
Esta série de blogs tem como objetivo falar sobre aplicações interessantes de ciência de dados e aprendizado de máquina em várias empresas. Uma empresa será destacada em cada postagem do blog. Esta série de blog falará sobre como empresas como Google, Apple, LinkedIn, Uber, Instagram, Twitter, Instacart, Netflix, Washington post, Quora, Pinterest, Amazon, Medium, Microsoft etc. negócios. Então, vamos começar esta série com 'Netflix'.
Índice
NETFLIX
É sabido que a Netflix utiliza Sistemas de Recomendação para sugerir filmes ou programas aos seus clientes. Além das recomendações de filmes, existem muitas outras áreas menos conhecidas nas quais a Netflix está usando ciência de dados e aprendizado de máquina:
- Decidindo a arte personalizada para os filmes e shows
- Sugerir os melhores quadros de um show aos editores para trabalhos criativos
- Melhorar o streaming de Qualidade de Serviço (QoS) decidindo sobre codificação de vídeo, avanços nos algoritmos do lado do cliente e do lado do servidor, armazenamento em cache do vídeo, etc.
- Otimização de diferentes etapas de produção
- Experimentar vários algoritmos usando testes A/B e decidir inferência causal. Reduza o tempo gasto para experimentar usando entrelaçamento etc.
Arte personalizada
Todos os filmes recomendados pela Netflix vêm com obras de arte associadas. A Obra que acompanha uma sugestão de filme não é comum para todos. Assim como a recomendação de filme, a Obra relacionada a um espetáculo também é personalizada. Todos os membros não veem uma única obra de arte melhor. Um portfólio de Obra será criado para um título específico. Dependendo do gosto e da preferência do público, o algoritmo de aprendizado de máquina escolherá uma obra de arte que maximize as chances de visualizar o título.
Um portfólio de artwork criado para o título 'Stranger Things':
Personalização no trabalho. Linha superior – Obra sugerida para um espectador que gosta da atriz Uma Thurman. Linha de baixo – Sugestão de arte para um espectador que gosta do ator John Travolta:
A personalização da arte nem sempre é simples. Existem desafios para a personalização de obras de arte. Em primeiro lugar, uma única imagem só pode ser escolhida para personalização de arte. Em contraste, muitos filmes podem ser recomendados ao mesmo tempo. Em segundo lugar, a sugestão de arte deve funcionar em associação com um mecanismo de recomendação de filmes. Normalmente fica no topo da recomendação de filmes. Em terceiro lugar, a recomendação de arte personalizada deve levar em consideração as sugestões de imagem para outros filmes. Caso contrário, não haverá variação e diversidade nas sugestões de obras de arte que serão monótonas. Quarto, deve ser exibida a mesma obra de arte ou outra diferente entre as sessões. Todas as vezes que mostrar imagens diferentes confundirá o espectador e também levará ao problema de atribuição. O problema de atribuição é qual Obra leva o público a ver o show.
A personalização da arte leva a melhorias significativas na descoberta de conteúdo pelos espectadores. A personalização de arte é a primeira instância não apenas de uma recomendação personalizada, mas de como a recomendação é feita aos membros. A Netflix ainda está pesquisando e aperfeiçoando ativamente essa técnica nascente.
Uma visão geral da mineração de regras de associação e suas aplicações
Arte da descoberta de imagens
Uma única hora de 'Stranger Things' consiste em 86.000 quadros de vídeo estáticos. Uma única temporada (10 episódios) consiste em média de 9 milhões de quadros no total. A Netflix está adicionando conteúdo regularmente para atender seus clientes globais. Em tal situação, não é possível colher manualmente para encontrar a arte 'Certa' para a pessoa 'Certa'. É quase impossível para os editores humanos procurarem os melhores quadros que trarão os elementos únicos do programa. Para enfrentar esse desafio em escala, a Netflix criou um conjunto de ferramentas para ressurgir os melhores quadros que realmente capturam o verdadeiro espírito do programa.
Pipeline para capturar automaticamente os melhores quadros para um show:
As anotações de quadro são usadas para capturar os sinais objetivos que são usados para classificação de imagem. Para obter anotações de quadro, um vídeo é dividido em vários pequenos pedaços. Esses pedaços são processados em paralelo usando uma estrutura conhecida como 'Archer'. Esse processamento paralelo está ajudando a Netflix a capturar as anotações do quadro em escala. Cada peça é manipulada por um algoritmo de visão de máquina para obter as características do quadro. Por exemplo, algumas das propriedades do quadro que são capturadas são cor, brilho, contraste etc. A Netflix também identificou um conjunto de propriedades dos princípios fundamentais da fotografia, cinematografia e design estético visual, como regra de terceiro, etc., que são capturados durante a anotação de quadros.
O próximo passo após a anotação do quadro é classificar as imagens. Alguns fatores considerados para o ranking são atores, diversidade das imagens, maturidade do conteúdo etc. A Netflix está usando técnicas de aprendizado profundo para agrupar as imagens dos atores em um programa, priorizar os personagens principais e despriorizar os personagens secundários. Os quadros com violência e nudez recebem uma pontuação escassa. Usando este método de classificação, os melhores quadros para um show são exibidos. Dessa forma, a equipe de arte e editorial terá um conjunto de imagens de alta qualidade para trabalhar, em vez de lidar com milhões de quadros para um episódio específico.

Ciência de dados em produção
A Netflix está gastando oito bilhões de dólares este ano para criar conteúdo original. Conteúdo criado para milhões de audiência em todo o mundo em mais de 20 idiomas. Não deve nos surpreender se a Netflix estiver usando Data Science para produzir conteúdo original. Na verdade, a Netflix está usando Data Science em todas as etapas da produção de conteúdo.
Normalmente, a produção de conteúdo consistirá em etapas de pré-produção, produção e pós-produção. Planejamento, orçamento etc. acontecem na pré-produção. A fotografia principal faz parte da produção. Etapas como edição, mixagem de som etc. fazem parte da pós-produção. A adição de legendas e a remoção de falhas técnicas fazem parte da localização e do controle de qualidade. Agora vamos ver como a ciência de dados ajuda a otimizar cada estágio da produção.
Pipeline para capturar automaticamente os melhores quadros para um show:
Como dito anteriormente, o orçamento faz parte da pré-produção. Muitas decisões precisam ser tomadas antes do início da produção. Por exemplo, o local para fotografar. A ciência de dados é amplamente usada para analisar as implicações de custo de um local específico. As decisões são tomadas equilibrando delicadamente a visão criativa e os orçamentos. A minimização de custos é feita sem comprometer a visão do conteúdo.
A produção envolve a filmagem de milhares de tomadas ao longo de vários meses. A produção terá um objetivo, mas precisa ser realizada sob restrições específicas. Por exemplo, as restrições podem ser que um ator esteja disponível por apenas uma semana, um local esteja disponível apenas para determinados dias, o horário de trabalho da equipe seja de 8 horas por dia, restrições de tempo, como uma cena diurna ou noturna, a equipe pode ter que mudar de local entre os tiros. Preparar um cronograma de filmagem com todas essas restrições pode ser um pesadelo para o diretor. Técnicas de otimização matemática são usadas aqui com um objetivo e restrições. Essa técnica de otimização fornecerá um cronograma de filmagem aproximado. Este cronograma é refinado ainda mais com ajustes.

A pós-produção levará tanto tempo quanto a produção, se não mais. Técnicas de visualização de dados são utilizadas para verificar os gargalos na pós-produção. Técnicas de visualização também são usadas para rastrear a tendência na pós-produção e projetá-la no futuro. Essa previsão é feita para ver a carga de trabalho de várias equipes e alocar a equipe adequadamente.

Na localização, os programas são dublados de um idioma para outro. A priorização de quais programas precisam ser dublados é decidida com base na análise de dados. O conteúdo dublado que se mostrou popular no passado é priorizado. O controle de qualidade verificará problemas como sincronização entre áudio e vídeo, sincronização de legendas com som etc. O controle de qualidade é feito antes e depois da codificação (o processo de compactação de vídeos em diferentes taxas de bits para streaming em diferentes dispositivos). A Netflix acumulou dados históricos de verificações manuais de controle de qualidade. Esses dados consistiam nos erros que ocorreram no passado, os formatos de vídeo em que os erros foram encontrados, os parceiros de quem esse conteúdo foi obtido, o gênero do conteúdo etc. Sim, a Netflix viu um padrão de erros no gênero como Nós vamos. Usando esses dados, foi construído um modelo de aprendizado de máquina que prevê 'aprovação' ou 'reprovação' das verificações de qualidade. Se um algoritmo de aprendizado de máquina prever 'falha', esse ativo passará por uma rodada de verificações manuais de qualidade.
Principais empresas que contratam cientistas de dados na Índia
Qualidade de experiência de streaming e testes A/B
A ciência de dados é amplamente usada para garantir a qualidade da experiência de streaming. A qualidade da conectividade de rede é prevista para garantir a qualidade do streaming. A Netflix prevê ativamente qual programa será transmitido em um determinado local e armazena em cache o conteúdo no servidor próximo. O cache e o armazenamento de conteúdo são feitos quando o tráfego da Internet é baixo. Isso garante que o conteúdo seja transmitido sem buffers e a satisfação do cliente seja maximizada. O teste A/B é amplamente usado sempre que uma alteração é feita no algoritmo existente ou um novo algoritmo é proposto. Novas técnicas como intercalação e medidas repetidas são usadas para acelerar o processo de teste A/B usando um número muito menor de amostras.
Para concluir, essas são algumas maneiras pelas quais a Netflix está usando a análise de dados para envolver e impressionar os clientes. Se você estiver interessado em mergulhar fundo e saber mais sobre como essa empresa maravilhosa está usando a ciência de dados, visite o blog de pesquisa. Há um tesouro de artigos em seu blog esperando para ser explorado.
Na próxima série de blogs, vamos ver como a Instacart está aproveitando a ciência de dados e o aprendizado de máquina. Agora que você leu este blog, forneça comentários sobre o que você pensa sobre este artigo. Além disso, ofereça sugestões sobre qual empresa você gostaria de ver em minha futura série.
Aprenda cursos de ciência de dados das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.
