Um guia de inicialização para análise de dados (parte um)

Publicados: 2017-10-14

Este é o primeiro de uma série de duas partes.

Índice

Parte Um — Construindo um Data Warehouse

Hoje em dia, todo mundo quer construir um data warehouse. Mas será que alguém realmente precisa disso? Mesmo se você precisar, como você sabe que está construindo a coisa certa e quando você realmente começará a colher os primeiros benefícios disso?

Mas antes de mais nada, o que é um data warehouse? Simplificando, é um único local onde você pode armazenar dados de todas as fontes. Ele ajuda a responder às perguntas que exigem análises complexas envolvendo dados de várias fontes. Você também pode construir um data warehouse de forma que seus requisitos de dados mais frequentes sejam atendidos rapidamente.

Um ano atrás, estávamos lutando com essa questão no UpGrad – construir ou não construir um data warehouse?

Para responder a essa e muitas outras perguntas, conversamos com muitas outras pessoas que já haviam feito isso antes. A primeira coisa que notamos foi que para construir um data warehouse (ou DW), você precisa da equipe certa de engenheiros de dados, arquitetos, analistas e gerentes de produto. A primeira pergunta que fizemos foi: realmente vale a pena tanto investimento?

Para encontrar a resposta certa, precisamos nos perguntar o conjunto certo de perguntas. Essas perguntas podem levar muito tempo e energia, mas quando você terminar com elas, você ficará muito mais confiante sobre seguir em frente com o DW ou não. Aqui, forneceremos as respostas que obtivemos em nosso próprio exercício para aprimorar sua compreensão e, esperamos, ajudá-lo nesse processo de decidir se deve ou não configurar seu próprio data warehouse.

Um guia de inicialização para o blog do UpGrad de análise de dados

Pergunta nº 1: Quais respostas você deseja obter de análises/dados? E com que frequência?

Como você já deve ter notado, esta é a pergunta mais importante de todas. Você deve envolver outras equipes (Vendas, Marketing, Negócios) ao responder a essas perguntas para garantir que não perca nada.

O que isso significou para nós : queríamos 3 respostas importantes de análises/dados:

uma. Quais canais de marketing estão tendo um bom desempenho, ou seja, atribuição multicanal?

A equipe de marketing da UpGrad utiliza diferentes canais, tanto online quanto offline, para aquisição de usuários. Realizamos workshops e eventos offline para profissionais que buscam atualização de carreira. Também usamos canais online como Facebook e Google para atrair esses profissionais. Por isso, torna-se muito importante para nós saber quais canais estão tendo um bom desempenho, a fim de elaborar nossa estratégia de marketing semanalmente, ou mesmo diariamente. Além disso, também queremos saber se os esforços de remarketing ou offline têm algum efeito na conversão desses usuários em alunos pagos.

b. Como é nosso funil de conversão ?

Nosso funil parece muito maior do que a maioria das empresas. Primeira visita — inscrição — início da inscrição — envio da inscrição — teste feito/isento — lista restrita — pago. É fundamental saber como é o funil com base em vários recursos diferentes, como cidade, faixa etária, canal de aquisição etc.

c. Podemos prever se um usuário vai acabar pagando ou não, ou seja, lead scoring ?

A pontuação de leads pode ser baseada em duas coisas – adequação e interesse. O ajuste é determinado pelos atributos do usuário, como anos de experiência, pontuação GRE/GMAT/CAT, etc. O interesse é baseado em quão ativo o usuário esteve no site ou quão responsivo o usuário é a chamadas ou e-mails.

Além destes, queríamos:

d. Acompanhe o desempenho de cada aluno em um curso ou programa para que possamos ajudá-los no momento certo.

e. Monitore as avaliações e avaliações dos alunos sobre o conteúdo do curso.

Recebemos muitas outras perguntas desse tipo de equipes diferentes... mas você entendeu.

As 4 principais habilidades de análise de dados que você precisa

Pergunta nº 2 : Quais dessas respostas já são fornecidas pela configuração atual ou exigiriam apenas ajustes mínimos?

Fazer esta pergunta lhe dará uma boa noção dos recursos atuais do banco de dados. Certifique-se de ter os engenheiros certos na sala quando você perguntar isso (dica: a maioria deles seria engenheiros de back-end em uma startup que cuida do banco de dados transacional).

O que isso significou para nós :

uma. Atribuição multicanal

Antes de fazer uma compra, o visitante faz muitas visitas através de diferentes canais. Às vezes, eles simplesmente encontram você no Google e acessam seu site, e às vezes eles vêm para participar de um evento promocional off-line. Assim, quando um visitante finalmente compra o produto, queremos poder atribuir qual dos canais foi mais eficaz. Para fazer isso, precisamos mesclar dados on-line e off-line* em um só lugar e executar diferentes modelos de atribuição.

b. Funis de conversão

Nosso funil inclui novamente alguns componentes offline, como listas de seleção e testes que são carregados manualmente no Salesforce pela equipe de aconselhamento. O funil requer a mesclagem de dados de webstream com dados do Salesforce.

c. Pontuação de Leads

A maioria das ferramentas de pontuação de leads são básicas. Por exemplo, você pode pontuar com base em eventos transmitidos no Pardot (pelo Salesforce). Precisávamos de um sistema que pudesse mesclar dados do Salesforce, análise da web e e-mails para fornecer uma pontuação final com base no ajuste e no interesse.

d. Desempenho do aluno

Como esses dados são armazenados em um banco de dados transacional, podemos encontrar uma ferramenta de visualização como BIME ou Tableau para extrair os dados e criar esses painéis de rastreamento.

e. Classificações e comentários dos alunos

O mesmo que (d) acima.

Então, começamos a construir um esquema de data warehouse, tendo em mente a, b e c. Muitas startups não exigem pontuação de leads e têm apenas uma fonte de dados para funis de conversão e atribuição. Para essas startups, uma ferramenta de Business Intelligence (BI) é mais eficaz do que realmente construir um data warehouse.

Um guia de inicialização para análise de dados UpGrad Blog

Pergunta nº 3: As coisas parecerão diferentes à medida que você escala nos próximos 1 a 2 anos?

Em escala, seu banco de dados transacional pode ficar muito grande e as consultas podem ficar mais lentas ou começar a falhar. Você também deve planejar essas situações ao projetar o armazém.

O que isso significou para nós:

Nossa tabela de banco de dados de atividades estudantis crescerá muito rapidamente à medida que adicionamos mais cursos e alunos. As consultas já começaram a desacelerar. Fazia sentido manter isso em mente ao projetar o esquema.

Pergunta nº 4 : Existe algum outro lugar para o qual você deseja enviar os dados que deseja em seu data warehouse?

Os dados armazenados no warehouse podem ter muitos casos de uso diferentes, além do principal. Esses casos de uso ajudam você a pensar no esquema e incluem campos adicionais, se necessário, durante a construção do esquema.

O que isso significou para nós:

A pontuação do lead é usada pela equipe de aconselhamento, então temos que enviá-la para a Salesforce. A pontuação de adequação da pontuação de liderança também pode ser usada por uma equipe de curso específica para isentá-los automaticamente do curso. O modelo de atribuição é utilizado pela equipe de marketing, por isso temos que enviá-lo para a ferramenta de BI em um formato específico.

Finalmente, a pergunta nº 5 : Você tem a equipe certa para tomar decisões como:

  1. Qual banco de dados de análise você deve usar, com base nos casos de uso de escala e análise?
  2. Qual deve ser o esquema/modelo de dados para os casos de uso atuais? Este esquema é escalável?
  3. Que tipo de ETL seria necessário para criar o banco de dados de análise? Quanto tempo levaria o ETL?
  4. Qual seria a frequência de atualização de tabelas diferentes? Como você deve lidar com casos de uso em tempo real, como o dos mecanismos de recomendação?

Você precisará de um engenheiro de dados, um engenheiro sênior que já tenha trabalhado com dados por pelo menos 3 a 5 anos e um cientista de dados para tomar muitas dessas decisões.

12 maneiras de conectar a análise de dados aos resultados de negócios

Depois de pensar nessas 5 perguntas, uma startup pode decidir se deve ou não construir um data warehouse. Aqui está uma lista simples de prós e contras de um data warehouse, para ajudá-lo a avaliar ainda mais:

Prós —

  1. Você terá controle total sobre seus dados e poderá alternar facilmente para ferramentas de terceiros quando elas ficarem mais caras para você ou não atenderem às suas necessidades.
  2. Você pode criar produtos de ciência de dados! Recomendações, pesquisa, análise de sentimentos, spam vs ham etc. Tenha cuidado e verifique com antecedência se você precisará de dados em tempo real para esses produtos, ou eles precisarão ser atualizados de hora em hora/diariamente.
  3. Como apontado anteriormente, você pode economizar muito tempo e problemas para os analistas. As consultas serão mais rápidas e os dados serão confiáveis.

Contras —

  1. Você precisa investir fortemente em recursos de engenharia e armazenamento de dados, muito antes de começar a colher os benefícios.
  2. É provável que sua primeira construção esteja longe de ser perfeita. Se você é uma empresa de estágio inicial a intermediário, muitos processos ainda estão evoluindo. Você não pode cobrir os casos que surgirão nos próximos 3 a 6 meses. Enfrentar perguntas como por que não pensamos nisso, etc, pode acabar desanimando você. Você precisará eliminar esses pequenos contratempos e manter os olhos no objetivo de longo prazo.
  3. A maioria das organizações não tem a pesquisa e a paciência certas para construir a solução de Data Warehouse para suas necessidades. Você precisará investir muito tempo antes de iniciar tudo.

Um guia de inicialização para análise de dados UpGrad Blog

Depois de concluir este exercício, tenho certeza de que você estará pronto para embarcar na jornada de análise de dados para sua startup e evitará erros dispendiosos. Comente abaixo e deixe-nos saber se você gostou deste post ou achou útil. Fiquem ligados para o próximo!

* Se tivéssemos apenas canais online, poderíamos ter usado a atribuição multicanal do Google Analytics. Também temos dados de eventos offline, que podem ser carregados no google analytics. Problema resolvido? Infelizmente! A GA proíbe você de enviar qualquer informação de identificação pessoal. Na ausência de informações de e-mail, é difícil vincular esses dados a outras fontes de dados, a menos que você mapeie o ID do Google Analytics para e-mails em seu próprio banco de dados, procure esses IDs e carregue dados off-line com esses IDs no GA.

Por que o Data Analytics é importante em uma startup?

Para começar, a análise de dados pode ajudar uma start-up a determinar seus objetivos. Seria difícil definir metas e acompanhar o progresso sem métricas, o que ajuda uma start-up a continuar melhorando e avançando. Em segundo lugar, todos em uma empresa podem utilizar dados para aumentar a produtividade e melhorar a tomada de decisões. Ele ajuda os empreendedores a tomar decisões iniciais sábias, medidas e bem informadas. Além disso, saber o que os clientes desejam com antecedência torna as campanhas de marketing mais centradas no cliente. Por fim, a análise de dados ajuda as startups a descobrir outras chances potenciais de otimizar as operações e aumentar os ganhos.

O Data Analytics realmente importa para as startups?

A resposta é sim! Start-ups são ao mesmo tempo emocionantes e exaustivos. As possibilidades são ilimitadas, o que é emocionante e avassalador. Existem inúmeras coisas que devem ser implementadas, mas a análise de dados é frequentemente negligenciada. Se você acha que a análise de dados é algo que pode ser adiado até que sua empresa esteja bem estabelecida, descobrirá que chegar lá é muito mais desafiador. O que você aprende com a análise de dados pode ser a chave para levá-lo ao próximo nível. São dados que respondem a perguntas cruciais sobre seu marketing, usuários, produto, produtividade, atendimento ao cliente, para ajudá-lo a tomar a direção certa para sua start-up.

Quais são as melhores ferramentas de Data Analytics para startups?

No século XXI, a coleta e a análise de dados são cruciais para a tomada de decisões. Se você vende um pequeno produto, um negócio de software como serviço (SaaS) ou administra um site, precisa saber o que motiva seus clientes a comprar seu produto, como é seu funil de marketing e como você pode melhorá-lo. Algumas das ferramentas de análise mais eficazes para ajudar no sucesso do seu negócio são Google Analytics, R e Python, Microsoft Excel, Tableau, RapidMiner, KNIME, Power BI, Apache Spark, Qlik View, Talend, Splunk, etc.