Análise exploratória de dados e sua importância para o seu negócio
Publicados: 2018-02-22A maioria das discussões sobre Análise de Dados trata do aspecto “ciência” da mesma. Certamente, há muita ciência por trás de todo o processo – os algoritmos, fórmulas e cálculos, mas você não pode tirar a “arte” disso. Estruturar o processo completo – desde o planejamento da análise até a compreensão do resultado final – não é tarefa fácil e nada mais é do que uma forma de arte. É exatamente isso que entra no nosso tópico do dia – Análise Exploratória de Dados. Neste artigo, veremos o que é análise exploratória de dados, quais são as ferramentas e técnicas comuns para ela e como ela ajuda uma organização.
Índice
O que é Análise Exploratória de Dados?
A Análise Exploratória de Dados é uma das etapas importantes no processo de análise de dados. Aqui, o foco está em entender os dados em mãos – coisas como formular as perguntas corretas para fazer ao seu conjunto de dados, como manipular as fontes de dados para obter as respostas necessárias e outros. Isso é feito por meio de uma análise elaborada de tendências, padrões e discrepâncias usando um método visual. 
A Análise Exploratória de Dados é uma etapa crucial antes de você pular para o aprendizado de máquina ou modelagem de seus dados. Ele fornece o contexto necessário para desenvolver um modelo apropriado – e interpretar os resultados corretamente.
Manipulação de dados: como identificar mentiras de dados?
Ao longo dos anos, o aprendizado de máquina tem aumentado – e isso deu origem a vários algoritmos poderosos de aprendizado de máquina. Tão poderosos que quase o tentam a pular a fase de Análise Exploratória de Dados. Embora seja compreensível por que você gostaria de tirar proveito de tais algoritmos e pular a EDA – não é uma boa ideia apenas alimentar dados em uma caixa preta e esperar pelos resultados. Observou-se repetidamente que a Análise Exploratória de Dados fornece muitas informações críticas que são muito fáceis de perder – informações que ajudam a análise a longo prazo, desde o enquadramento das perguntas até a exibição dos resultados. Se você é iniciante e está interessado em aprender mais sobre ciência de dados, confira nosso treinamento em ciência de dados das melhores universidades.
Embora os aspectos da EDA existam desde que temos dados para analisar, a Análise Exploratória de Dados foi desenvolvida oficialmente na década de 1970 por John Turkey – o mesmo cientista que cunhou a palavra “Bit” (abreviação de Binary Digit). A EDA é frequentemente vista e descrita como uma filosofia mais do que ciência, porque não há regras rígidas para abordá-la. O objetivo da Análise Exploratória de Dados é essencial para lidar com tarefas específicas, como:
- Detectar dados ausentes e errôneos;
- Mapeamento e compreensão da estrutura subjacente de seus dados;
- Identificar as variáveis mais importantes em seu conjunto de dados;
- Testar uma hipótese ou verificar suposições relacionadas a um modelo específico;
- Estabelecer um modelo parcimonioso (que possa explicar seus dados usando variáveis mínimas);
- Estimando parâmetros e calculando as margens de erro.
Ferramentas e Técnicas usadas na Análise Exploratória de Dados
S-Plus e R são as linguagens de programação estatística mais importantes usadas para realizar a Análise Exploratória de Dados. Essas linguagens vêm com uma infinidade de ferramentas que ajudam você a executar funções estatísticas específicas, como:
Técnicas de classificação e redução de dimensão

A classificação é essencialmente usada para agrupar diferentes conjuntos de dados com base em um parâmetro/variável comum. Os dados de que estamos falando são multidimensionais e não é fácil realizar classificação ou agrupamento em um conjunto de dados multidimensional. Assim, para ajudar nisso, são realizadas técnicas de Redução de Dimensionalidade como PCA e LDA – elas reduzem a dimensionalidade do conjunto de dados sem perder nenhuma informação valiosa de seus dados.
Como o paradoxo de Simpson afeta os dados?
Visualização univariada

As visualizações univariadas são essencialmente distribuições de probabilidade de cada campo no conjunto de dados brutos – com estatísticas resumidas. As visualizações univariadas usam tabelas de distribuição de frequência, gráficos de barras, histogramas ou gráficos de pizza para a representação gráfica.
Visualizações bivariadas

Isso permite que os cientistas de dados avaliem a relação entre as variáveis em seu conjunto de dados – e ajudam a direcionar a variável que você está analisando. Gráficos apropriados para Análise Bivariada dependem do tipo de variável em questão. Por exemplo, se você estiver lidando com duas variáveis contínuas, um gráfico de dispersão deve ser o gráfico de sua escolha. Se uma é categórica e a outra contínua, prefere-se um gráfico de caixa e quando ambas as variáveis são categóricas, escolhe-se um gráfico em mosaico.
O negócio de segurança de dados está crescendo!
Visualizações multivariadas

As visualizações multivariadas ajudam a entender as interações entre diferentes campos de dados. Envolve observação e análise de mais de uma variável de resultado estatística em um determinado momento.

Agrupamento K-means

O agrupamento K-means é basicamente usado para criar “centros” para cada cluster com base na média mais próxima. É uma técnica iterativa que continua criando e recriando clusters – até que os clusters formados parem de mudar com as iterações. Ele pode ser usado para encontrar discrepâncias em um conjunto de dados (pontos que não serão uma forma de nenhum cluster serão, idealmente, discrepantes).
Modelos preditivos

Como o nome sugere, a modelagem preditiva é um método que usa estatísticas para prever resultados. Embora a maioria das previsões tenha como objetivo prever o que acontecerá no futuro, a modelagem preditiva também pode ser aplicada a qualquer evento desconhecido, independentemente de quando é provável que ocorra. Por exemplo, esta técnica pode ser usada para detectar crimes e identificar suspeitos mesmo após o crime ter acontecido. A maneira mais comum de realizar a modelagem preditiva é usando a regressão linear (veja a imagem).
O que é o que é Data Warehousing e Data Mining
Como a Análise Exploratória de Dados ajuda o seu negócio e onde ela se encaixa?
A Análise Exploratória de Dados fornece o máximo valor para qualquer negócio, ajudando os cientistas a entender se os resultados que eles produziram são interpretados corretamente e se eles se aplicam aos contextos de negócios necessários. Além de garantir resultados tecnicamente sólidos, a Análise Exploratória de Dados também beneficia as partes interessadas ao confirmar se as perguntas que estão fazendo estão corretas ou não. A Ciência de Dados Exploratória geralmente aparece com insights imprevisíveis – aqueles que as partes interessadas ou os cientistas de dados nem se importariam em investigar em geral, mas que ainda podem ser altamente informativos sobre o negócio.
Há vários conectores de dados que ajudam as organizações a incorporar a Análise Exploratória de Dados diretamente em seu software de Business Intelligence. Você também pode configurar isso para permitir que os dados fluam de outra maneira, criando e executando modelos estatísticos em (por exemplo) R que usam dados de BI e são atualizados automaticamente à medida que novas informações fluem para o modelo.
Os casos de uso potenciais da Análise Exploratória de Dados são amplos, mas, em última análise, tudo se resume a isso – a Análise Exploratória de Dados trata de conhecer e entender seus dados antes de fazer qualquer suposição sobre eles ou dar qualquer passo na direção de Mineração de Dados. Ele ajuda você a evitar a criação de modelos imprecisos ou a construção de modelos precisos com dados errados.
Executar esta etapa corretamente dará a qualquer organização a confiança necessária em seus dados – o que eventualmente permitirá que eles comecem a implantar poderosos algoritmos de aprendizado de máquina. No entanto, ignorar esta etapa crucial pode levar você a construir seu Sistema de Business Intelligence em uma base muito instável.
12 maneiras de conectar a análise de dados aos resultados de negócios
Para concluir…
A Análise Exploratória de Dados é claramente uma das etapas importantes durante todo o processo de extração de conhecimento. Se você deseja estabelecer uma base sólida para seu processo geral de análise, deve se concentrar com toda a sua força e poder na fase EDA. Com toda a honestidade, é necessário um pouco de estatística para dar esse passo. Se você acha que está atrasado nessa frente, não se esqueça de ler nosso artigo sobre Noções básicas de estatística necessárias para ciência de dados.
Aprenda cursos de ciência de dados online das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.
Se você estiver interessado em aprender python e quiser colocar a mão na massa em várias ferramentas e bibliotecas, confira Programa PG Executivo em Ciência de Dados. Ah, e o que você acha da nossa posição de considerar a “Análise Exploratória de Dados” mais uma arte do que uma ciência? Deixe-nos saber nos comentários abaixo!
Por que um Cientista de Dados deve usar a Análise Exploratória de Dados para melhorar seus negócios?
O objetivo principal da Análise Exploratória de Dados é auxiliar na análise dos dados antes de fazer qualquer suposição. Ele pode ajudar na detecção de erros óbvios, uma melhor compreensão dos padrões de dados, na detecção de outliers ou eventos inesperados e na descoberta de correlações interessantes entre variáveis.
Os cientistas de dados podem empregar a análise exploratória para garantir que os resultados que eles produzem sejam precisos e aceitáveis para quaisquer resultados e objetivos de negócios desejados. A EDA também auxilia as partes interessadas, garantindo que estejam fazendo as perguntas apropriadas. Desvios padrão, variáveis categóricas e intervalos de confiança podem ser respondidos com EDA. Após a conclusão da EDA e a extração de insights, seus recursos podem ser aplicados a uma análise ou modelagem de dados mais avançada, incluindo aprendizado de máquina.
Quais são os casos de uso mais populares para EDA?
Não é incomum que os cientistas de dados usem o EDA antes de vincular outros tipos de modelagem. É frequentemente usado na análise de dados para analisar conjuntos de dados para identificar discrepâncias, tendências, padrões e erros. Por exemplo, a EDA é comumente usada no varejo, onde ferramentas de BI e especialistas analisam dados para descobrir tendências de vendas, principais categorias, etc. gripe que pode ser mais prevalente na nova temporada de gripe, verificando a homogeneidade da população de pacientes etc.
Quais são os tipos de Análise Exploratória de Dados?
Os tipos de Análise Exploratória de Dados são
1. Univariada Não Gráfica: O propósito padrão da EDA univariada não gráfica é entender a distribuição/dados da amostra e fazer observações da população.
2. Gráfico univariado: histogramas, gráficos de caule e folhas, gráficos de caixa, etc.
3. Multivariada Não gráfica: Essas técnicas de EDA usam tabulação cruzada ou estatística para descrever a relação entre duas ou mais variáveis de dados.
4. Gráfico multivariado: representações gráficas de relacionamentos entre dois ou mais tipos de dados são usados em dados multivariados.
