Um guia para iniciantes em ciência de dados e suas aplicações

Publicados: 2018-02-24

As palavras Data, Science ou Data Science não são suficientes para incitar um sentimento de medo ou pavor entre os leitores. Para ser honesto, eles são fofos demais para serem até mesmo desanimadores, muito menos horríveis, ao contrário das palavras – tesselação, k-mean, k-vizinhos mais próximos, Euclidean Minimum Spanning Tree e mais desse tipo – palavras que você vai encontrar em sua jornada de Data Science.
Embora “Data Science” não inspire medo, também não explica nada sobre o campo. Todo mundo sabe o que são dados; pelo menos no sentido leigo. Os dados são essencialmente apenas bits brutos de informação. Ciência, por outro lado, pode ser usada para significar qualquer grupo de atividades seguindo um método científico.

Então, seguindo essa lógica, podemos concluir que a Data Science é um campo que usa métodos científicos em grandes blocos de dados. Mas para que? E o que exatamente é Ciência de Dados?
Esse é o nosso tema para discussão hoje. Depois de ler este artigo, você será capaz de responder às seguintes perguntas:

  • O que é Ciência de Dados?
  • Quais são as diferentes fases de um pipeline de Data Science?
  • Onde posso ver a Ciência de Dados em ação?

Índice

O que é Ciência de Dados?

A Wikipedia, a mãe de todas as enciclopédias, define Data Science como um campo focado em extrair conhecimento e insights de dados usando métodos científicos. No entanto, o que isso não diz é que nós, humanos, nascemos cientistas de dados. Quão? Vamos ver.
Você está observando o mundo ao seu redor, não importa o que esteja fazendo. A cada momento de vigília, você está captando detalhes do ambiente e alimentando seu cérebro. Você então processa essas observações em dados e os usa para entender as coisas ao seu redor, descobrindo significados e fazendo previsões do que provavelmente acontecerá a seguir.

Quando você está atrasado para sair para o trabalho por uma hora, você liga para dizer a eles que estará trabalhando em casa. Você está usando suas observações anteriores de tráfego e paradas no caminho que o fazem concluir que é provável que você perca seu tempo preso no trânsito do que ganharia estando no escritório. Quando você entra em seu quarto e vê embalagens de chocolate espalhadas por aí, uma análise casual lhe dirá que alguém está comendo seus chocolates na sua ausência.
As 4 principais funções de análise de dados a serem observadas

Em qualquer um dos casos mencionados, se você fizer esses cálculos e previsões em sua mente, sem anotar, você é um ser humano normal. Por outro lado, se você for em frente e registrar esses pontos de dados (claro em um formato legível por máquina) e tentar criar um algoritmo (ou procedimentos) e programas de computador para executar o aplicativo. Se a saída desse sistema “hipotético” for que “o trânsito vai dar merda”, ou “seus colegas de quarto comeram seus chocolates”, então bingo! Você é um cientista de dados.

É tão simples (em teoria) quanto a analogia acima faz parecer. No final do dia, você tem dados, procedimentos, algoritmos e ferramentas. Você só precisa extrair conhecimento dele. Para fazer isso com eficiência, há um fluxo de trabalho/pipeline que você deve seguir. Vamos ver o que está incluído em um pipeline de ciência de dados típico.

Pipeline de ciência de dados

O pipeline de ciência de dados fala sobre o fluxo de todo o processo – desde a obtenção dos dados desejados até a realização de cálculos e previsões precisos. Vamos dar uma olhada nos elementos desse pipeline:

Pipeline de ciência de dados

Obtenha seus dados

Esta é, por padrão, a primeira coisa que você precisa fazer para praticar Data Science – obter os dados! Apenas um pouco de atenção – há algumas coisas que você deve levar em consideração ao obter seus dados. Você deve primeiro identificar todos os seus conjuntos de dados (podem ser da Internet ou de bancos de dados internos/externos). Você deve então extrair os dados em um formato utilizável (CSV, XML, JSON, etc.)
Aqui estão as principais habilidades e ferramentas para dominar para ser um analista de dados

Habilidades requeridas

  • Gerenciamento de banco de dados: SQL ou NoSQL, dependendo de suas necessidades e requisitos.
  • Consultando esses bancos de dados
  • Recuperar dados não estruturados na forma de vídeos, áudios, textos, documentos, etc.
  • Armazenamento distribuído: Hadoop, Apache Spark ou Apache Flink.

Esfregando / Limpando Seus Dados

A limpeza dos dados deve ser de extrema importância porque a saída final do seu sistema é tão boa quanto os dados que você coloca nele. A limpeza refere-se à remoção de anomalias, preenchimento de valores vazios/omissos, verificação da consistência dos dados e outras coisas dessa natureza.

Habilidades requeridas

  • Linguagem de script: Python, R, SAS
  • Ferramentas de organização de dados: Python Pandas, R
  • Processamento distribuído: Hadoop, MapReduce/Spark

Explorando (Análise de Dados Exploratórios)

Agora que os dados estão limpos, você começará a entender quais padrões seus dados têm. Diferentes tipos de visualizações e modelagens estatísticas entram em uso nesta fase. Basicamente, esta fase visa derivar o significado oculto de nossos dados.
Há muita coisa que circula no campo da Análise Exploratória de Dados. Se você acha que é algo que você gosta, não se esqueça de ler nosso artigo sobre o mesmo.
Para ter um melhor desempenho nesta fase, você precisa ter seus “sentidos de aranha” formigando. Enlouqueça e identifique padrões ou tendências estranhas – esteja sempre à procura de algo fora da caixa. No entanto, ao fazer isso, não se esqueça do problema que você pretende resolver. Não saia muito da caixa. A análise exploratória de dados é uma arte, e um artista deve sempre manter o público em mente.

Habilidades requeridas

  • Bibliotecas Python: Numpy, Matplotlib, Pandas, Scipy
  • Bibliotecas R: GGplot2, Dplyr
  • Estatística inferencial
  • Visualização de dados
  • Design experimental
Principais etapas para dominar a ciência de dados, confie em mim, eu tentei!

Modelagem (Aprendizado de Máquina)

Esta é a parte divertida. Modelos são simplesmente regras gerais em um sentido estatístico. Um modelo de aprendizado de máquina é simplesmente uma ferramenta em seu kit de ferramentas. Você tem acesso a tantos algoritmos com diferentes casos de uso e objetivos que uma simples pesquisa o levará a um algoritmo que atenda às suas necessidades de negócios.
Depois de limpar os dados e descobrir os recursos essenciais (na fase EDA), usar um modelo estatístico como ferramenta preditiva melhorará sua tomada de decisão geral. Em vez de olhar para trás para ver “o que aconteceu?”, a análise preditiva visa responder “o que vem depois?” e “como devemos proceder?”.

Habilidades requeridas

  • Aprendizado de máquina: algoritmos de aprendizado supervisionado/não supervisionado/de reforço
  • Métodos de avaliação
  • Bibliotecas de aprendizado de máquina: Python (Sci-kit Learn) / R (CARET)
  • Álgebra Linear e Cálculo Multivariado

Interpretação (Data Storytelling)

Esta é uma das tarefas mais desafiadoras no pipeline. Aqui, você pretende explicar suas descobertas por meio da comunicação. No final das contas, trata-se de conectar-se com seu público – e é isso que torna a narrativa uma chave.
Suas descobertas dificilmente serão úteis se você não for capaz de transmitir seu significado para o grupo não-técnico em seu escritório, ou mesmo para seu chefe. Uma boa prática para colocar as coisas no controle seria ensaiar muito. Tente enquadrar uma história sobre suas descobertas e contá-la a um leigo (de preferência a uma criança). Se eles entenderem, seu chefe também entenderá. E se não, bem, você sabe o que Einstein disse:

“Se você não consegue explicar para uma criança de seis anos, você mesmo não entende.”

Esta fase tem como objetivo derivar verdadeiros insights de negócios. Seu principal desafio aqui é visualizar suas descobertas e exibi-las de uma maneira bonita e compreensível.

Habilidades requeridas

  • Conhecimento do domínio do seu negócio
  • Ferramentas de visualização de dados: Tableau, D3.JS, Matplotlib, GGplot, Seaborn, etc.
  • Comunicação: Habilidades de apresentação – verbais e escritas.

Este não é o fim do nosso pipeline. Se você deseja realmente tirar o melhor proveito do seu sistema, precisa certificar-se de que está atualizando seu modelo conforme as necessidades surgirem. Em Data Science, um tamanho não serve para todos e você precisará continuar revisitando e atualizando seu modelo.
Manipulação de dados: como identificar mentiras de dados?

Aplicações da ciência de dados

Como já está claro, Data Science é um termo amplo, assim como suas aplicações. Quase todos os aplicativos em seu smartphone prosperam com dados. Portanto, é justo dizer que é praticamente impossível listar todas as aplicações da ciência de dados por causa de sua absoluta onipresença.
Vamos dar uma olhada nos amplos campos que estão usando a magia da Ciência de Dados:

1. Pesquisa na Internet

Como o Google retorna esses resultados de pesquisa *precisos* em uma fração de segundo? Ciência de Dados!

2. Sistemas de Recomendação

De “pessoas que você pode conhecer” no Facebook ou LinkedIn a “pessoas que compraram este produto também curtiram…” na Amazon, suas playlists com curadoria diária no Spotify e até mesmo “vídeos sugeridos” no YouTube, tudo é alimentado por Data Science.

3. Reconhecimento de imagem/fala/personagem

Isso praticamente não precisa ser dito. O que você acha que é o cérebro por trás do “Siri”, se não for Data Science? Além disso, como você acha que o Facebook reconhece seu amigo quando você carrega uma foto com ele? Não é mágica; é ciência – Ciência de Dados.

4. Jogos

EA Sports, Sony, Nintendo, Zynga e outros gigantes neste domínio se encarregaram de levar sua experiência de jogo a um nível totalmente novo. Os jogos agora são desenvolvidos e aprimorados usando algoritmos de aprendizado de máquina para que possam ser atualizados à medida que você sobe para níveis mais altos.

5. Sites de comparação de preços

Esses sites são alimentados por dados. Para eles, quanto mais, melhor. Os dados são buscados nos sites relevantes usando APIs. PriceGrabber, PriceRunner, Junglee, Shopzilla são alguns desses sites.

Introdução à ciência de dados com Python

Empacotando…

Se você tem experiência em tecnologia e tem um pouco de conhecimento de dados, a Ciência de Dados é sua verdadeira vocação. A melhor parte? Há muito o que fazer e explorar dentro e ao redor da Ciência de Dados. É um termo abrangente que abrange várias ferramentas e tecnologias – dominar qualquer uma delas fará de você um ativo no mercado cada vez maior de Data Science. O upGrad oferece vários cursos sobre Data Science para mantê-lo à frente da curva. Não se esqueça de vê-los!

Qual é o escopo da Ciência de Dados em todos os setores na Índia?

A ciência de dados tem um enorme impacto em muitos setores na Índia. Todos os setores listados abaixo dependem muito da ciência de dados e oferecem excelentes perspectivas para um cientista de dados.

1. Saúde: Esta é uma palavra abrangente para qualquer coisa que tenha a ver com medicamentos, pacientes e doenças. A ciência de dados começou a desempenhar um papel crítico nesse setor, desde diagnósticos mais eficientes até pesquisas médicas.
2. Banca e Seguros - Avaliação de Riscos e Detecção de Fraudes: Os bancos recolhem perfis de clientes, candidaturas anteriores e despesas, bem como uma variedade de outros dados pessoais, nomeadamente para empréstimos e seguros. É aí que entra a ciência de dados, pois simplifica o processo e distingue entre aqueles que são de baixo risco e aqueles que são de alto risco.
3. Marketing e Publicidade - Com todos os dados ao seu alcance, você pode analisar e determinar quem deve ser seu público-alvo para comercializar seu serviço ou produto de forma eficaz.
4. Indústria de companhias aéreas - A ciência de dados é usada no setor de companhias aéreas para analisar caminhos e rotas de aeronaves.

Como os Cientistas de Dados podem usar suas habilidades para resolver problemas de negócios?

Dependendo das demandas de sua empresa, um Cientista de Dados deve adotar uma estratégia diferente para solucionar um desafio de negócios. Usando modelos híbridos de matemática e ciência da computação, os cientistas de dados obtêm insights acionáveis ​​dos dados e ajudam a tomar melhores decisões. As aplicações da ciência de dados para resolver os desafios de negócios do mundo real incluem melhorar a qualidade do produto, automatizar a colocação de anúncios digitais, aumentar a geração de receita por meio da previsão de demanda e oportunidades de crescimento, automatizar processos de recrutamento, definir preços em um mercado dinâmico, entre outros casos de uso.

Qual é o futuro da ciência de dados?

O futuro da ciência de dados é muito empolgante com um amplo escopo de implementação em quase todos os campos. Algumas das melhores empresas nativas digitais, como Google, Amazon, Facebook etc, fizeram um investimento significativo em dados. A ascensão da tecnologia emergente combinada com a pesquisa em andamento levará a aplicações e casos de uso inovadores no futuro. Do ponto de vista da carreira, a ciência de dados é muito promissora.