Cientistas de dados: mitos versus realidades

Publicados: 2018-04-05

Qualquer coisa que ganhe impulso rapidamente tende a se tornar o que todo mundo está falando. E, quanto mais as pessoas falam sobre algo, mais equívocos e mitos se acumulam. Data Science and Analytics é um desses domínios que está continuamente em ascensão e, com ele, um número crescente de mitos associados.

Hoje, vamos desmascarar alguns desses mitos e equívocos que giram em torno da vida e do trabalho dos cientistas de dados. Mas antes de passarmos para isso, vamos primeiro entender um dia típico na vida de um cientista de dados.

Cientista de dados

Uma organização tem montes de dados coletados ao longo do tempo de várias fontes e em vários formatos. Agora, eles decidiram fazer algo sobre isso. Eles querem fazer valer seus dados. A quem eles recorrem?

Cientistas de dados!
Sim, cientistas de dados que a maioria confunde ser alguns seres sobrenaturais. Essas pessoas estão no coração e na alma da equipe de análise de dados de qualquer organização. Eles ocupam uma posição vital e, embora possa ser uma surpresa para você, seu dia normal é bem como o dia típico de qualquer outro funcionário de colarinho branco.

Índice

Reuniões, reuniões e mais algumas reuniões!

Os cientistas de dados precisam participar de reuniões, principalmente diariamente, para coletar requisitos, discutir o trabalho realizado e planejar o trabalho do dia. Há também reuniões internas que são importantes para os objetivos organizacionais e para a superação de problemas de negócios. Em suma, o objetivo dessas reuniões é obter uma ideia mais clara dos problemas em questão e garantir que todos na organização estejam cientes do caminho a seguir.

Busque dados e torne-os intocados!

Parte do dia é dedicada à identificação de problemas do mundo real que sua organização está enfrentando e à descoberta de maneiras de fazer com que seus dados ajudem a resolver esses problemas. Em seguida, vem uma parte mais desafiadora – determinar o tipo e a fonte de dados necessários. Um cientista de dados experiente sempre coleta os dados das fontes mais relevantes – aquelas que provavelmente agregarão valor.

No entanto, isso é algo que vem com experiência e conhecimento. Portanto, os cientistas de dados precisam gastar bastante tempo com isso.

No entanto, coletar os dados faz apenas metade do trabalho. O cientista de dados também precisa garantir que os dados sejam validados e limpos. Se eles trabalham com dados imperfeitos, as chances de sucesso diminuem exponencialmente.

Fundamentos Básicos de Estatística para Ciência de Dados

Comece a fazer mágica. Queremos dizer análise.

Quando os dados são totalmente limpos, o cientista de dados gasta seu tempo restante identificando tendências e padrões dos dados. Esse é outro aspecto problemático do trabalho de um cientista de dados, especialmente porque não há um método definido para analisar esses dados com eficiência. Na maioria das vezes, requer um cientista de dados para projetar suas ferramentas e algoritmos ou ajustá-los com os existentes. Isso exige uma mente aberta e uma vontade de experimentar.

Tecer uma história.

Depois de analisar os conjuntos de dados, vem a parte mais importante – a visualização de dados. Os cientistas de dados precisam apresentar suas descobertas para um público majoritariamente não técnico, como as partes interessadas e os profissionais de marketing da empresa. Isso nem sempre é uma tarefa diária, mas precisa ser feito com frequência para manter as coisas em movimento. A carga de trabalho significativa do cientista de dados aqui envolve criar uma técnica de visualização que não apenas capture a essência de seus dados, mas também apresente tudo de uma maneira esteticamente agradável.

O papel de um cientista de dados é extremamente dinâmico; não há dois dias iguais para eles. Seu trabalho envolve que eles estejam atentos e sempre com seus chapéus de pensamento. Os dados com os quais estão trabalhando, os problemas que pretendem resolver e os insights que procuram descobrir estão mudando constantemente. É isso que torna o papel de um cientista de dados tão único e empolgante.

Um guia para iniciantes em ciência de dados e suas aplicações

Agora, dê um passo à frente e desfaça mais desses mitos, às vezes absurdos: vídeo

Vídeo do youtube

Mito 1: Você precisa ser um especialista em estatística com Ph.D. em estatísticas. Ou, pelo menos, você deve ter uma licenciatura em estatística.

Sim, ter um diploma formal em estatística garantirá que você esteja de acordo com as melhores práticas em estatística desde o primeiro dia. No entanto, mantenha seus cavalos lá – se você olhar para o mundo da ciência de dados, encontrará mais pessoas de uma formação gerencial/não-matemática do que os “cientistas de foguetes” viciados em matemática.

Mito 2: Você precisa ser um programador hardcore para se destacar em ciência de dados. Quanto mais hardcore, melhor.

Novamente, como o mito que discutimos algumas linhas atrás, isso também é baseado em uma falsa suposição sobre o trabalho do cientista de dados. As pessoas assumem que ser um cientista de dados envolve escrever linhas de códigos e algoritmos e outros enfeites! Mas, se você prestar atenção à rotina que discutimos anteriormente, você perceberá que não há “codificação” significativa envolvida nela. A maioria dos algoritmos ou métodos estão disponíveis prontos com apenas alguns ajustes necessários. No entanto, você precisa ter uma inclinação lógica para fazer isso.

Introdução à ciência de dados com Python

Mito 3: Cientistas de dados não são cientistas em nenhum sentido significativo da palavra.

Todo cientista é, por padrão, um cientista de dados. A ciência pura sempre coexistiu com dados observacionais. Sem a capacidade de peneirar, classificar, estruturar, classificar, teorizar e apresentar seus dados, nenhum cientista pode trazer coerência ao seu estudo. Da mesma forma, um cientista de dados que não se aprofundou no cerne de seus dados não pode apresentar suas descobertas de forma eficaz. Os controles estatísticos sempre foram a base da ciência pura e, agora, são as responsabilidades fundamentais de um cientista de dados. Portanto, se um cientista de dados está observando as tendências e padrões no comportamento dos clientes de uma organização e confirmando suas descobertas usando estatísticas e experimentos do mundo real, ele é um cientista puro e simples.

Mito 4: Cientistas de dados trabalham em ferramentas estatísticas caras e complicadas para realizar seu trabalho.

Essencialmente, o trabalho de um cientista de dados exige que eles procurem tendências e padrões ocultos em um amplo conjunto de dados. Para isso, eles podem usar ferramentas de visualização amigáveis, ferramentas de inteligência de negócios orientadas por pesquisa de autoatendimento, ferramentas interativas de exploração de dados ou até mesmo ferramentas simples que não exigem muito domínio estatístico. Apenas para acrescentar, muitos analistas de negócios do mundo podem encontrar insights profundos, mesmo modelando os recursos em um aplicativo de planilha primária.

Mito 5: A ciência de dados trata de alimentar dados em clusters do Hadoop e usar o MapReduce. Simples!

Se as pessoas tentassem explorar antes de espalhar mitos, não estaríamos aqui. Se você conversar com um cientista de dados, perceberá que há muito mais em ciência e análise de dados do que Hadoop e MapReduce. Esses dois são apenas duas das muitas ferramentas. Na maioria das vezes, um projeto de ciência de dados bem-sucedido usa uma variedade de ferramentas em vários estágios. Portanto, espera-se que um cientista de dados esteja no topo de quaisquer grandes avanços tecnológicos que ocorram nesse domínio para fazer a mudança apropriada para qualquer ferramenta ou tecnologia sempre que necessário. Quando se trata de Data Science, um sapato não serve para todos, e não existe um tabuleiro Ouija mágico para fazer os espíritos da ciência de dados falarem conosco, mortais.

Principais etapas para dominar a ciência de dados, confie em mim, eu tentei

Esperamos que você tenha gostado de ampliar sua visão! Fique conosco; voltaremos com mais Mythbusters.

É Ph.D. obrigatório para se tornar um Cientista de Dados?

Vamos dividir o papel de um Cientista de Dados em duas áreas para compreender melhor isso:

1. Função da Ciência de Dados Aplicada - Trabalhar com algoritmos atuais e entender como eles funcionam é o foco principal da Ciência de Dados Aplicada. Em outras palavras, trata-se de incorporar esses métodos em seu projeto. A maioria das pessoas relacionadas à carreira de Data Science se enquadra nessa categoria. A maioria das vagas e descrições de trabalho são comumente vistas para essa função.
2. Função de Pesquisa – Se você estiver interessado na função de Pesquisa, então você pode precisar de um Ph.D. Um papel de Pesquisa em Ciência de Dados inclui criar novos algoritmos do zero, pesquisá-los, escrever artigos científicos etc.

A Inteligência Artificial substituirá os Cientistas de Dados em um futuro próximo?

Na evolução da Data Science, é plausível dizer que a inteligência artificial acabará por substituir as operações realizadas manualmente pelos Cientistas de Dados. No entanto, um computador não pode decidir por si mesmo se deve limpar os dados, desenvolver um modelo eficiente, trabalhar na correção do modelo e assim por diante. Essas escolhas são feitas por alguém que possui as qualificações necessárias. Mesmo que iniciativas estejam sendo tentadas para desenvolver algoritmos mais avançados na esperança de reduzir a necessidade de cientistas de dados, é improvável que isso ocorra muito em breve. Mesmo com os algoritmos mais avançados, manter as empresas funcionando ainda exigiria alguém com bom senso e conhecimento de domínio.

Posso me tornar um Cientista de Dados apenas dominando as ferramentas de Ciência de Dados?

É um equívoco predominante que saber usar ferramentas estatísticas e bibliotecas qualifica você como um Cientista de Dados. Trabalhar com essas ferramentas ajudará você a entendê-las melhor, mas a ciência de dados é um conjunto de habilidades que combina uma variedade de habilidades. Aprender sobre as ferramentas que o acompanham é apenas um aspecto do processo. Juntamente com o conhecimento de ferramentas como Python ou R, habilidades como resolução de problemas, uma compreensão completa de conceitos e informações sobre os aplicativos corretos necessários para um problema de negócios também são vitais para dominar.