Fundamentos Básicos de Estatística para Ciência de Dados

Publicados: 2018-02-27

Se você é um aspirante a Cientista de Dados, está familiarizado com os principais conceitos de Estatística para Ciência de Dados . Você não precisa ser um Ph.D. em Estatística para se destacar em Ciência de Dados, mas você precisa saber o suficiente para talvez descrever alguns algoritmos básicos em um jantar.

Daqui para frente, vamos orientá-lo em alguns dos pré-requisitos básicos de Estatística para Ciência de Dados .

Se você acabou de entrar no mundo da Data Science, pode ter encontrado pessoas declarando “Maths” como pré-requisito para Data Science. Com toda a honestidade, não é matemática, por si só, mas você tem que aprender Estatística para Ciência de Dados .

Atualmente, bibliotecas como o Tensorflow escondem quase toda a matemática complexa do usuário. Bom para nós, mas ainda é bom ter uma compreensão básica dos princípios básicos sobre os quais essas coisas funcionam. Ter uma boa compreensão da análise de dados pode ajudá-lo a entender melhor tudo.

Este artigo irá ajudá-lo com alguns teoremas, conceitos e equações que não apenas ajudarão sua causa como Cientista de Dados, mas também farão você parecer que foi um grande sucesso no curso de Computação Estatística Avançada.

Índice

Distribuições estatísticas
- Distribuição de veneno
- Distribuição binomial
Alguns teoremas e algoritmos
- Teorema de Bayes
- Algoritmo K-Vizinho Mais Próximo
- Bagging (agregação de Bootstrap)
Análise da curva ROC
- Como funciona?
- Importância da Estatística na Ciência de Dados
Qual é a importância da Estatística para a Ciência de Dados?
Quais são os principais conceitos fundamentais da Estatística necessários para a Ciência de Dados?
Como a Estatística é usada na Ciência de Dados?

Distribuições estatísticas

Esta é provavelmente uma das coisas mais importantes que você precisa saber ao se armar com os pré-requisitos de Estatísticas para Ciência de Dados .

Distribuição de veneno
A distribuição de Poisson é uma das ferramentas mais essenciais em estatística. É usado para calcular o número de eventos que provavelmente ocorrerão em um intervalo de tempo. Por exemplo, quantas chamadas telefônicas provavelmente ocorrerão em um determinado período de tempo.
O símbolo de aparência engraçada nesta equação (λ) é conhecido como lambda . É usado para representar o número médio de eventos que ocorrem por intervalo de tempo.
Outro bom exemplo em que a distribuição de Poisson encontra uso é calcular a perda na fabricação. Suponha que uma máquina produza chapas de metal e tenha X falhas por metro. Suponha, por exemplo, que a taxa de erro foi de 2 por jarda da folha – então, usando a distribuição de Poisson, podemos calcular a probabilidade de que exatamente dois erros ocorram em uma jarda.
Distribuição binomial

Se você já encontrou Estatísticas básicas, pode ter encontrado a Distribuição Binomial.

Digamos que você teve um experimento de lançar uma moeda não viciada três vezes.
Você pode dizer a probabilidade de a moeda mostrar cara em todos os três lançamentos?
Primeiro, a partir da combinatória básica, podemos descobrir que existem oito combinações possíveis de resultados ao lançar uma moeda três vezes. Agora, podemos traçar as probabilidades de ter 0,1,2 ou 3 caras. Esse gráfico nos dará nossa distribuição binomial necessária para este problema. Quando representado graficamente, você notará que se parece muito com uma curva de distribuição normal típica, em teoria, ambas são muito semelhantes. Enquanto a Distribuição Binomial é para valores discretos (um número limitado de lançamentos de moedas), a Distribuição Normal cuida de valores contínuos.

Existem várias distribuições além das que falamos acima. Se você é uma alma interessada e também quer se armar melhor com as estatísticas necessárias para a ciência de dados , sugerimos que você leia também sobre as seguintes distribuições:
Distribuição geométrica
Distribuição hipergeométrica
Distribuição Uniforme Discreta
Distribuição Binomial Negativa

Análise exploratória de dados e sua importância para o seu negócio

Alguns teoremas e algoritmos

Quando falamos sobre Estatística para Ciência de Dados , simplesmente não podemos ignorar os teoremas e algoritmos básicos que são a base de muitas bibliotecas nas quais você trabalhará como Cientista de Dados. Existem vários algoritmos de classificação, algoritmos de agrupamento, algoritmos de rede neural, árvores de decisão, etc. Nesta seção, falaremos sobre alguns teoremas básicos que você deve conhecer – também o ajudará a entender outros teoremas complexos com facilidade.

Teorema de Bayes

Este é um dos teoremas comuns que você encontrará se tiver alguma educação formal em Ciência da Computação. Houve inúmeros livros ao longo dos anos que discutem excessivamente o Teorema de Bayes e seus conceitos de maneira elaborada.

O Teorema de Bayes simplifica bastante conceitos complexos. Ele explica muitos fatos estatísticos usando algumas variáveis simples. Apoia o conceito de “ probabilidade condicional ” (por exemplo, se A ocorreu, desempenhou um papel na ocorrência de B). A coisa mais apreciável sobre isso é o fato de que você pode prever a probabilidade de qualquer hipótese usando apenas os pontos de dados fornecidos.

Bayes pode ajudá-lo a prever a probabilidade de alguém ter câncer apenas por saber sua idade. Ele também pode informar se um e-mail é spam com base no número de palavras. Este teorema é essencialmente usado para remover a incerteza.

Curiosidade: o teorema de Bayes ajudou a prever a localização dos submarinos, bem como a configuração da máquina Enigma para traduzir os códigos alemães, na Segunda Guerra Mundial. Mesmo na moderna ciência de dados, Bayes encontra extensas aplicações em muitos algoritmos.
O que é o que é Data Warehousing e Data Mining

Algoritmo K-Vizinho Mais Próximo

Estatísticas para Ciência de Dados
Este é um algoritmo muito fácil tanto em termos de compreensão quanto de implementação. Tanto que é chamado de “algoritmo preguiçoso”. Sua simplicidade reside no fato de que se baseia em deduções lógicas do que qualquer fundamento da estatística, per se. Em termos leigos, esse algoritmo procura encontrar grupos mais próximos uns dos outros.

K-NN usa o conceito de Distância Euclidiana. Ele procura grupos locais dentro e ao redor de um número específico de pontos focais. Esse número é representado por “k”. Existem muitas abordagens para descobrir quão grande deve ser o valor de 'k', pois este é um valor decidido pelo usuário.

Esse conceito é ótimo para agrupamento de recursos, segmentação básica de mercado e busca de valores discrepantes de um grupo de entradas de dados. A maioria das linguagens de programação modernas implementam o algoritmo K-NN em apenas duas linhas de código.

Bagging (agregação de Bootstrap)

Bagging essencialmente se refere à criação de mais de um modelo de um único algoritmo – como uma árvore de decisão. Cada um dos modelos é treinado em dados de amostra diferentes (isso é chamado de amostra de bootstrap).

Portanto, cada árvore de decisão é feita usando dados de amostra diferentes – isso resolve o problema de overfitting ao tamanho da amostra. Agrupar árvores de decisão como essa ajuda essencialmente a reduzir o erro total, pois a variação geral diminui com cada nova árvore adicionada. Um saco dessas árvores de decisão é conhecido como floresta aleatória.

Introdução à ciência de dados com Python

Análise da curva ROC

Estatísticas para Ciência de Dados
O termo ROC significa Receiver Operating Characteristic. A curva de análise ROC encontra amplo uso em Data Science. Ele prevê o desempenho de um teste, medindo sua sensibilidade geral versus sua taxa de queda. A análise ROC é extremamente importante ao determinar a viabilidade de qualquer modelo.

Como funciona?

Seu modelo de aprendizado de máquina pode fornecer algumas previsões imprecisas. Alguns deles são porque um valor específico deveria ser 'true', mas é definido como 'false' ou vice-versa.

Qual é a probabilidade de você estar certo então?

Usando a curva ROC, você pode ver a precisão da sua previsão. Com as duas parábolas diferentes, você também pode descobrir onde colocar seu valor limite. O limite é onde você decide se a classificação binária é positiva ou negativa – verdadeira ou falsa.

À medida que as duas parábolas se aproximam, a área sob a curva tenderá a zero. Isso significa essencialmente que seu modelo tende à imprecisão. Quanto maior a área, maior é a precisão do seu modelo. Este é um dos primeiros testes usados ao testar qualquer modelagem, pois ajuda a detectar problemas antecipadamente, informando se o modelo está correto ou não.

Um exemplo real de curvas ROC – Elas são usadas para representar a conexão/compensação entre sensibilidade clínica e especificidade para corte para um teste específico ou uma combinação de testes – de forma gráfica. Além disso, a área sob a curva ROC também dá uma boa ideia dos benefícios de usar os testes mencionados acima. Assim, as curvas ROC encontram uso extensivo em Bioquímica para a escolha de um corte apropriado. Idealmente, o melhor ponto de corte é aquele que tem a menor taxa de falsos positivos com a maior taxa de verdadeiros positivos juntos.

Como você pode fazer a transição para a análise de dados?

Importância da Estatística na Ciência de Dados

A partir da discussão acima, agora que você está ciente dos conceitos básicos de Estatística e fundamentos de Estatística, vamos falar sobre a importância de aprender Estatística para Ciência de Dados. As ferramentas e tecnologias cruciais para organizar e encontrar insights profundos nos dados, analisar e quantificar dados são fornecidas pelo Statistics for Data Analytics.

Apresentamos uma visão geral dos conceitos básicos de Estatística e o impacto da Estatística na exploração, análise, modelagem e representação de dados. Também indicamos ao problema se há uma inconsistência ao negligenciar os fundamentos da Estatística. Se você estiver interessado em ingressar na indústria que mais cresce, vá direto ao nosso site no UpGrad para seguir nosso tutorial de Estatísticas para Ciência de Dados, pois fornecemos cursos online e offline no mesmo. Uma vez que você melhore seu jogo em pelo menos os fundamentos da Estatística e o Básico da Estatística, você estará pronto para o trabalho.

Para concluir…
A lista de tópicos acima não é de forma alguma uma lista abrangente de tudo o que você precisa saber em Estatística. Esta lista é apenas para dar uma ideia de tudo o que você pode encontrar em sua jornada de Ciência de Dados e como você pode estar preparado para isso.

Em suma, este artigo apresenta alguns dos principais conceitos de Estatística para Ciência de Dados . Uma compreensão profunda dos conceitos explicados juntamente ajudará você a entender os outros conceitos facilmente. Se você quiser explorar mais e dominar a ciência de dados, encontre nossos melhores cursos online de ciência de dados.

Qual é a importância da Estatística para a Ciência de Dados?

A estatística fornece as técnicas e ferramentas para identificar a estrutura em big data, além de fornecer aos indivíduos e organizações uma maior compreensão das realidades reveladas por seus dados, usando métodos estatísticos adequados que permitem a classificação e organização, ajudam a calcular a distribuição de probabilidade e a estimativa, e encontre estrutura nos dados identificando anomalias e tendências. A estatística também auxilia na visualização e modelagem de dados com o uso de gráficos e redes. Ele ajuda a identificar clusters de dados ou outras estruturas que são afetadas por variáveis e ajuda a reduzir o número de suposições em um modelo, tornando-o mais preciso e útil.

Quais são os principais conceitos fundamentais da Estatística necessários para a Ciência de Dados?

Os conceitos centrais da estatística são uma obrigação para a ciência de dados. Aqui estão alguns dos principais conceitos que ajudam você a começar sua jornada de ciência de dados:

1. Probabilidade: Esta é a base para a Ciência de Dados. A teoria da probabilidade é bastante útil na formulação de previsões. Os dados são a base de todas as probabilidades e estatísticas.
2. Amostragem: A amostragem de dados é uma técnica de análise estatística que envolve selecionar, manipular e analisar uma seleção representativa de pontos de dados para encontrar padrões e tendências em uma coleção de dados maior.
3. Tendência e Distribuição de Dados: A distribuição de dados é um fator crucial. A importância de uma distribuição bem conhecida como a Distribuição Normal é enorme. Como resultado, determinar a distribuição e a assimetria dos dados é um conceito crítico.
4. Teste de Hipóteses: O Teste de Hipóteses identifica situações em que a ação deve ser feita ou não, dependendo dos resultados esperados.
5. Variações: Refere-se à distorção, erro e deslocamento nos dados.
6. Regressão: É fundamental para Data Science, pois auxilia no entendimento de soluções existentes, bem como na descoberta de novas inovações.

Como a Estatística é usada na Ciência de Dados?

Os Cientistas de Dados usam estatísticas para ajudar as empresas a tomar melhores decisões sobre produtos, projetar e interpretar testes, determinando os fatores que impulsionam as vendas, prevendo tendências e padrões de vendas. A representação visual de dados e desempenho de algoritmos ajuda a encontrar discrepâncias, padrões triviais específicos e resumo de métricas.