Distribuição de probabilidade: tipos de distribuições explicados

Publicados: 2020-12-16

Índice

Introdução à probabilidade e distribuição de probabilidade

Para entender a distribuição de probabilidade, vamos primeiro entender o que é probabilidade. Probabilidade é a medida da probabilidade de um evento ocorrer em um experimento. Em termos simples, ele nos diz qual é a probabilidade de o evento ocorrer. O valor da probabilidade de ocorrência de um evento varia de 0 (sendo menos provável) a 1 (sendo mais provável).

A distribuição de probabilidade é uma função que fornece as probabilidades de diferentes resultados para experimentação. Ele mostra os possíveis valores que uma variável aleatória pode assumir e com que frequência esses valores ocorrem.

Na distribuição de probabilidade, a soma de todas essas probabilidades sempre agrega 1. No domínio da ciência de dados, um dos usos da distribuição de probabilidade é para calcular intervalos de confiança e para calcular as regiões críticas nos testes de hipóteses.

Distribuições Contínuas e Discretas

O tipo de distribuição de probabilidade a ser usado depende se a variável contém valores discretos ou valores contínuos. Uma distribuição discreta pode receber apenas um conjunto limitado de valores, enquanto as distribuições contínuas podem receber qualquer valor dentro do intervalo especificado.

As distribuições contínuas são representadas em termos de densidade de probabilidade, pois pode haver infinitos valores em um determinado intervalo e a probabilidade de cada valor será zero. No caso de distribuição discreta, podemos obter uma probabilidade para cada valor, pois o número de valores é limitado.

Tipos de Distribuições - Distribuição Discreta

Distribuição binomial

É um tipo de distribuição em que o número de resultados em um único ensaio é de apenas dois. Cada tentativa é independente de outra; ou seja, o resultado de cada tentativa não tem impacto no resultado de outras tentativas. Os ensaios que são conduzidos neste experimento são idênticos entre si.

Assim, a probabilidade de sucesso e fracasso seria a mesma para cada tentativa. Por exemplo, se a probabilidade de sucesso de uma tentativa for 0,8 (o que significa que a probabilidade de falha seria 0,2), ela também será a mesma para o restante das tentativas .

Distribuição multinominal

Esta é a versão generalizada da distribuição binomial onde o número de resultados pode ser maior que dois. As outras propriedades desta distribuição são semelhantes às da distribuição binomial. Por exemplo, considere que quando um dado justo é lançado, a probabilidade de cada resultado será a mesma para todas as tentativas, pois essas tentativas são independentes umas das outras.

Distribuição de Bernoulli

Esta é outra variante da distribuição binomial. É um caso especial de distribuição Binomial onde o número de tentativas realizadas em um experimento é 1 (n = 1). Como há apenas uma tentativa, ela pode ser definida usando apenas um parâmetro (p) que geralmente é a probabilidade de sucesso.

Leia: Distribuição Binomial em Python

Distribuição Binomial Negativa

As seguintes condições em uma distribuição binomial negativa diferem da distribuição binomial: –

    • O número de tentativas realizadas em um experimento não é fixo.
    • A variável aleatória indica o número de tentativas necessárias para atingir um número desejado de sucessos.

Para distribuição binomial, a variável aleatória é o número de sucessos necessários, ou seja, focamos apenas no número de sucessos, não importa quantas trilhas falhem. Mas no caso do binomial negativo, ele se concentra em quantas tentativas serão necessárias para alcançar o número de sucessos, ou seja, o número de falhas (negativos) também é levado em consideração, por isso é chamado de distribuição binomial negativa.

O processo continua somente até que o número desejado de sucessos seja alcançado. Isso faz com que o número de tentativas para um experimento seja arbitrário. Também é chamada de Distribuição Pascal.

Distribuição de veneno

A distribuição de Poisson fornece a probabilidade de um número discreto de eventos ocorrerem em um período específico de tempo, desde que saibamos o número médio de eventos que ocorreram durante o mesmo período. Esses eventos ocorrem de forma independente e não têm efeito sobre outros eventos. Para implementar esta distribuição, assume-se que a taxa de ocorrência permanece constante ao longo do período de tempo.

Distribuição Uniforme Discreta

Na distribuição uniforme, as probabilidades de todos os resultados são iguais. Por exemplo, considere que quando um dado justo é lançado, a probabilidade de qualquer resultado variando de 1 a 6 será igual. A função de massa de probabilidade desta distribuição é 1/n onde n é o número total de valores discretos.

Tipos de Distribuições - Distribuição Contínua

Distribuição uniforme contínua

A uniformidade na distribuição também pode ser aplicada a valores contínuos. Indica que a distribuição de probabilidade é uniforme entre o intervalo especificado. Também é chamada de distribuição retangular devido à forma que assume quando plotada em um gráfico.

Distribuição normal

Uma distribuição normal (também conhecida como curva de sino) é um tipo de distribuição contínua que é simétrica em ambas as extremidades da média. Geralmente indica que metade das amostras está no lado esquerdo da média, enquanto a outra metade está no lado direito. Para uma distribuição normal, a média, a moda e a mediana são iguais.

Dados normalmente distribuídos geralmente seguem a regra empírica. A regra empírica mostra a dispersão dos dados em termos de desvio padrão e média da seguinte forma: –

    • 68% de probabilidade de que a variável aleatória caia dentro de 1 desvio padrão da média.
    • 95% de probabilidade de que a variável aleatória caia dentro de 2 desvios padrão da média.
    • 99,7% de probabilidade de que a variável aleatória caia dentro de 3 desvios padrão da média.

T – Distribuição

É semelhante a uma distribuição normal, mas tem uma probabilidade maior em relação aos valores extremos dos dados. Isso torna mais propenso a assumir valores que estão mais distantes da média. Quando plotada em um gráfico, a curva parece mais curta e mais grossa do que a curva de distribuição normal.

É preferível quando o número de amostras é menor em tamanho. Com o aumento do tamanho das amostras, a curva de distribuição t começa a parecer uma curva de distribuição normal. Como as fórmulas para distribuição normal e distribuição t são muito complexas e demoradas para calcular, calculamos os valores de Z-score e T-score, respectivamente.

Leia também: 13 ideias e tópicos interessantes de projetos de estrutura de dados para iniciantes

Chi – Distribuição Quadrada

A distribuição qui-quadrado é a distribuição da soma do quadrado das variáveis ​​aleatórias retiradas de uma distribuição normal. Os graus de liberdade utilizados nesta distribuição são iguais ao número de variáveis ​​retiradas da distribuição normal. A média de uma distribuição qui-quadrado é igual ao número de graus de liberdade.

Essa distribuição é amplamente utilizada no cálculo dos intervalos de confiança e no teste de hipóteses. É um caso específico de distribuição gama . Também é usado no teste do qui-quadrado que é o teste de qualidade do ajuste para distribuição observada que ajuda a indicar se os dados da amostra são uma boa representação de toda a população.

Conclusão

Este artigo forneceu uma visão geral de alguns exemplos de tipos de distribuições discretas e contínuas. Essas diferentes distribuições são usadas para atender a diferentes propósitos e cada uma tem suas próprias suposições.

Aprenda ML Course das melhores universidades do mundo. Ganhe Masters, Executive PGP ou Advanced Certificate Programs para acelerar sua carreira.

Embora em situações da vida real, as suposições dessas distribuições podem não ser cumpridas, mas essas distribuições ajudam na tomada de decisões importantes para a organização.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

O que distingue a distribuição binomial da distribuição normal?

Em uma distribuição binomial, não há pontos de dados entre quaisquer dois pontos de dados fornecidos. Isso contrasta fortemente com uma distribuição normal, que apresenta pontos de dados discretos. Uma distribuição normal não é discreta ao contrário da distribuição binomial. Uma distribuição binomial tem um número finito de ocorrências, enquanto uma distribuição normal tem um número infinito de ocorrências. Mesmo assim, se o tamanho da amostra for grande o suficiente, a forma da distribuição binomial será semelhante à da distribuição normal.

O que distingue a distribuição binomial da distribuição de Bernoulli?

O resultado de uma única tentativa de um evento é tratado pela distribuição de Bernoulli, mas o resultado de várias tentativas de um único evento é tratado pela distribuição binomial. Quando o resultado de um evento é requerido apenas uma vez, a distribuição de Bernoulli é aplicada, mas a distribuição Binomial é utilizada quando o resultado é requerido várias vezes.

Quando há incerteza, como podemos usar a distribuição de probabilidade?

Um espaço de probabilidade é uma representação de nossa incerteza sobre um experimento que inclui um espaço amostral de resultados possíveis e uma medida de probabilidade que estima a probabilidade de cada evento. Na análise de incerteza, a distribuição retangular é a distribuição de probabilidade mais amplamente empregada. Todos os resultados são igualmente prováveis ​​de ocorrer em uma distribuição retangular. Você terá que dividir seus valores pela raiz quadrada de 3 para converter seus contribuintes de incerteza em equivalentes de desvio padrão.