Distribución de probabilidad: Explicación de los tipos de distribuciones

Publicado: 2020-12-16

Tabla de contenido

Introducción a la probabilidad y distribución de probabilidad

Para entender la distribución de probabilidad, primero entendamos qué es la probabilidad. La probabilidad es la medida de la probabilidad de que ocurra un evento en un experimento. En términos simples, nos dice qué tan probable es que ocurra el evento. El valor de la probabilidad de que ocurra un evento varía de 0 (siendo el menos probable) a 1 (siendo el más probable).

La distribución de probabilidad es una función que proporciona las probabilidades de diferentes resultados para la experimentación. Muestra los posibles valores que puede tomar una variable aleatoria y con qué frecuencia ocurren estos valores.

En la distribución de probabilidad, la suma de todas estas probabilidades siempre se suma a 1. En el dominio de la ciencia de datos, uno de los usos de la distribución de probabilidad es para calcular los intervalos de confianza y para calcular las regiones críticas en las pruebas de hipótesis.

Distribuciones continuas y discretas

El tipo de distribución de probabilidad a utilizar depende de si la variable contiene valores discretos o valores continuos. Una distribución discreta solo puede tomar un conjunto limitado de valores, mientras que las distribuciones continuas pueden tomar cualquier valor dentro del rango especificado.

Las distribuciones continuas se representan en términos de densidad de probabilidad ya que puede haber infinitos valores en un cierto rango y la probabilidad de cada valor será cero. En el caso de distribución discreta, podemos obtener una probabilidad para cada valor ya que el número de valores es limitado.

Tipos de Distribuciones – Distribución Discreta

Distribución binomial

Es un tipo de distribución donde el número de resultados en un solo ensayo es solo dos. Cada prueba es independiente de otra prueba; es decir, el resultado de cada juicio no tiene impacto en el resultado de otros juicios. Los ensayos que se llevan a cabo en este experimento son idénticos entre sí.

Por lo tanto, la probabilidad de éxito y fracaso sería la misma para cada ensayo. Por ejemplo, si la probabilidad de éxito de una prueba es de 0,8 (lo que significa que la probabilidad de fracaso sería de 0,2), entonces será la misma para el resto de las pruebas .

Distribución multinominal

Esta es la versión generalizada de distribución binomial donde el número de resultados puede ser mayor que dos. Las otras propiedades de esta distribución son similares a las de la distribución binomial. Por ejemplo, considere que cuando se lanza un dado justo, la probabilidad de cada resultado será la misma para todas las pruebas, ya que estas pruebas son independientes entre sí.

Distribución de Bernoulli

Esta es otra variante de la distribución Binomial. Es un caso especial de distribución binomial donde el número de intentos realizados en un experimento es 1 (n = 1). Como solo hay una prueba, se puede definir usando solo un parámetro (p) que generalmente es la probabilidad de éxito.

Leer: Distribución binomial en Python

Distribución Binomial Negativa

Las siguientes condiciones en una distribución binomial negativa difieren de la distribución binomial: –

    • El número de intentos realizados en un experimento no es fijo.
    • La variable aleatoria indica el número de intentos necesarios para alcanzar el número deseado de éxitos.

Para la distribución binomial, la variable aleatoria es el número de éxitos requeridos, es decir, nos enfocamos solo en el número de éxitos sin importar cuántos intentos fallen. Pero en el caso de la binomial negativa, se enfoca en cuántos ensayos se requerirán para lograr la cantidad de éxitos, es decir, la cantidad de fallas (negativas) también se tiene en cuenta, por lo que se denomina distribución binomial negativa.

El proceso continúa solo hasta que se haya alcanzado el número deseado de éxitos. Esto hace que el número de intentos de un experimento sea arbitrario. También se llama Distribución Pascal.

Distribución de veneno

La distribución de Poisson proporciona la probabilidad de que ocurra un número discreto de eventos en un período de tiempo específico, siempre que conozcamos el número promedio de eventos que ocurrieron durante el mismo período. Estos eventos ocurren de forma independiente y no tienen efecto sobre otros eventos. Para implementar esta distribución, se supone que la tasa de ocurrencia permanece constante durante el período de tiempo.

Distribución Uniforme Discreta

En una distribución uniforme, las probabilidades de todos los resultados son iguales. Por ejemplo, considere que cuando se lanza un dado justo, la probabilidad de cualquier resultado que varíe de 1 a 6 será igual. La función de masa de probabilidad de esta distribución es 1/n donde n es el número total de valores discretos.

Tipos de Distribuciones – Distribución Continua

Distribución Uniforme Continua

La uniformidad en la distribución también se puede aplicar a valores continuos. Indica que la distribución de probabilidad es uniforme entre el rango especificado. También se le llama distribución rectangular debido a la forma que toma cuando se traza en un gráfico.

Distribución normal

Una distribución normal (también conocida como curva de campana) es un tipo de distribución continua que es simétrica desde ambos extremos de la media. Generalmente indica que la mitad de las muestras se encuentran en el lado izquierdo de la media, mientras que la otra mitad se encuentra en el lado derecho. Para una distribución normal, la media, la moda y la mediana son iguales.

Los datos normalmente distribuidos generalmente siguen la regla empírica. La regla empírica muestra la dispersión de los datos en términos de desviación estándar y media de la siguiente manera: –

    • 68% de probabilidad de que la variable aleatoria se encuentre dentro de 1 desviación estándar de la media.
    • 95% de probabilidad de que la variable aleatoria se encuentre dentro de 2 desviaciones estándar de la media.
    • 99,7% de probabilidad de que la variable aleatoria se encuentre dentro de las 3 desviaciones estándar de la media.

T – Distribución

Es similar a una distribución normal, pero tiene una mayor probabilidad hacia los valores extremos de los datos. Esto lo hace más propenso a tomar valores más alejados de la media. Cuando se representa en un gráfico, la curva parece más corta y gruesa que la curva de distribución normal.

Se prefiere cuando el número de muestras es de menor tamaño. Con el aumento del tamaño de las muestras, la curva de distribución t comienza a parecerse a una curva de distribución normal. Dado que las fórmulas para la distribución normal y la distribución t son muy complejas y requieren mucho tiempo de cálculo, calculamos los valores de Z-score y T-score respectivamente.

Lea también: 13 interesantes ideas y temas de proyectos de estructura de datos para principiantes

Chi – Distribución cuadrada

La distribución Chi-cuadrado es la distribución de la suma del cuadrado de las variables aleatorias tomadas de una distribución normal. Los grados de libertad utilizados en esta distribución son iguales al número de variables tomadas de la distribución normal. La media de una distribución de chi-cuadrado es igual al número de grados de libertad.

Esta distribución es ampliamente utilizada en el cálculo de los intervalos de confianza y en la prueba de hipótesis. Es un caso específico de distribución gamma . También se utiliza en la prueba de chi-cuadrado, que es la prueba de bondad de ajuste para la distribución observada, que ayuda a indicar si los datos de la muestra son una buena representación de toda la población.

Conclusión

Este artículo ofrece una descripción general de algunos ejemplos de tipos de distribuciones discretas y continuas. Estas diferentes distribuciones se utilizan para diferentes propósitos, y cada una tiene sus propios supuestos.

Aprenda el curso ML de las mejores universidades del mundo. Obtenga programas de maestría, PGP ejecutivo o certificado avanzado para acelerar su carrera.

Aunque en situaciones de la vida real, los supuestos de estas distribuciones pueden no cumplirse, pero estas distribuciones ayudan a tomar decisiones importantes para la organización.

Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿Qué distingue a la distribución binomial de la distribución normal?

En una distribución binomial, no hay puntos de datos entre dos puntos de datos dados. Esto está en marcado contraste con una distribución normal, que presenta puntos de datos discretos. Una distribución normal no es discreta a diferencia de la distribución binomial. Una distribución binomial tiene un número finito de ocurrencias, mientras que una distribución normal tiene un número infinito de ocurrencias. Incluso entonces, si el tamaño de la muestra es lo suficientemente grande, la forma de la distribución binomial se parecerá a la de la distribución normal.

¿Qué distingue a la distribución binomial de la distribución de Bernoulli?

El resultado de una sola prueba de un evento se trata con la distribución de Bernoulli, pero el resultado de varias pruebas de un solo evento se trata con la distribución Binomial. Cuando el resultado de un evento se requiere una sola vez, se aplica la distribución de Bernoulli, pero se utiliza la distribución Binomial cuando el resultado se requiere varias veces.

Cuando hay incertidumbre, ¿cómo podemos usar la distribución de probabilidad?

Un espacio de probabilidad es una representación de nuestra incertidumbre acerca de un experimento que incluye un espacio de muestra de posibles resultados y una medida de probabilidad que estima la probabilidad de cada evento. En el análisis de incertidumbre, la distribución rectangular es la distribución de probabilidad más utilizada. Todos los resultados tienen la misma probabilidad de ocurrir en una distribución rectangular. Tendrá que dividir sus valores por la raíz cuadrada de 3 para convertir sus contribuyentes de incertidumbre en equivalentes de desviación estándar.