Anova de dos factores con replicación [con comparación]

Publicado: 2020-09-18

Tabla de contenido

Introducción

El análisis de varianza o Anova, para abreviar, es una técnica para comprender la varianza de las variables. Permite calcular cuánto afecta una determinada variable al resultado final. La técnica Anova hace esto eliminando o confirmando la hipótesis nula. Una hipótesis nula significa que no existe ninguna relación entre las dos entidades bajo observación. Por ejemplo, si hay dos variables A y B, decimos que una hipótesis nula entre A y B se cumple si un cambio en A no afectará los resultados de B y viceversa.

Antes de entrar en los detalles de Anova de dos factores con replicación , analicemos primero el concepto básico de Anova.

Concepto

Anova es un concepto estadístico, y ninguna estadística se sostiene sin números. Anova requiere un número determinado a través del cual pueda analizar la hipótesis nula que planteamos al inicio del análisis. Los tres valores críticos para este cálculo son las relaciones F y F-crítico, con algunos valores significativos. Ahora bien, aquí no entraremos mucho en el cálculo matemático detallado, pero abordaremos las partes conceptuales con ejemplos.

La importancia de una variable o entidad en particular se calcula comparando los valores con el impacto general en el valor objetivo. Por ejemplo, la importancia de X estará más en A, si incluso un pequeño cambio en X puede afectar el cambio del valor de A. Las proporciones F se calculan mediante la suma media de los cuadrados de una entidad y la suma media de los cuadrados de los residuos. La suma media de los cuadrados se calcula dividiendo la suma media de los cuadrados por el grado de libertad. El grado de libertad es el número de casos posibles de la variable nominal, menos uno.

F crítico se basa en los valores de significación. Las relaciones F se calculan manualmente a través del proceso explicado anteriormente. La validez de la hipótesis depende de los valores de F cocientes y F crítica. Estos son los casos:

· Si la relación F-crítica > F, entonces la hipótesis se cumple y no hay relación entre las variables bajo observación

· Si la F-crítica < F ratio, entonces la hipótesis puede declararse inválida y, a su vez, apoya la idea de que las variables se afectan entre sí.

Leer: Los 10 trabajos de ciencia de datos mejor pagados en India

Diferencia entre unidireccional y bidireccional

Como se mencionó, aquí discutimos el concepto de Anova de dos factores con replicación . Pero, ¿cuál es exactamente la diferencia entre un factor y dos factores? Anova de un factor trata solo con una variable nominal (una variable que tiene dos o más clases o categorías, pero el orden de las categorías no es crucial. Por ejemplo, el género es una variable nominal con clases masculinas y femeninas).

Aprenda cursos de certificación de ciencia de datos de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.

Sin embargo, Anova de dos factores trata con dos variables nominales. Como las variables son menores, también hay un cambio en el número de hipótesis nulas en ambos tipos de análisis. Las hipótesis en Anova de dos vías son las siguientes:

· El medio de observación por una variable es el mismo. Es decir, la variable uno no afecta el valor objetivo de ninguna manera.

· El medio de observación por la otra variable es el mismo. Es decir, la variable dos no afecta el valor objetivo de ninguna manera.

· No hay interacción entre la variable uno y la variable dos.

En Anova unidireccional, hay una hipótesis nula y una hipótesis alternativa. Primero, la media de la variable es la misma, y ​​segundo, la media de la otra variable es la misma.

Para entender más claramente, tomemos la ayuda de un ejemplo.

Ejemplo 1

S.I.D. Alto Ruido S.I.D. Ruido medio S.I.D. Ruido bajo
S1 23 S5 23 S9 39
S2 45 S6 64 S10 43
S3 34 S7 73 S11 26
S4 46 S8 48 S12 11

La tabla muestra las calificaciones de diferentes estudiantes en presencia de una gama diferente de ruidos. En un anova unidireccional, solo hay una variable nominal. Aquí, la variable nominal es el ruido. Así pues, la hipótesis intentará comprobar si el ruido tiene un efecto significativo en las notas de los alumnos o no.

Tomemos otra tabla:

Estudiante Alto Ruido Ruido medio Ruido bajo
Masculino 13 24 29
12 23 45
11 32 33
4 11 33
Mujer dieciséis 17 56
12 24 34
8 23 23
3 29 67

Ahora en esta tabla, las notas se muestran con categorías de estudiantes. Por lo tanto, tenemos dos variables nominales, el género del estudiante y el nivel de ruido. Aquí, puede haber un análisis de dos factores, que se realizará utilizando tres hipótesis.

Pero ahora, ¿qué significa exactamente Anova de dos factores con replicación ?

Lea también: Ideas de proyectos de ciencia de datos

Diferencia entre con replicación y sin replicación

La diferencia fundamental entre Anova de dos factores con replicación y sin replicación es que el tamaño de la muestra es diferente. En la técnica con replicación, el número total de muestras es mayoritariamente uniforme. Si ese es el caso, las medias se calculan de forma independiente. Este tipo de datos también se conocen como datos equilibrados. Pero si el tamaño de la muestra no es uniforme, el análisis es difícil. Es mejor obtener un tamaño de muestra uniforme para obtener resultados más rápidos.

En la técnica sin replicación, el tamaño de observación de la muestra es uno. Significa que solo hay una única observación para cada combinación de variables nominales. Aquí, el análisis se puede realizar utilizando las medias de ambas variables, así como la media total de considerar cada observación como un solo grupo. Entonces, la relación F se puede calcular mediante la media restante y la media total.

Consulte: Las 12 principales bibliotecas de Python para la ciencia de datos

Conclusión

Entonces, así es como funciona Anova de dos factores con replicación . Hay muchos conceptos de este tipo en estadística donde el cálculo parece difícil, pero las cosas se simplifican si hay claridad conceptual. Hablamos de lo que significa Anova, el concepto, Anova bidireccional y los criterios de replicación. Esperamos que el artículo haya proporcionado suficientes detalles sobre el funcionamiento de dos factores de Anova con replicación para que pueda probarlo por su cuenta.

Si tiene curiosidad por aprender sobre ciencia de datos, consulte el Programa ejecutivo PG en ciencia de datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1 -on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.

¿Es la prueba t lo mismo que el Anova?

La prueba t examina si dos poblaciones son estadísticamente distintas, mientras que Anova prueba si tres o más poblaciones son estadísticamente diferentes. Para comparar las medias de dos grupos, se emplea la prueba t, pero el Anova se usa cuando se comparan las medias de tres o más grupos. En Anova, el primer paso es encontrar un valor P común. Un valor de P significativo en la prueba de Anova indica que la diferencia media entre al menos un par fue estadísticamente significativa.

En Anova, ¿cómo acepta o rechaza la hipótesis nula?

La interpretación típica es que los datos son estadísticamente significativos cuando el valor p es menor que el nivel de significancia y se rechaza H 0. Cuando hay suficiente información para identificar que no todas las medias son iguales, podemos rechazar la hipótesis nula en Anova unidireccional.

En Anova, ¿cómo interpretas el valor F?

La importancia de F es la probabilidad de que no se pueda rechazar la hipótesis nula de su modelo de regresión. Para decirlo de otra manera, ¡indica la probabilidad de que todos los coeficientes en el resultado de su regresión sean cero! La diferencia entre dos valores cuadráticos medios es equivalente a la relación F. Si la hipótesis nula es precisa, F debería estar cerca de 1,0 la gran mayoría de las veces. Una relación F alta implica que la varianza media del grupo es más alta de lo que se esperaría por casualidad.