Anova Two Factor com Replicação [Com Comparação]
Publicados: 2020-09-18Índice
Introdução
Análise de Variância ou Anova, para abreviar, é uma técnica de compreensão da variância das variáveis. Permite calcular o quanto uma determinada variável afeta o resultado final. A técnica Anova faz isso eliminando ou confirmando a hipótese nula. Uma hipótese nula significa que não existe nenhuma relação entre as duas entidades sob observação. Por exemplo, se existem duas variáveis A e B, dizemos que uma hipótese nula entre A e B é válida se uma mudança em A não afetar os resultados de B e vice-versa.
Antes de entrar nos detalhes do Anova de dois fatores com replicação , vamos primeiro discutir o conceito básico de Anova.
Conceito
Anova é um conceito estatístico, e nenhuma estatística é válida sem números. Anova requer um certo número através do qual pode analisar a hipótese nula que colocamos no início da análise. Os três valores críticos para este cálculo são as razões F e F-crítico, com alguns valores de significância. Agora aqui não entraremos muito na computação matemática detalhada, mas abordaremos as partes conceituais com exemplos.
A significância de uma determinada variável ou entidade é calculada comparando os valores com o impacto geral no valor alvo. Por exemplo, a significância de X estará mais em A, se mesmo uma pequena mudança em X puder afetar a mudança do valor de A. As razões F são calculadas pela soma média dos quadrados de uma entidade e a soma média dos quadrados dos resíduos. A soma média dos quadrados é calculada dividindo a soma média dos quadrados pelo grau de liberdade. O grau de liberdade é o número de casos possíveis da variável nominal, menos um.
F crítico é baseado nos valores de significância. As razões F são calculadas manualmente através do processo explicado acima. A validade da hipótese é dependente dos valores das razões F e F crítico. Aqui estão os casos:
· Se a razão F-crítico > F, então a hipótese é válida e não há relação entre as variáveis observadas
· Se a razão F-crítica < F, então a hipótese pode ser declarada inválida e, por sua vez, suporta a ideia de que as variáveis afetam umas às outras.
Leia: Os 10 empregos mais bem pagos em ciência de dados na Índia
Diferença entre unidirecional e bidirecional
Como mencionado, aqui, discutimos o conceito de Anova de dois fatores com replicação . Mas qual é exatamente a diferença entre um fator e dois fatores? Anova one-factor lida com apenas uma variável nominal (uma variável que tem duas ou mais classes ou categorias, mas a ordem das categorias não é crucial. Por exemplo, gênero é uma variável nominal com classes masculino e feminino).
Aprenda cursos de certificação em ciência de dados das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.
No entanto, Anova de dois fatores lida com duas variáveis nominais. Como as variáveis são menores, há também uma mudança no número de hipóteses nulas em ambos os tipos de análise. As hipóteses no Anova bidirecional são as seguintes:
· A média de observação por uma variável é a mesma. Ou seja, a variável um não afeta o valor alvo de forma alguma.
· A média de observação pela outra variável é a mesma. Ou seja, a variável dois não afeta o valor alvo de forma alguma.
· Não há interação entre a variável um e a variável dois.
Na Anova unidirecional, existe uma hipótese nula e uma hipótese alternativa. Primeiro, as médias da variável são as mesmas e, em segundo lugar, as médias da outra variável são as mesmas.
Para entender mais claramente, tomemos a ajuda de um exemplo.
Exemplo 1
| SID | Alto ruído | SID | Ruído Médio | SID | Barulho baixo |
| S1 | 23 | S5 | 23 | S9 | 39 |
| S2 | 45 | S6 | 64 | S10 | 43 |
| S3 | 34 | S7 | 73 | S11 | 26 |
| S4 | 46 | S8 | 48 | S12 | 11 |
A tabela mostra as notas de diferentes alunos na presença de uma gama diferente de ruídos. Em uma anova unidirecional, há apenas uma variável nominal. Aqui, a variável nominal é o ruído. Assim, a hipótese tentará verificar se o ruído tem um efeito significativo nas notas dos alunos ou não.

Tomemos outra tabela:
| Aluna | Alto ruído | Ruído Médio | Barulho baixo |
| Macho | 13 | 24 | 29 |
| 12 | 23 | 45 | |
| 11 | 32 | 33 | |
| 4 | 11 | 33 | |
| Fêmea | 16 | 17 | 56 |
| 12 | 24 | 34 | |
| 8 | 23 | 23 | |
| 3 | 29 | 67 |
Agora nesta tabela, as notas são mostradas com categorias de alunos. Assim, temos duas variáveis nominais, o sexo do aluno e o nível de ruído. Aqui, pode haver análise de dois fatores, que será feita usando três hipóteses.
Mas agora o que exatamente se entende por Anova de dois fatores com replicação ?
Leia também: Ideias de projetos de ciência de dados
Diferença entre replicação com e sem replicação
A diferença fundamental entre Anova de dois fatores com replicação e sem replicação é que o tamanho da amostra é diferente. Na técnica com replicação, o número total de amostras é praticamente uniforme. Se for esse o caso, as médias são calculadas independentemente. Este tipo de dados também é conhecido como dados balanceados. Mas se o tamanho da amostra não for uniforme, a análise é difícil. É melhor obter o tamanho da amostra uniforme para obter resultados mais rápidos.
Na técnica sem replicação, o tamanho da observação da amostra é um. Isso significa que há apenas uma única observação para cada combinação de variáveis nominais. Aqui, a análise pode ser feita usando as médias de ambas as variáveis, bem como a média total de considerar cada observação como um único cluster. A razão F pode então ser calculada pela média restante e pela média total.
Confira: As 12 principais bibliotecas Python para ciência de dados
Conclusão
Então, é assim que funciona o Anova de dois fatores com replicação . Existem muitos desses conceitos em estatística onde o cálculo parece difícil, mas as coisas ficam mais simples se houver clareza conceitual. Discutimos o que significa Anova, o conceito, Anova bidirecional e os critérios de replicação. Esperamos que o artigo tenha fornecido detalhes suficientes sobre o funcionamento de dois fatores da Anova com replicação para você experimentar por conta própria.
Se você está curioso para aprender sobre ciência de dados, confira o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1 -on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.
O teste t é o mesmo que o Anova?
O teste t examina se duas populações são estatisticamente distintas, enquanto o Anova testa se três ou mais populações são estatisticamente diferentes. Para comparar as médias de dois grupos, é utilizado o teste t, mas o Anova é utilizado quando se comparam as médias de três ou mais grupos. Na Anova, o primeiro passo é encontrar um valor P comum. Um valor P significativo no teste Anova indica que a diferença média entre pelo menos um par foi estatisticamente significativa.
Em Anova, como você aceita ou rejeita a hipótese nula?
A interpretação típica é que os dados são estatisticamente significativos quando o valor de p é menor que o nível de significância e você rejeita H 0. Quando há informações suficientes para identificar que nem todas as médias são iguais, podemos rejeitar a hipótese nula em Anova de sentido único.
Na Anova, como você interpreta o valor F?
A significância de F é a probabilidade de que a hipótese nula do seu modelo de regressão não possa ser rejeitada. Em outras palavras, indica a probabilidade de que todos os coeficientes no resultado da regressão sejam zero! A diferença entre dois valores quadrados médios é equivalente à razão F. Se a hipótese nula estiver correta, F deve estar próximo de 1,0 na grande maioria das vezes. Uma razão F alta implica que a variância média do grupo é maior do que seria antecipado por acaso.
