Anova à deux facteurs avec réplication [avec comparaison]

Publié: 2020-09-18

Table des matières

introduction

L'analyse de variance ou Anova, pour faire court, est une technique de compréhension de la variance des variables. Il permet de calculer dans quelle mesure une variable particulière affecte le résultat final. La technique Anova le fait en éliminant ou en confirmant l'hypothèse nulle. Une hypothèse nulle signifie qu'il n'existe aucune relation entre les deux entités observées. Par exemple, s'il y a deux variables A et B, on dit qu'une hypothèse nulle entre A et B est vraie si un changement de A n'affectera pas les résultats de B et vice-versa.

Avant d'entrer dans les détails de l' Anova à deux facteurs avec réplication , abordons d'abord le concept de base de l'Anova.

Concept

Anova est un concept statistique, et aucune statistique ne tient sans chiffres. Anova nécessite un certain nombre à travers lequel il peut analyser l'hypothèse nulle que nous posons au début de l'analyse. Les trois valeurs critiques pour ce calcul sont les rapports F et F-critique, avec quelques valeurs significatives. Maintenant, ici, nous n'entrerons pas beaucoup dans le calcul mathématique détaillé, mais nous aborderons les parties conceptuelles avec des exemples.

L'importance d'une variable ou d'une entité particulière est calculée en comparant les valeurs avec l'impact global sur la valeur cible. Par exemple, la signification de X sera plus sur A, si même un petit changement de X peut affecter la modification de la valeur de A. Les ratios F sont calculés par la somme moyenne des carrés d'une entité et la somme moyenne des carrés des résidus. La somme moyenne des carrés est calculée en divisant la somme moyenne des carrés par le degré de liberté. Le degré de liberté est le nombre de cas possibles de la variable nominale, moins un.

F critique est basé sur les valeurs de signification. Les ratios F sont calculés manuellement via le processus expliqué ci-dessus. La validité de l'hypothèse dépend des valeurs de F ratios et de F critique. Voici les cas :

· Si le rapport F-critique > F, alors l'hypothèse tient et il n'y a pas de relation entre les variables observées

· Si le rapport F-critique < F, alors l'hypothèse peut être déclarée invalide et, à son tour, soutient l'idée que les variables s'influencent mutuellement.

Lire : Top 10 des emplois les plus rémunérateurs en science des données en Inde

Différence entre unidirectionnel et bidirectionnel

Comme mentionné, nous discutons ici du concept d' Anova à deux facteurs avec réplication . Mais quelle est exactement la différence entre un facteur et deux facteurs ? L'Anova à un facteur traite d'une seule variable nominale (Une variable qui a deux classes ou catégories ou plus, mais l'ordre des catégories n'est pas crucial. Par exemple, le sexe est une variable nominale avec des classes masculines et féminines).

Apprenez des cours de certification en science des données dans les meilleures universités du monde. Gagnez des programmes Executive PG, des programmes de certificat avancés ou des programmes de maîtrise pour accélérer votre carrière.

Cependant, l'Anova à deux facteurs traite de deux variables nominales. Comme les variables sont moins nombreuses, il y a aussi un changement dans le nombre d'hypothèses nulles dans les deux types d'analyse. Les hypothèses de l'Anova bidirectionnelle sont les suivantes :

· Les moyens d'observation par une variable sont les mêmes. Cela signifie que la variable un n'affecte en aucune façon la valeur cible.

· La moyenne d'observation par l'autre variable est la même. Cela signifie que la variable deux n'affecte en rien la valeur cible.

· Il n'y a pas d'interaction entre la variable un et la variable deux.

Dans l'Anova unidirectionnelle, il existe une hypothèse nulle et une hypothèse alternative. Premièrement, la moyenne par la variable est la même, et deuxièmement, la moyenne par l'autre variable est la même.

Pour mieux comprendre, prenons l'aide d'un exemple.

Exemple 1

SID Bruit élevé SID Bruit moyen SID Faible bruit
S1 23 S5 23 S9 39
S2 45 S6 64 S10 43
S3 34 S7 73 S11 26
S4 46 S8 48 S12 11

Le tableau montre les notes de différents élèves en présence d'une gamme différente de bruits. Dans une anova unidirectionnelle, il n'y a qu'une seule variable nominale. Ici, la variable nominale est le bruit. Ainsi, l'hypothèse tentera de vérifier si le bruit a un effet significatif sur les notes des élèves ou non.

Prenons un autre tableau :

Élève Bruit élevé Bruit moyen Faible bruit
Homme 13 24 29
12 23 45
11 32 33
4 11 33
Femme 16 17 56
12 24 34
8 23 23
3 29 67

Maintenant, dans ce tableau, les notes sont présentées avec des catégories d'étudiants. Nous avons donc deux variables nominales, le sexe de l'élève et le niveau de bruit. Ici, il peut y avoir une analyse à deux facteurs, qui sera effectuée en utilisant trois hypothèses.

Mais maintenant, qu'entend-on exactement par Anova à deux facteurs avec réplication ?

Lisez aussi : Idées de projets de science des données

Différence entre avec réplication et sans réplication

La différence fondamentale entre Anova à deux facteurs avec réplication et sans réplication est que la taille de l'échantillon est différente. Dans la technique avec réplication, le nombre total d'échantillons est le plus souvent uniforme. Si tel est le cas, les moyennes sont calculées indépendamment. Ce type de données est également connu sous le nom de données équilibrées. Mais si la taille de l'échantillon n'est pas uniforme, l'analyse est difficile. Il est préférable d'uniformiser la taille de l'échantillon pour obtenir des résultats plus rapides.

Dans la technique sans réplication, la taille d'observation de l'échantillon est de un. Cela signifie qu'il n'y a qu'une seule observation pour chaque combinaison de variables nominales. Ici, l'analyse peut être effectuée en utilisant les moyennes des variables ainsi que la moyenne totale en considérant chaque observation comme un seul groupe. Le rapport F peut alors être calculé par la moyenne du reste et la moyenne totale.

Découvrez : Top 12 des bibliothèques Python pour la science des données

Conclusion

C'est ainsi que fonctionne l' Anova à deux facteurs avec réplication . Il existe de nombreux concepts de ce type dans les statistiques où le calcul semble difficile, mais les choses deviennent plus simples s'il y a une clarté conceptuelle. Nous avons discuté de ce que l'on entend par Anova, du concept, de l'Anova bidirectionnelle et des critères de réplication. Nous espérons que l'article a fourni suffisamment de détails sur le fonctionnement à deux facteurs Anova avec réplication pour que vous puissiez l'essayer par vous-même.

Si vous êtes curieux d'en savoir plus sur la science des données, consultez le programme Executive PG en science des données de IIIT-B & upGrad qui est créé pour les professionnels en activité et propose plus de 10 études de cas et projets, des ateliers pratiques, un mentorat avec des experts de l'industrie, 1 -on-1 avec des mentors de l'industrie, plus de 400 heures d'apprentissage et d'aide à l'emploi avec les meilleures entreprises.

Le test t est-il le même que l'Anova ?

Le test t examine si deux populations sont statistiquement distinctes, tandis que l'Anova teste si trois populations ou plus sont statistiquement différentes. Pour comparer les moyennes de deux groupes, le test t est utilisé, mais l'Anova est utilisée pour comparer les moyennes de trois groupes ou plus. Dans Anova, la première étape consiste à trouver une valeur P commune. Une valeur P significative dans le test Anova indique que la différence moyenne entre au moins une paire était statistiquement significative.

Dans Anova, comment acceptez-vous ou rejetez-vous l'hypothèse nulle ?

L'interprétation typique est que les données sont statistiquement significatives lorsque la valeur p est inférieure au niveau de signification et que vous rejetez H 0. Lorsqu'il y a suffisamment d'informations pour identifier que toutes les moyennes ne sont pas égales, nous pouvons rejeter l'hypothèse nulle. en Anova unidirectionnelle.

Dans Anova, comment interprétez-vous la valeur F ?

La signification de F est la probabilité que l'hypothèse nulle de votre modèle de régression ne puisse pas être rejetée. Autrement dit, cela indique la probabilité que tous les coefficients de votre résultat de régression soient nuls ! La différence entre deux valeurs quadratiques moyennes équivaut au rapport F. Si l'hypothèse nulle est exacte, F devrait être proche de 1,0 la grande majorité du temps. Un rapport F élevé implique que la variance moyenne du groupe est supérieure à ce qui serait anticipé par hasard.