Anova Two Factor mit Replikation [mit Vergleich]
Veröffentlicht: 2020-09-18Inhaltsverzeichnis
Einführung
Die Varianzanalyse oder kurz Anova ist eine Technik zum Verständnis der Varianz von Variablen. Es ermöglicht zu berechnen, wie stark eine bestimmte Variable das Endergebnis beeinflusst. Die Anova-Technik tut dies, indem sie die Nullhypothese eliminiert oder bestätigt. Eine Nullhypothese bedeutet, dass zwischen den beiden beobachteten Entitäten überhaupt keine Beziehung besteht. Wenn es beispielsweise zwei Variablen A und B gibt, sagen wir, dass eine Nullhypothese zwischen A und B gilt, wenn eine Änderung von A die Ergebnisse von B nicht beeinflusst und umgekehrt.
Bevor wir auf die Details von Anova two-factor with replication eingehen , lassen Sie uns zuerst das grundlegende Konzept von Anova besprechen.
Konzept
Anova ist ein statistisches Konzept, und keine Statistik funktioniert ohne Zahlen. Anova benötigt eine bestimmte Zahl, durch die es die Nullhypothese analysieren kann, die wir zu Beginn der Analyse stellen. Die drei kritischen Werte für diese Berechnung sind F-Verhältnisse und F-kritisch, mit einigen Signifikanzwerten. Hier werden wir jetzt nicht viel auf die detaillierte mathematische Berechnung eingehen, aber wir werden die konzeptionellen Teile mit Beispielen ansprechen.
Die Signifikanz einer bestimmten Variablen oder Entität wird berechnet, indem die Werte mit der Gesamtauswirkung auf den Zielwert verglichen werden. Zum Beispiel wird die Signifikanz von X mehr auf A liegen, wenn selbst eine kleine Änderung von X eine Änderung des Werts von A beeinflussen kann. Die F-Verhältnisse werden aus der mittleren Summe der Quadrate einer Entität und der mittleren Summe der Quadrate der Residuen berechnet. Die mittlere Summe der Quadrate wird berechnet, indem die mittlere Summe der Quadrate durch den Freiheitsgrad dividiert wird. Der Freiheitsgrad ist die Anzahl der möglichen Fälle der nominalen Variablen minus eins.
F kritisch basiert auf den Signifikanzwerten. F-Verhältnisse werden manuell durch den oben erläuterten Prozess berechnet. Die Gültigkeit der Hypothese hängt von den Werten von F Ratios und F kritisch ab. Hier sind die Fälle:
· Wenn F-kritisch > F-Verhältnis, dann gilt die Hypothese, und es gibt keine Beziehung zwischen den beobachteten Variablen
· Wenn F-kritisch < F-Verhältnis, dann kann die Hypothese für ungültig erklärt werden und stützt wiederum die Idee, dass sich die Variablen gegenseitig beeinflussen.
Lesen Sie: Top 10 der bestbezahlten Data Science-Jobs in Indien
Unterschied zwischen Einweg und Zweiweg
Wie bereits erwähnt, diskutieren wir hier das Konzept von Anova-Zwei-Faktor mit Replikation . Aber was genau ist der Unterschied zwischen Ein-Faktor und Zwei-Faktor? Anova One-Factor behandelt nur eine nominale Variable (eine Variable, die zwei oder mehr Klassen oder Kategorien hat, aber die Reihenfolge der Kategorien ist nicht entscheidend. Zum Beispiel ist das Geschlecht eine nominale Variable mit den Klassen männlich und weiblich).
Lernen Sie Data-Science-Zertifizierungskurse von den besten Universitäten der Welt kennen. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.
Anova Two Factor befasst sich jedoch mit zwei nominalen Variablen. Da die Variablen weniger sind, ändert sich auch die Anzahl der Nullhypothesen in beiden Analysearten. Die Hypothesen in der Zweiweg-Anova lauten wie folgt:
· Das Mittel der Beobachtung durch eine Variable ist das gleiche. Das heißt, Variable eins beeinflusst den Zielwert in keiner Weise.
· Das Beobachtungsmittel der anderen Variablen ist das gleiche. Das heißt, Variable zwei beeinflusst den Zielwert in keiner Weise.
· Es gibt keine Wechselwirkung zwischen der Variablen eins und der Variablen zwei.
Bei der Einweg-Anova gibt es eine Nullhypothese und eine Alternativhypothese. Erstens ist der Mittelwert der Variablen derselbe, und zweitens ist der Mittelwert der anderen Variablen derselbe.
Um es klarer zu verstehen, nehmen wir die Hilfe eines Beispiels.
Beispiel 1
SID | Hohes Rauschen | SID | Mittleres Rauschen | SID | Wenig Lärm |
S1 | 23 | S5 | 23 | S9 | 39 |
S2 | 45 | S6 | 64 | S10 | 43 |
S3 | 34 | S7 | 73 | S11 | 26 |
S4 | 46 | S8 | 48 | S12 | 11 |
Die Tabelle zeigt die Noten verschiedener Schüler bei unterschiedlichen Geräuschen. Bei einer Einweg-Anova ist nur eine nominale Variable vorhanden. Die Nenngröße ist hier das Rauschen. Die Hypothese versucht also zu überprüfen, ob Lärm einen signifikanten Einfluss auf die Noten der Schüler hat oder nicht.

Nehmen wir eine andere Tabelle:
Student | Hohes Rauschen | Mittleres Rauschen | Wenig Lärm |
Männlich | 13 | 24 | 29 |
12 | 23 | 45 | |
11 | 32 | 33 | |
4 | 11 | 33 | |
Weiblich | 16 | 17 | 56 |
12 | 24 | 34 | |
8 | 23 | 23 | |
3 | 29 | 67 |
In dieser Tabelle werden nun die Noten mit Kategorien von Schülern angezeigt. Daher haben wir zwei nominale Variablen, das Geschlecht des Schülers und den Geräuschpegel. Hier kann es eine Zwei-Faktoren-Analyse geben, die anhand von drei Hypothesen durchgeführt wird.
Aber was genau ist nun mit Anova-Zwei-Faktor mit Replikation gemeint ?
Lesen Sie auch: Ideen für Data Science-Projekte
Unterschied zwischen mit Replikation und ohne Replikation
Der grundlegende Unterschied zwischen Anova Zwei-Faktor mit Replikation und ohne Replikation besteht darin, dass die Stichprobengröße unterschiedlich ist. Bei der Technik mit Replikation ist die Gesamtzahl der Proben weitgehend einheitlich. Wenn dies der Fall ist, werden die Mittel unabhängig berechnet. Diese Art von Daten wird auch als ausgeglichene Daten bezeichnet. Aber wenn die Stichprobengröße nicht einheitlich ist, ist die Analyse schwierig. Es ist besser, die Probengröße einheitlich zu halten, um schnellere Ergebnisse zu erhalten.
Bei der Technik ohne Replikation beträgt die Stichprobenbeobachtungsgröße eins. Das bedeutet, dass es für jede Kombination nominaler Variablen nur eine einzige Beobachtung gibt. Hier kann die Analyse unter Verwendung der Mittelwerte sowohl der Variablen als auch des Gesamtmittelwerts durchgeführt werden, wenn jede Beobachtung als einzelnes Cluster betrachtet wird. Das F-Verhältnis kann dann aus dem Restmittelwert und dem Gesamtmittelwert berechnet werden.
Schauen Sie sich an: Top 12 Python-Bibliotheken für Data Science
Fazit
So funktioniert also Anova Zwei-Faktor mit Replikation . Es gibt viele solcher Konzepte in der Statistik, bei denen die Berechnung schwierig erscheint, aber die Dinge einfacher werden, wenn konzeptionelle Klarheit besteht. Wir haben diskutiert, was mit Anova gemeint ist, das Konzept, Zwei-Wege-Anova, und die Replikationskriterien. Wir hoffen, dass der Artikel genügend Details über die Zwei-Faktor-Arbeitsweise von Anova mit Replikation geliefert hat, damit Sie es selbst ausprobieren können.
Wenn Sie neugierig sind, etwas über Data Science zu lernen, schauen Sie sich das Executive PG Program in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1 -on-1 mit Branchenmentoren, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.
Ist der t-Test derselbe wie der Anova?
Der t-Test untersucht, ob zwei Populationen statistisch verschieden sind, während der Anova testet, ob drei oder mehr Populationen statistisch unähnlich sind. Zum Vergleichen der Mittelwerte von zwei Gruppen wird der t-Test verwendet, aber der Anova wird verwendet, wenn die Mittelwerte von drei oder mehr Gruppen verglichen werden. In Anova besteht der erste Schritt darin, einen gemeinsamen P-Wert zu finden. Ein signifikanter P-Wert im Anova-Test zeigt an, dass der mittlere Unterschied zwischen mindestens einem Paar statistisch signifikant war.
Wie akzeptieren oder verwerfen Sie in Anova die Nullhypothese?
Die typische Interpretation ist, dass die Daten statistisch signifikant sind, wenn der p-Wert kleiner als das Signifikanzniveau ist, und Sie H 0 ablehnen. Wenn genügend Informationen vorhanden sind, um festzustellen, dass nicht alle Mittelwerte gleich sind, können wir die Nullhypothese ablehnen in Einweg-Anova.
Wie interpretieren Sie in Anova den F-Wert?
Die Signifikanz von F ist die Wahrscheinlichkeit, dass die Nullhypothese Ihres Regressionsmodells nicht abgelehnt werden kann. Anders ausgedrückt, es gibt die Wahrscheinlichkeit an, dass alle Koeffizienten in Ihrem Regressionsergebnis Null sind! Die Differenz zwischen zwei quadratischen Mittelwerten entspricht dem F-Verhältnis. Wenn die Nullhypothese richtig ist, sollte F die meiste Zeit nahe bei 1,0 liegen. Ein hohes F-Verhältnis impliziert, dass die mittlere Varianz der Gruppe höher ist, als zufällig erwartet würde.