Anova doi factori cu replicare [cu comparație]
Publicat: 2020-09-18Cuprins
Introducere
Analiza varianței sau Anova, pe scurt, este o tehnică de înțelegere a varianței variabilelor. Face posibilă calcularea cât de mult afectează o anumită variabilă rezultatul final. Tehnica Anova face acest lucru prin eliminarea sau confirmarea ipotezei nule. O ipoteză nulă înseamnă că nu există nicio relație între cele două entități sub observație. De exemplu, dacă există două variabile A și B, spunem că o ipoteză nulă între A și B este valabilă dacă o modificare a lui A nu va afecta rezultatele lui B și invers.
Înainte de a intra în detaliile Anova cu doi factori cu replicare , să discutăm mai întâi conceptul de bază al Anova.
Concept
Anova este un concept statistic și nicio statistică nu este valabilă fără numere. Anova necesită un anumit număr prin care să poată analiza ipoteza nulă pe care o propunem la începutul analizei. Cele trei valori critice pentru acest calcul sunt rapoartele F și F-critice, cu unele valori semnificative. Acum, aici nu vom intra prea mult în calculul matematic detaliat, dar vom aborda părțile conceptuale cu exemple.
Semnificația unei anumite variabile sau entități este calculată prin compararea valorilor cu impactul general asupra valorii țintă. De exemplu, semnificația lui X va fi mai mult pe A, dacă chiar și o mică modificare a lui X poate afecta modificarea valorii lui A. Rapoartele F sunt calculate prin Suma medie a pătratelor unei entități și suma medie a pătratelor reziduale. Suma medie a pătratelor se calculează împărțind suma medie a pătratelor la gradul de libertate. Gradul de libertate este numărul de cazuri posibile ale variabilei nominale, minus unu.
F critic se bazează pe valorile de semnificație. Rapoartele F sunt calculate manual prin procesul explicat mai sus. Valabilitatea ipotezei depinde de valorile raporturilor F și F critic. Iată cazurile:
· Dacă raportul F-critic > F, atunci ipoteza este valabilă și nu există nicio relație între variabilele observate
· Dacă raportul F-critic < F, atunci ipoteza poate fi declarată invalidă și, la rândul său, susține ideea că variabilele se afectează reciproc.
Citiți: Top 10 cele mai bine plătite locuri de muncă în domeniul științei datelor din India
Diferența dintre un singur sens și două sensuri
După cum am menționat, aici, discutăm despre conceptul Anova cu doi factori cu replicare . Dar care este exact diferența dintre un factor și doi factori? Anova cu un singur factor se ocupă de o singură variabilă nominală (O variabilă care are două sau mai multe clase sau categorii, dar ordinea categoriilor nu este crucială. De exemplu, genul este o variabilă nominală cu clasele masculin și feminin).
Învață cursuri de certificare în știința datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.
Cu toate acestea, Anova cu doi factori se ocupă de două variabile nominale. Întrucât variabilele sunt mai puține, există și o modificare a numărului ipotezei nule în ambele tipuri de analiză. Ipotezele în Anova bidirecțional sunt următoarele:
· Mijloacele de observare a unei variabile sunt aceleași. Adică, variabila unu nu afectează în niciun fel valoarea țintă.
· Mijloacele de observare de către cealaltă variabilă sunt aceleași. Adică, variabila doi nu afectează în niciun fel valoarea țintă.
· Nu există interacțiune între variabila unu și variabila doi.
În Anova unidirecțională, există o ipoteză nulă și o ipoteză alternativă. În primul rând, mijloacele variabilei sunt aceleași, iar în al doilea rând, mijloacele celeilalte variabile sunt aceleași.
Pentru a înțelege mai clar, să luăm ajutorul unui exemplu.
Exemplul #1
SID | Zgomot ridicat | SID | Zgomot mediu | SID | Zgomot redus |
S1 | 23 | S5 | 23 | S9 | 39 |
S2 | 45 | S6 | 64 | S10 | 43 |
S3 | 34 | S7 | 73 | S11 | 26 |
S4 | 46 | S8 | 48 | S12 | 11 |
Tabelul arată notele diferiților elevi în prezența unei game diferite de zgomote. Într-o anova unidirecțională, există o singură variabilă nominală. Aici, variabila nominală este zgomotul. Așadar, ipoteza va încerca să verifice dacă zgomotul are sau nu un efect semnificativ asupra notelor elevilor.

Să luăm un alt tabel:
Student | Zgomot ridicat | Zgomot mediu | Zgomot redus |
Masculin | 13 | 24 | 29 |
12 | 23 | 45 | |
11 | 32 | 33 | |
4 | 11 | 33 | |
Femeie | 16 | 17 | 56 |
12 | 24 | 34 | |
8 | 23 | 23 | |
3 | 29 | 67 |
Acum, în acest tabel, notele sunt afișate cu categorii de elevi. Prin urmare, avem două variabile nominale, genul elevului și nivelul de zgomot. Aici, poate exista o analiză cu doi factori, care se va face folosind trei ipoteze.
Dar acum ce se înțelege exact prin Anova cu doi factori cu replicare ?
Citește și: Idei de proiecte Data Science
Diferența dintre cu replicare și fără replicare
Diferența fundamentală dintre Anova cu doi factori cu replicare și fără replicare este că dimensiunea eșantionului este diferită. În tehnica cu replicare, numărul total de probe este în mare parte uniform. Dacă acesta este cazul, mijloacele sunt calculate independent. Acest tip de date este cunoscut și sub denumirea de date echilibrate. Dar dacă dimensiunea eșantionului nu este uniformă, analiza este dificilă. Este mai bine să uniformizați dimensiunea eșantionului pentru a obține rezultate mai rapide.
În tehnica fără replicare, dimensiunea observației eșantionului este una. Înseamnă că există doar o singură observație pentru fiecare combinație de variabile nominale. Aici, analiza poate fi făcută folosind mediile ambelor variabile, precum și media totală de a considera fiecare observație ca un singur cluster. Raportul F poate fi calculat apoi prin media rămasă și media totală.
Consultați: Top 12 biblioteci Python pentru știința datelor
Concluzie
Deci, așa funcționează Anova cu doi factori cu replicare . Există multe astfel de concepte în statistică în care calculul pare dificil, dar lucrurile devin mai simple dacă există claritate conceptuală. Am discutat despre ce se înțelege prin Anova, conceptul, Anova bidirecțional și criteriile de replicare. Sperăm că articolul a furnizat suficiente detalii despre funcționarea Anova cu doi factori cu replicare pentru a le încerca pe cont propriu.
Dacă sunteți curios să aflați despre știința datelor, consultați programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.
Testul t este același cu Anova?
Testul t examinează dacă două populații sunt distincte statistic, în timp ce Anova testează dacă trei sau mai multe populații sunt diferite din punct de vedere statistic. Pentru a compara mediile a două grupuri, se folosește testul t, dar Anova este utilizat atunci când se compară mediile a trei sau mai multe grupuri. În Anova, primul pas este să găsiți o valoare comună P. O valoare P semnificativă în testul Anova indică faptul că diferența medie dintre cel puțin o pereche a fost semnificativă statistic.
În Anova, cum accepti sau respingi ipoteza nulă?
Interpretarea tipică este că datele sunt semnificative statistic atunci când valoarea p este mai mică decât nivelul de semnificație și respingeți H 0. Când există suficiente informații pentru a identifica că nu toate mediile sunt egale, putem respinge ipoteza nulă. în sens unic Anova.
În Anova, cum interpretați valoarea F?
Semnificația lui F este probabilitatea ca ipoteza nulă a modelului dumneavoastră de regresie să nu poată fi respinsă. Altfel spus, indică probabilitatea ca toți coeficienții din rezultatul regresiei dvs. să fie zero! Diferența dintre două valori medii pătrate este echivalentă cu raportul F. Dacă ipoteza nulă este corectă, F ar trebui să fie aproape de 1,0 în marea majoritate a timpului. Un raport F ridicat implică faptul că varianța medie a grupului este mai mare decât ar fi anticipat întâmplător.