Anova a due fattori con replica [con confronto]

Pubblicato: 2020-09-18

Sommario

introduzione

L'analisi della varianza o Anova, in breve, è una tecnica per comprendere la varianza delle variabili. Consente di calcolare quanto una determinata variabile influisca sul risultato finale. La tecnica Anova lo fa eliminando o confermando l'ipotesi nulla. Un'ipotesi nulla significa che non esiste alcuna relazione tra le due entità sotto osservazione. Ad esempio, se ci sono due variabili A e B, diciamo che un'ipotesi nulla tra A e B vale se un cambiamento in A non influenzerà i risultati di B e viceversa.

Prima di entrare nei dettagli di Anova a due fattori con replica , discutiamo prima il concetto di base di Anova.

Concetto

Anova è un concetto statistico e nessuna statistica vale senza numeri. Anova richiede un certo numero attraverso il quale poter analizzare l'ipotesi nulla che poniamo all'inizio dell'analisi. I tre valori critici per questo calcolo sono i rapporti F e F-critico, con alcuni valori di significatività. Ora qui non entreremo molto nel calcolo matematico dettagliato, ma affronteremo le parti concettuali con esempi.

La significatività di una determinata variabile o entità è calcolata confrontando i valori con l'impatto complessivo sul valore target. Ad esempio, il significato di X sarà maggiore su A, se anche una piccola variazione di X può influire nel modificare il valore di A. I rapporti F sono calcolati dalla somma media dei quadrati di un'entità e dalla somma media dei quadrati dei residui. La somma media dei quadrati si calcola dividendo la somma media dei quadrati per il grado di libertà. Il grado di libertà è il numero di casi possibili della variabile nominale, meno uno.

F critico si basa sui valori di significatività. I rapporti F vengono calcolati manualmente attraverso il processo spiegato sopra. La validità dell'ipotesi dipende dai valori dei rapporti F e F critici. Ecco i casi:

· Se il rapporto F-critico > F, allora l'ipotesi vale e non c'è relazione tra le variabili sotto osservazione

· Se il rapporto F-critico < F, l'ipotesi può essere dichiarata non valida e, a sua volta, supporta l'idea che le variabili si influenzino a vicenda.

Leggi: I 10 lavori di scienza dei dati più pagati in India

Differenza tra unidirezionale e bidirezionale

Come accennato, qui discutiamo il concetto di Anova a due fattori con replicazione . Ma qual è esattamente la differenza tra un fattore e due fattori? Anova one-factor si occupa di una sola variabile nominale (una variabile che ha due o più classi o categorie, ma l'ordine delle categorie non è cruciale. Ad esempio, il genere è una variabile nominale con classi maschili e femminili).

Impara i corsi di certificazione della scienza dei dati dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

Tuttavia, Anova a due fattori si occupa di due variabili nominali. Poiché le variabili sono minori, c'è anche un cambiamento nel numero dell'ipotesi nulla in entrambi i tipi di analisi. Le ipotesi in Anova a due vie sono le seguenti:

· Il mezzo di osservazione per una variabile è lo stesso. Ciò significa che la variabile uno non influisce in alcun modo sul valore target.

· Il mezzo di osservazione dell'altra variabile è lo stesso. Ciò significa che la variabile due non influisce in alcun modo sul valore target.

· Non c'è interazione tra la variabile uno e la variabile due.

In Anova unidirezionale, c'è un'ipotesi nulla e un'ipotesi alternativa. In primo luogo, la media della variabile è la stessa e, in secondo luogo, la media dell'altra variabile è la stessa.

Per capire più chiaramente, prendiamo l'aiuto di un esempio.

Esempio 1

SID Rumore elevato SID Rumore medio SID Rumore basso
S1 23 S5 23 S9 39
S2 45 S6 64 S10 43
S3 34 S7 73 S11 26
S4 46 S8 48 S12 11

La tabella mostra i voti dei diversi studenti in presenza di una diversa gamma di rumori. In un'anova unidirezionale è presente solo una variabile nominale. Qui la variabile nominale è il rumore. Quindi, l'ipotesi cercherà di verificare se il rumore ha un effetto significativo sui voti degli studenti o meno.

Prendiamo un altro tavolo:

Alunno Rumore elevato Rumore medio Rumore basso
Maschio 13 24 29
12 23 45
11 32 33
4 11 33
Femmina 16 17 56
12 24 34
8 23 23
3 29 67

Ora in questa tabella, i voti sono mostrati con le categorie di studenti. Quindi, abbiamo due variabili nominali, il sesso dello studente e il livello di rumore. Qui, ci può essere un'analisi a due fattori, che verrà eseguita utilizzando tre ipotesi.

Ma ora cosa si intende esattamente per Anova a due fattori con replica ?

Leggi anche: Idee per progetti di scienza dei dati

Differenza tra con replica e senza replica

La differenza fondamentale tra Anova a due fattori con replica e senza replica è che la dimensione del campione è diversa. Nella tecnica con replica, il numero totale di campioni è per lo più uniforme. In tal caso, le medie vengono calcolate indipendentemente. Questo tipo di dati è anche noto come dati bilanciati. Ma se la dimensione del campione non è uniforme, l'analisi è difficile. È meglio ottenere una dimensione del campione uniforme per ottenere risultati più rapidi.

Nella tecnica senza replica, la dimensione dell'osservazione del campione è una. Significa che c'è solo una singola osservazione per ogni combinazione di variabili nominali. In questo caso, l'analisi può essere eseguita utilizzando sia le medie delle variabili che la media totale considerando ogni osservazione come un singolo cluster. Il rapporto F può quindi essere calcolato dalla media rimanente e dalla media totale.

Dai un'occhiata a: Le 12 migliori librerie Python per la scienza dei dati

Conclusione

Quindi, ecco come funziona Anova a due fattori con replica . Ci sono molti concetti simili nelle statistiche in cui il calcolo sembra difficile, ma le cose diventano più semplici se c'è chiarezza concettuale. Abbiamo discusso cosa si intende per Anova, il concetto, Anova a due vie e i criteri di replica. Ci auguriamo che l'articolo abbia fornito dettagli sufficienti sul funzionamento a due fattori di Anova con la replica da poter provare da soli.

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al programma Executive PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 -on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Il test t è lo stesso dell'Anova?

Il test t esamina se due popolazioni sono statisticamente distinte, mentre l'Anova verifica se tre o più popolazioni sono statisticamente dissimili. Per confrontare le medie di due gruppi, viene utilizzato il test t, ma l'Anova viene utilizzato quando si confrontano le medie di tre o più gruppi. In Anova, il primo passo è trovare un valore P comune. Un valore P significativo nel test di Anova indica che la differenza media tra almeno una coppia era statisticamente significativa.

Ad Anova, come si accetta o si rifiuta l'ipotesi nulla?

L'interpretazione tipica è che i dati sono statisticamente significativi quando il p-value è inferiore al livello di significatività e si rifiuta H 0. Quando ci sono informazioni sufficienti per identificare che non tutte le medie sono uguali, possiamo rifiutare l'ipotesi nulla in unidirezionale Anova.

In Anova, come interpreti il ​​valore F?

Il significato di F è la probabilità che l'ipotesi nulla del tuo modello di regressione non possa essere rifiutata. In altre parole, indica la probabilità che tutti i coefficienti nel risultato della regressione siano zero! La differenza tra due valori quadrati medi è equivalente al rapporto F. Se l'ipotesi nulla è accurata, F dovrebbe essere vicino a 1,0 la stragrande maggioranza delle volte. Un alto rapporto F implica che la varianza media del gruppo è maggiore di quanto sarebbe previsto per caso.