Anova Two Factor z replikacją [z porównaniem]

Opublikowany: 2020-09-18

Spis treści

Wstęp

Analiza wariancji lub w skrócie Anova to technika zrozumienia wariancji zmiennych. Pozwala obliczyć, jak bardzo dana zmienna wpływa na wynik końcowy. Technika Anova robi to, eliminując lub potwierdzając hipotezę zerową. Hipoteza zerowa oznacza, że ​​nie istnieje żaden związek między dwoma obserwowanymi podmiotami. Na przykład, jeśli istnieją dwie zmienne A i B, mówimy, że hipoteza zerowa między A i B jest słuszna, jeśli zmiana w A nie wpłynie na wyniki B i na odwrót.

Zanim przejdziemy do szczegółów dwuczynnikowej Anova z replikacją , omówmy najpierw podstawową koncepcję Anova.

Pojęcie

Anova to koncepcja statystyczna, a żadna statystyka nie ma miejsca bez liczb. Anova wymaga określonej liczby, za pomocą której może przeanalizować hipotezę zerową, którą postawiliśmy na początku analizy. Trzy krytyczne wartości dla tego obliczenia to współczynniki F i F-krytyczne, z pewnymi wartościami istotności. Teraz nie będziemy zagłębiać się w szczegółowe obliczenia matematyczne, ale omówimy części koncepcyjne z przykładami.

Istotność danej zmiennej lub podmiotu oblicza się, porównując wartości z ogólnym wpływem na wartość docelową. Na przykład znaczenie X będzie bardziej na A, jeśli nawet niewielka zmiana X może wpłynąć na zmianę wartości A. Współczynniki F są obliczane przez średnią sumę kwadratów jednostki i średnią sumę kwadratów reszt. Średnia suma kwadratów jest obliczana poprzez podzielenie średniej sumy kwadratów przez stopień swobody. Stopień swobody to liczba możliwych przypadków zmiennej nominalnej minus jeden.

F krytyczny jest oparty na wartościach istotności. Współczynniki F są obliczane ręcznie za pomocą procesu wyjaśnionego powyżej. Trafność hipotezy zależy od wartości wskaźników F i F krytycznych. Oto przypadki:

· Jeśli współczynnik F-krytyczny > F, to hipoteza jest aktualna i nie ma związku między obserwowanymi zmiennymi

· Jeśli współczynnik F-krytyczny < F, hipoteza może zostać uznana za nieważną, co z kolei wspiera ideę, że zmienne wpływają na siebie nawzajem.

Przeczytaj: Top 10 najlepiej płatnych miejsc pracy w zakresie analizy danych w Indiach

Różnica między jednokierunkową a dwukierunkową

Jak wspomniano, tutaj omawiamy koncepcję dwuczynnikowej Anova z replikacją . Ale jaka jest dokładnie różnica między jednoczynnikowym a dwuczynnikowym? Jednoczynnikowy Anova dotyczy tylko jednej zmiennej nominalnej (zmienna, która ma dwie lub więcej klas lub kategorii, ale kolejność kategorii nie jest kluczowa. Na przykład płeć jest zmienną nominalną z klasami męskimi i żeńskimi).

Zapoznaj się z kursami certyfikacyjnymi z zakresu nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Jednak dwuczynnikowa Anova dotyczy dwóch zmiennych nominalnych. Ponieważ zmiennych jest mniej, zmienia się również liczba hipotez zerowych w obu typach analizy. Hipotezy w dwukierunkowej Anovie są następujące:

· Środki obserwacji jednej zmiennej są takie same. Oznacza to, że zmienna 1 w żaden sposób nie wpływa na wartość docelową.

· Środki obserwacji drugiej zmiennej są takie same. Oznacza to, że zmienna druga w żaden sposób nie wpływa na wartość docelową.

· Nie ma interakcji między zmienną pierwszą a zmienną drugą.

W jednokierunkowej Anova istnieje hipoteza zerowa i hipoteza alternatywna. Po pierwsze, średnia przy zmiennej jest taka sama, a po drugie, średnia przy drugiej zmiennej jest taka sama.

Aby lepiej zrozumieć, weźmy przykład.

Przykład 1

SID Wysoki poziom hałasu SID Średni poziom hałasu SID Niski dźwięk
S1 23 S5 23 S9 39
S2 45 S6 64 S10 43
S3 34 S7 73 S11 26
S4 46 S8 48 S12 11

Tabela pokazuje oceny różnych uczniów w obecności różnych dźwięków. W jednokierunkowej anova istnieje tylko jedna zmienna nominalna. Tutaj zmienną nominalną jest szum. Zatem hipoteza będzie próbować sprawdzić, czy hałas ma znaczący wpływ na oceny uczniów, czy nie.

Weźmy inny stolik:

Student Wysoki poziom hałasu Średni poziom hałasu Niski dźwięk
Męski 13 24 29
12 23 45
11 32 33
4 11 33
Płeć żeńska 16 17 56
12 24 34
8 23 23
3 29 67

Teraz w tej tabeli oceny są pokazane z kategoriami uczniów. Stąd mamy dwie zmienne nominalne, płeć ucznia i poziom hałasu. Tutaj może być analiza dwuczynnikowa, która zostanie wykonana przy użyciu trzech hipotez.

Ale teraz, co dokładnie oznacza dwuczynnikowa Anova z replikacją ?

Przeczytaj także: Pomysły na projekty Data Science

Różnica między replikacją a bez replikacji

Podstawowa różnica między dwuczynnikową Anova z replikacją i bez replikacji polega na tym, że wielkość próbki jest inna. W technice z replikacją całkowita liczba próbek jest w większości jednorodna. W takim przypadku średnie obliczane są niezależnie. Ten typ danych jest również znany jako dane zrównoważone. Ale jeśli wielkość próbki nie jest jednolita, analiza jest trudna. Lepiej jest uzyskać jednolitą wielkość próbki, aby uzyskać szybsze wyniki.

W technice bez replikacji wielkość obserwacji próbki wynosi jeden. Oznacza to, że dla każdej kombinacji zmiennych nominalnych istnieje tylko jedna obserwacja. W tym przypadku analizę można przeprowadzić za pomocą średnich zarówno zmiennych, jak i łącznej średniej z rozpatrywania każdej obserwacji jako pojedynczego skupienia. Stosunek F można następnie obliczyć na podstawie pozostałej średniej i całkowitej średniej.

Sprawdź: 12 najlepszych bibliotek Pythona do nauki o danych

Wniosek

Tak więc działa dwuskładnikowa Anova z replikacją . W statystyce istnieje wiele takich pojęć, w których obliczenia wydają się trudne, ale sprawy stają się prostsze, jeśli istnieje jasność pojęć. Omówiliśmy, co oznacza Anova, koncepcja, dwukierunkowa Anova i kryteria replikacji. Mamy nadzieję, że artykuł dostarczył wystarczająco dużo szczegółów na temat dwuskładnikowego działania Anova z replikacją , abyś mógł sam wypróbować.

Jeśli jesteś zainteresowany nauką o danych, sprawdź program IIIT-B i upGrad Executive PG w dziedzinie Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1 -on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Czy test t jest taki sam jak Anova?

Test t sprawdza, czy dwie populacje są statystycznie różne, podczas gdy Anova sprawdza, czy trzy lub więcej populacji jest statystycznie odmienne. Do porównywania średnich dwóch grup stosuje się test t, ale do porównywania średnich trzech lub więcej grup stosuje się Anova. W Anova pierwszym krokiem jest znalezienie wspólnej wartości P. Znacząca wartość P w teście Anova wskazuje, że średnia różnica między co najmniej jedną parą była istotna statystycznie.

Jak w Anova można zaakceptować lub odrzucić hipotezę zerową?

Typowa interpretacja jest taka, że ​​dane są statystycznie istotne, gdy wartość p jest mniejsza niż poziom istotności i odrzucasz H 0. Gdy jest wystarczająca ilość informacji, aby stwierdzić, że nie wszystkie średnie są równe, możemy odrzucić hipotezę zerową w jednokierunkową Anova.

Jak w Anova zinterpretujesz wartość F?

Istotność F to prawdopodobieństwo, że hipoteza zerowa twojego modelu regresji nie może zostać odrzucona. Innymi słowy, wskazuje prawdopodobieństwo, że wszystkie współczynniki w wyniku regresji wynoszą zero! Różnica między dwiema średnimi wartościami kwadratowymi jest równoważna stosunkowi F. Jeśli hipoteza zerowa jest dokładna, F przez większość czasu powinno być bliskie 1,0. Wysoki współczynnik F oznacza, że ​​średnia wariancji grupy jest wyższa niż można by oczekiwać przypadkowo.