복제가 있는 Anova 2요소 [비교 포함]

게시 됨: 2020-09-18

목차

소개

분산 분석 또는 Anova는 간단히 말해서 변수의 분산을 이해하는 기술입니다. 특정 변수가 최종 결과에 얼마나 영향을 미치는지 계산할 수 있습니다. Anova 기술은 귀무 가설을 제거하거나 확인하여 이를 수행합니다. 귀무 가설은 관찰 중인 두 개체 사이에 관계가 전혀 없다는 것을 의미합니다. 예를 들어, 두 개의 변수 A와 B가 있는 경우 A의 변경이 B의 결과에 영향을 미치지 않고 그 반대의 경우도 A와 B 사이의 귀무 가설이 성립한다고 말합니다.

Anova two-factor with replication 에 대해 자세히 알아보기 전에 먼저 Anova 의 기본 개념에 대해 논의하겠습니다.

개념

Anova는 통계적 개념이며 숫자 없이는 통계가 성립하지 않습니다. Anova는 분석을 시작할 때 우리가 제기하는 귀무 가설을 분석할 수 있는 특정 숫자가 필요합니다. 이 계산을 위한 세 가지 중요한 값은 F 비율과 F-임계이며 일부 유의미한 값이 있습니다. 이제 여기서 우리는 자세한 수학적 계산에 대해 많이 다루지 않을 것이지만 예제를 통해 개념적 부분을 다룰 것입니다.

특정 변수 또는 엔터티의 유의성은 값을 대상 값에 대한 전반적인 영향과 비교하여 계산됩니다. 예를 들어, X의 작은 변화가 A의 값을 변경하는 데 영향을 줄 수 있다면 X의 중요성은 A에 더 클 것입니다. F 비율은 엔티티의 평균 제곱합과 잔차 제곱의 평균 합으로 계산됩니다. 평균 제곱합은 평균 제곱합을 자유도로 나누어 계산합니다. 자유도는 명목변수의 가능한 경우의 수에서 1을 뺀 것입니다.

F 임계값은 유의값을 기반으로 합니다. F 비율은 위에서 설명한 프로세스를 통해 수동으로 계산됩니다. 가설의 타당성은 F 비율과 F 임계값에 따라 달라집니다. 다음은 사례입니다.

· F 임계값 > F 비율이면 가설이 성립하고 관찰 중인 변수 간에 관계가 없습니다.

· F 임계값 < F 비율이면 가설이 무효로 선언될 수 있으며, 이는 변수가 서로 영향을 미친다는 아이디어를 뒷받침합니다.

읽기: 인도에서 가장 높은 급여를 받는 데이터 과학 직업 상위 10개

단방향과 양방향의 차이점

언급했듯이 여기에서는 복제가 포함된 Anova 2단계 개념에 대해 설명합니다 . 그러나 1요인과 2요인의 차이점은 정확히 무엇입니까? Anova 단일 요인은 하나의 명목 변수만 처리합니다(두 개 이상의 클래스 또는 범주가 있지만 범주의 순서는 중요하지 않은 변수입니다. 예를 들어, 성별은 클래스가 남성과 여성인 명목 변수임).

세계 최고의 대학에서 데이터 과학 인증 과정배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

그러나 Anova 2-요인은 두 개의 명목 변수를 처리합니다. 변수가 적을수록 두 분석 유형 모두에서 귀무 가설의 수에도 변화가 있습니다. 양방향 Anova의 가설은 다음과 같습니다.

· 하나의 변수에 의한 관찰 수단은 동일하다. 의미, 변수 1은 어떤 식으로든 목표 값에 영향을 미치지 않습니다.

· 다른 변수에 의한 관찰 수단은 동일하다. 의미, 변수 2는 어떤 식으로든 목표 값에 영향을 미치지 않습니다.

· 변수 1과 변수 2 사이에는 상호작용이 없습니다.

일원 Anova에는 귀무 가설과 대립 가설이 있습니다. 첫째, 변수에 의한 평균이 같고, 둘째, 다른 변수에 의한 평균이 같다.

더 명확하게 이해하기 위해 예를 들어 보겠습니다.

예 #1

SID 높은 소음 SID 중간 소음 SID 작은 소음
S1 23 시즌5 23 S9 39
시즌2 45 시즌 6 64 시즌 10 43
시즌3 34 시즌7 73 시즌 11 26
시즌4 46 시즌8 48 시즌 12 11

이 표는 다양한 범위의 소음이 있는 상황에서 다양한 학생들의 점수를 보여줍니다. 단방향 노바에서는 명목 변수가 하나만 있습니다. 여기서 명목변수는 잡음이다. 따라서 가설은 소음이 학생의 성적에 유의미한 영향을 미치는지 여부를 확인하려고 합니다.

다른 표를 살펴보겠습니다.

학생 높은 소음 중간 소음 작은 소음
남성 13 24 29
12 23 45
11 32 33
4 11 33
여자 16 17 56
12 24 34
8 23 23
29 67

이제 이 표에서 점수가 학생 범주와 함께 표시됩니다. 따라서 학생의 성별과 소음 수준이라는 두 가지 명목 변수가 있습니다. 여기에서 3가지 가설을 사용하여 수행될 2-요인 분석이 있을 수 있습니다.

그러나 이제 복제 가 포함된 Anova 이중 요소 가 정확히 무엇을 의미 합니까?

더 읽어보기: 데이터 과학 프로젝트 아이디어

복제가 있는 것과 복제가 없는 것의 차이점

복제가 있는 Anova 2인자 및 복제가 없는 Anova 의 근본적인 차이점 은 표본 크기가 다르다는 것입니다. 복제 기술에서 전체 샘플 수는 대부분 균일합니다. 이 경우 평균은 독립적으로 계산됩니다. 이러한 유형의 데이터를 균형 데이터라고도 합니다. 그러나 표본 크기가 균일하지 않으면 분석이 어렵습니다. 더 빠른 결과를 얻으려면 샘플 크기를 균일하게 하는 것이 좋습니다.

복제가 없는 기법에서 표본 관찰 크기는 1입니다. 이는 명목 변수의 각 조합에 대해 단일 관측값만 있음을 의미합니다. 여기에서 두 변수의 평균과 모든 관측치를 단일 클러스터로 간주하는 총 평균을 사용하여 분석을 수행할 수 있습니다. 그런 다음 F 비율은 나머지 평균과 전체 평균으로 계산할 수 있습니다.

확인: 데이터 과학을 위한 상위 12개 Python 라이브러리

결론

이것이 Anova 2단계 복제 가 작동하는 방식입니다. 통계에는 계산이 어려워 보이는 개념이 많이 있지만 개념이 명확하면 상황이 더 간단해집니다. 우리는 Anova가 의미하는 바, 개념, 양방향 Anova 및 복제 기준에 대해 논의했습니다. 이 기사 에서 복제와 함께 Anova 2단계 작업 에 대한 세부 정보를 충분히 제공 하여 직접 시도해 볼 수 있기를 바랍니다.

데이터 과학에 대해 자세히 알아보려면 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 1 - 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

t-검정은 Anova와 동일합니까?

t-검정은 두 모집단이 통계적으로 구별되는지 여부를 검사하는 반면 Anova는 세 개 이상의 모집단이 통계적으로 서로 다른지 여부를 테스트합니다. 두 그룹의 평균을 비교할 때는 t-검정을 사용하지만 세 개 이상의 그룹의 평균을 비교할 때는 Anova를 사용합니다. Anova에서 첫 번째 단계는 공통 P 값을 찾는 것입니다. Anova 테스트에서 유의미한 P 값은 최소 한 쌍 간의 평균 차이가 통계적으로 유의했음을 나타냅니다.

Anova에서 귀무가설을 어떻게 받아들이거나 기각합니까?

일반적인 해석은 p-값이 유의 수준보다 작을 때 데이터가 통계적으로 유의하고 H 0를 기각한다는 것입니다. 모든 평균이 같지 않다는 것을 식별할 수 있는 충분한 정보가 있는 경우 귀무 가설을 기각할 수 있습니다. 단방향 Anova에서.

Anova에서 F 값을 어떻게 해석합니까?

F의 유의성은 회귀 모델의 귀무 가설을 기각할 수 없는 확률입니다. 다시 말해서 회귀 결과의 모든 계수가 0일 확률을 나타냅니다! 두 평균 제곱 값의 차이는 F 비율과 같습니다. 귀무 가설이 정확하면 F는 대부분 1.0에 가까워야 합니다. 높은 F 비율은 그룹 평균 분산이 우연히 예상되는 것보다 높다는 것을 의미합니다.