Anova Two Factor с репликацией [со сравнением]

Опубликовано: 2020-09-18

Оглавление

Введение

Для краткости Анализ дисперсии или Anova — это метод понимания дисперсии переменных. Дает возможность рассчитать, насколько та или иная переменная влияет на конечный результат. Техника Anova делает это, исключая или подтверждая нулевую гипотезу. Нулевая гипотеза означает, что между двумя наблюдаемыми сущностями вообще не существует никакой связи. Например, если есть две переменные A и B, мы говорим, что нулевая гипотеза между A и B верна, если изменение A не повлияет на результаты B, и наоборот.

Прежде чем вдаваться в подробности двухфакторного анализа Anova с репликацией , давайте сначала обсудим основную концепцию Anova.

Концепция

Anova — это статистическая концепция, а никакая статистика не работает без цифр. Anova требует определенного числа, с помощью которого она может анализировать нулевую гипотезу, которую мы выдвигаем в начале анализа. Тремя критическими значениями для этого расчета являются F-коэффициенты и F-критические значения с некоторыми значениями значимости. Здесь мы не будем вдаваться в подробные математические расчеты, а обратимся к концептуальным частям с примерами.

Значимость конкретной переменной или сущности рассчитывается путем сравнения значений с общим влиянием на целевое значение. Например, значение X будет больше на A, если даже небольшое изменение X может повлиять на изменение значения A. Отношения F рассчитываются по средней сумме квадратов объекта и средней сумме квадратов остатков. Средняя сумма квадратов рассчитывается путем деления средней суммы квадратов на степень свободы. Степень свободы - это количество возможных случаев номинальной переменной минус один.

Критическая F основана на значениях значимости. Отношения F рассчитываются вручную с помощью процесса, описанного выше. Справедливость гипотезы зависит от значений коэффициентов F и критического F. Вот случаи:

· Если отношение F-критическое > F, то гипотеза верна, и между наблюдаемыми переменными нет связи

· Если отношение F-критическое < F, то гипотеза может быть признана несостоятельной и, в свою очередь, подтверждает идею о том, что переменные влияют друг на друга.

Читайте: 10 самых высокооплачиваемых вакансий по науке о данных в Индии

Разница между односторонним и двусторонним

Как уже упоминалось, здесь мы обсуждаем двухфакторную концепцию Anova с репликацией . Но в чем именно разница между однофакторным и двухфакторным? Однофакторный анализ Anova имеет дело только с одной номинальной переменной (переменная, имеющая два или более классов или категорий, но порядок категорий не имеет решающего значения. Например, пол — это номинальная переменная с классами «мужской» и «женский»).

Пройдите сертификационные курсы по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Однако двухфакторный анализ Anova имеет дело с двумя номинальными переменными. Поскольку переменных меньше, также происходит изменение количества нулевых гипотез в обоих типах анализа. Гипотезы двустороннего Anova следующие:

· Средства наблюдения по одной переменной одни и те же. Это означает, что первая переменная никак не влияет на целевое значение.

· Способ наблюдения по другой переменной тот же. Это означает, что переменная два никак не влияет на целевое значение.

· Нет взаимодействия между переменной один и переменной два.

В одностороннем Anova есть нулевая гипотеза и альтернативная гипотеза. Во-первых, средние значения для переменной одинаковы, а во-вторых, средние значения для другой переменной одинаковы.

Чтобы понять яснее, давайте воспользуемся помощью примера.

Пример №1

SID Высокий уровень шума SID Средний шум SID Тихий шум
S1 23 S5 23 S9 39
S2 45 S6 64 S10 43
S3 34 S7 73 S11 26
S4 46 S8 48 S12 11

В таблице представлены оценки разных учащихся при наличии разного спектра шумов. В одностороннем анова присутствует только одна номинальная переменная. Здесь номинальной переменной является шум. Итак, гипотеза попытается проверить, оказывает ли шум существенное влияние на оценки учащихся или нет.

Возьмем другую таблицу:

Ученик Высокий уровень шума Средний шум Тихий шум
Мужчина 13 24 29
12 23 45
11 32 33
4 11 33
Женский 16 17 56
12 24 34
8 23 23
3 29 67

Теперь в этой таблице оценки показаны с категориями учащихся. Следовательно, у нас есть две номинальные переменные: пол учащегося и уровень шума. Здесь может быть двухфакторный анализ, который будет проводиться с использованием трех гипотез.

Но что именно подразумевается под двухфакторной Anova с репликацией ?

Читайте также: Идеи проекта Data Science

Разница между репликацией и без репликации

Принципиальное отличие двухфакторного анализа Anova с повторением и без повторения заключается в том, что размер выборки разный. В методике с повторением общее количество образцов в основном однородно. В этом случае средства рассчитываются самостоятельно. Этот тип данных также известен как сбалансированные данные. Но если размер выборки неоднороден, анализ затруднен. Лучше получить однородный размер выборки, чтобы получить более быстрые результаты.

В методике без повторения размер выборки наблюдения равен единице. Это означает, что для каждой комбинации номинальных переменных существует только одно наблюдение. Здесь анализ может быть выполнен с использованием средних значений обеих переменных, а также общего среднего значения рассмотрения каждого наблюдения как отдельного кластера. Затем F-коэффициент можно рассчитать по среднему значению остатка и общему среднему значению.

Проверьте: 12 лучших библиотек Python для науки о данных

Заключение

Итак, вот как работает двухфакторный анализ Anova с репликацией . В статистике много таких понятий, расчеты которых кажутся сложными, но все становится проще, если есть концептуальная ясность. Мы обсудили, что подразумевается под Anova, понятием, двусторонним Anova и критериями репликации. Мы надеемся, что в статье содержится достаточно подробностей о двухфакторной работе Anova с репликацией , чтобы вы могли попробовать ее самостоятельно.

Если вам интересно узнать о науке о данных, ознакомьтесь с программой IIIT-B & upGrad Executive PG по науке о данных, которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1 -на-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Является ли t-тест таким же, как Anova?

Стьюдентный тест проверяет, являются ли две популяции статистически различными, тогда как Anova проверяет, являются ли три или более популяции статистически несходными. Для сравнения средних значений двух групп используется t-критерий, но Anova используется при сравнении средних значений трех или более групп. В Anova первым шагом является поиск общего значения P. Значительное значение P в тесте Anova указывает на то, что средняя разница между по крайней мере одной парой была статистически значимой.

Как в Anova вы принимаете или отвергаете нулевую гипотезу?

Типичная интерпретация состоит в том, что данные являются статистически значимыми, когда p-значение меньше уровня значимости, и вы отклоняете H = 0. Когда имеется достаточно информации, чтобы определить, что не все средние равны, мы можем отклонить нулевую гипотезу. в одностороннем Anova.

Как вы интерпретируете значение F в Anova?

Значение F — это вероятность того, что нулевая гипотеза вашей регрессионной модели не может быть отвергнута. Другими словами, это указывает на вероятность того, что все коэффициенты в вашем результате регрессии равны нулю! Разница между двумя среднеквадратичными значениями эквивалентна коэффициенту F. Если нулевая гипотеза верна, F должен быть близок к 1,0 в подавляющем большинстве случаев. Высокое отношение F означает, что средняя групповая дисперсия выше, чем можно было бы ожидать случайно.