Регрессия в интеллектуальном анализе данных: различные типы методов регрессии [2022]
Опубликовано: 2021-01-01Обучение с учителем — это обучение, при котором вы обучаете алгоритм машинного обучения, используя данные, которые уже помечены. Это означает, что правильный ответ уже известен для всех обучающих данных. После обучения ему предоставляется новый набор неизвестных данных, которые анализирует алгоритм обучения с учителем, а затем выдает правильный результат на основе помеченных данных обучения.
Неконтролируемое обучение — это когда алгоритм обучается с использованием информации, для которой неизвестна правильная метка. Здесь машина в основном должна группировать информацию в соответствии с различными шаблонами или любыми корреляциями без предварительного обучения на каких-либо данных.
Регрессия — это форма контролируемого машинного обучения, которая пытается предсказать любой атрибут с непрерывным значением. Он анализирует взаимосвязь между целевой переменной (зависимой) и ее переменной-предиктором (независимой). Регрессия — важный инструмент анализа данных, который можно использовать для моделирования временных рядов, прогнозирования и т. д.
Регрессия включает в себя процесс подгонки кривой или прямой линии к различным точкам данных. Это делается таким образом, чтобы расстояния между кривой и точками данных были минимальными.
Хотя линейная и логистическая регрессии являются наиболее популярными типами, существует множество других типов регрессии, которые можно применять в зависимости от их эффективности на конкретном наборе данных. Эти различные типы различаются из-за количества и типа всех зависимых переменных, а также из-за типа сформированной кривой регрессии.
Отъезд: Разница между наукой о данных и интеллектуальным анализом данных
Оглавление
Линейная регрессия
Линейная регрессия формирует связь между целевой (зависимой) переменной и одной или несколькими независимыми переменными, используя прямую линию наилучшего соответствия.
Он представлен уравнением:
Y = а + b*X + е ,
где a — точка пересечения, b — наклон линии регрессии, а e — ошибка. X и Y являются предиктором и целевыми переменными соответственно. Когда X состоит из более чем одной переменной (или функции), это называется множественной линейной регрессией.
Линия наилучшего соответствия достигается с использованием метода наименьших квадратов. Этот метод минимизирует сумму квадратов отклонений от каждой из точек данных до линии регрессии. Отрицательные и положительные расстояния здесь не сокращаются, так как все отклонения возводятся в квадрат.
Полиномиальная регрессия
В полиномиальной регрессии мощность независимой переменной больше 1 в уравнении регрессии. Ниже приведен пример:
Y = а + б * Х ^ 2
В этой конкретной регрессии линия наилучшего соответствия не является прямой линией, как в линейной регрессии. Однако это кривая, которая соответствует всем точкам данных.
Реализация полиномиальной регрессии может привести к переобучению, когда вы испытываете искушение уменьшить свои ошибки, усложнив кривую. Следовательно, всегда старайтесь подогнать кривую, обобщив ее на задачу.
Логистическая регрессия
Логистическая регрессия используется, когда зависимая переменная имеет двоичную природу (Истина или Ложь, 0 или 1, успех или неудача). Здесь целевое значение (Y) находится в диапазоне от 0 до 1 и обычно используется для задач типа классификации. Логистическая регрессия не требует, чтобы зависимые и независимые переменные имели линейную связь, как в случае линейной регрессии.

Читать : Идеи проекта интеллектуального анализа данных
Ридж-регрессия
Ридж-регрессия — это метод, используемый для анализа данных множественной регрессии, которые имеют проблему мультиколлинеарности. Мультиколлинеарность — это наличие почти линейной корреляции между любыми двумя независимыми переменными.
Это происходит, когда оценки методом наименьших квадратов имеют небольшое смещение, но высокую дисперсию, поэтому они сильно отличаются от истинного значения. Таким образом, добавляя степень смещения к оценочному значению регрессии, стандартные ошибки значительно уменьшаются за счет реализации гребневой регрессии.
Лассо-регрессия
A S S O Термин « усадку выборочный Это тип линейной регрессии который использует усадку . При этом все точки данных сводятся (или сжимаются) к центральной точке, также называемой средним значением. Процедура лассо больше всего подходит для простых и разреженных моделей, которые имеют сравнительно меньше параметров. Этот тип регрессии также хорошо подходит для моделей, которые страдают от мультиколлинеарности (как и гребень).
Получите сертификат по науке о данных от лучших университетов мира. Присоединяйтесь к нашим программам Executive PG, Advanced Certificate Programs или Masters Programs, чтобы ускорить свою карьеру.
Заключение
Регрессионный анализ в основном позволяет сравнивать влияние различных типов переменных признаков, измеренных в широком диапазоне масштабов. Например, прогноз цен на жилье на основе общей площади, местоположения, возраста, мебели и т. д. Эти результаты в значительной степени приносят пользу исследователям рынка или аналитикам данных, поскольку они устраняют любые бесполезные функции и оценивают лучший набор функций для построения точных прогностических моделей.
Если вам интересно узнать о науке о данных, ознакомьтесь с дипломом IIIT-B & upGrad PG в области науки о данных, который создан для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1- on-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.
Что такое линейная регрессия?
Линейная регрессия устанавливает связь между целевой переменной или зависимой переменной и одной или несколькими независимыми переменными. Когда у нас есть более одного предиктора в нашем уравнении, это становится множественной регрессией.
Метод наименьших квадратов считается лучшим методом для получения линии наилучшего соответствия, поскольку этот метод минимизирует сумму квадратов отклонений от каждой из точек данных до линии регрессии.
Что такое методы регрессии и зачем они нужны?
Это методы оценки или прогнозирования отношений между переменными. Связь обнаруживается между двумя переменными, одна из которых является целевой, а другая — переменной-предиктором (также известной как переменные x и y).
Для определения этой взаимосвязи можно использовать различные методы, такие как линейный, логистический, ступенчатый, полиномиальный, лассо и гребневой. Это делается для генерации прогнозов с использованием наборов данных и построения графиков между ними.
Чем метод линейной регрессии отличается от метода логистической регрессии?
Разница между обоими этими методами регрессии заключается в типе зависимой переменной. Если зависимая переменная непрерывна, то используется линейная регрессия, тогда как если зависимая переменная является категориальной, то используется логистическая регрессия.
Как следует из названия, в линейной технике определяется линейная или прямая линия. Принимая во внимание, что в логистическом методе S-кривая идентифицируется как независимая переменная, являющаяся полиномом. Результаты в случае линейного метода являются непрерывными, тогда как в случае логистического метода результаты могут быть в таких категориях, как «Истина» или «Ложь», 0 или 1 и т. д.