5 типов алгоритмов классификации в машинном обучении [2022]

Опубликовано: 2021-01-02

Оглавление

Введение

Машинное обучение — одна из самых важных тем в области искусственного интеллекта. Далее он делится на контролируемое и неконтролируемое обучение, которое может быть связано с анализом помеченных и непомеченных данных или прогнозированием данных. В контролируемом обучении у нас есть еще два типа бизнес-задач, называемых регрессией и классификацией.

Классификация — это алгоритм машинного обучения, в котором мы получаем помеченные данные в качестве входных данных, и нам нужно предсказать вывод в класс. Если есть два класса, то это называется бинарной классификацией. Если имеется более двух классов, то это называется многоклассовой классификацией. В реальных сценариях мы склонны видеть оба типа классификации.

В этой статье мы рассмотрим несколько типов алгоритмов классификации, а также их плюсы и минусы. Существует так много доступных алгоритмов классификации, но давайте сосредоточимся на следующих 5 алгоритмах:

  1. Логистическая регрессия
  2. K Ближайший сосед
  3. Деревья решений
  4. Случайный лес
  5. Опорный вектор Машины

1. Логистическая регрессия

Несмотря на то, что название предполагает регрессию, это алгоритм классификации. Логистическая регрессия — это статистический метод классификации данных, в котором есть одна или несколько независимых переменных или признаков, определяющих результат, который измеряется с помощью переменной (TARGET), имеющей два или более классов. Его основная цель — найти наиболее подходящую модель для описания взаимосвязи между целевой переменной и независимыми переменными.

Плюсы

1) Легко реализовать, интерпретировать и эффективно обучать, поскольку он не делает никаких предположений и быстро классифицируется.

2) Может использоваться для многоклассовой классификации.

3) Он менее склонен к переоснащению, но дает переоснащение в многомерных наборах данных.

Минусы

1) Переобучение, когда наблюдения меньше признаков.

2) Работает только с дискретными функциями.

3) Нелинейные задачи не могут быть решены.

4) Сложно изучить сложные шаблоны, и обычно нейронные сети превосходят их.

2. K Ближайший сосед

Алгоритм K-ближайших соседей (KNN) использует метод «сходства признаков» или «ближайших соседей» для прогнозирования кластера, в который попадает новая точка данных. Ниже приведены несколько шагов, на основе которых мы можем лучше понять работу этого алгоритма.

Шаг 1 — Для реализации любого алгоритма машинного обучения нам нужен очищенный набор данных, готовый к моделированию. Предположим, что у нас уже есть очищенный набор данных, который был разделен на набор данных для обучения и тестирования.

Шаг 2 — Поскольку у нас уже есть готовые наборы данных, нам нужно выбрать значение K (целое число), которое говорит нам, сколько ближайших точек данных нам нужно принять во внимание для реализации алгоритма. Мы можем узнать, как определить значение k на более поздних этапах статьи.

Шаг 3 — Этот шаг является итеративным, и его необходимо применять для каждой точки данных в наборе данных.

  1. Рассчитайте расстояние между тестовыми данными и каждой строкой обучающих данных, используя любую метрику расстояния.
  2. Евклидово расстояние
  3. Манхэттенское расстояние
  4. расстояние Минковского
  5. Расстояние Хэмминга.

Многие специалисты по данным склонны использовать евклидово расстояние, но мы можем узнать значение каждого из них на более позднем этапе этой статьи.

Нам нужно отсортировать данные на основе метрики расстояния, которую мы использовали на предыдущем шаге.

Выберите верхние K строк в преобразованных отсортированных данных.

Затем он присвоит контрольной точке класс на основе наиболее часто встречающегося класса этих строк.

Шаг 4 – Конец

Плюсы

  1. Простота в использовании, понимании и интерпретации.
  2. Быстрое время расчета.
  3. Никаких предположений о данных.
  4. Высокая точность прогнозов.
  5. Универсальность - может использоваться как для бизнес-задач классификации, так и для регрессии.
  6. Также может использоваться для многоклассовых задач.
  7. У нас есть только один гиперпараметр для настройки на этапе настройки гиперпараметра.

Минусы

  1. Вычислительно дорого и требует большого объема памяти, так как алгоритм хранит все обучающие данные.
  2. Алгоритм становится медленнее по мере увеличения переменных.
  3. Он очень чувствителен к несущественным функциям.
  4. Проклятие размерности.
  5. Выбор оптимального значения К.
  6. Несбалансированный набор данных класса вызовет проблемы.
  7. Отсутствующие значения в данных также вызывают проблемы.

Читайте: Идеи проекта машинного обучения

3. Деревья решений

Деревья решений можно использовать как для классификации, так и для регрессии, поскольку они могут обрабатывать как числовые, так и категориальные данные. Он разбивает набор данных на все более мелкие подмножества или узлы по мере развития дерева. Дерево решений имеет выходные данные с решениями и конечными узлами, где узел решения имеет две или более ветвей, а конечный узел представляет собой решение. Самый верхний узел, соответствующий лучшему предсказателю, называется корневым узлом.

Плюсы

  1. Простой для понимания
  2. Простая визуализация
  3. Меньше данных Интерпретация
  4. Обрабатывает как числовые, так и категориальные данные.

Минусы

  1. Иногда плохо обобщает
  2. Неустойчив к изменениям входных данных

4. Случайные леса

Случайные леса — это ансамблевый метод обучения, который можно использовать для классификации и регрессии. Он работает путем построения нескольких деревьев решений и выводит результаты, взяв среднее значение всех деревьев решений в регрессии или голосовании по большинству в задачах классификации. Из самого названия можно узнать, что группа деревьев называется Лесом.

Плюсы

  1. Может обрабатывать большие наборы данных.
  2. Выведет важность переменных.
  3. Может обрабатывать пропущенные значения.

Минусы

  1. Это алгоритм черного ящика.
  2. Медленное прогнозирование в реальном времени и сложные алгоритмы.

5. Машины опорных векторов

Машина опорных векторов — это представление набора данных в виде точек в пространстве, разделенных на категории четким промежутком или линией, которая находится как можно дальше. Новые точки данных теперь отображаются в том же пространстве и классифицируются, чтобы принадлежать к категории в зависимости от того, на какую сторону линии или разделения они попадают.

Плюсы

  1. Лучше всего работает в высокоразмерных пространствах.
  2. Использует подмножество точек обучающих данных в решающей функции, что делает его алгоритмом с эффективным использованием памяти.

Минусы

  1. Не будет предоставлять оценки вероятности.
  2. Можно вычислить оценки вероятности с помощью перекрестной проверки, но это требует много времени.

Читайте также: Карьера в машинном обучении

Заключение

В этой статье мы обсудили 5 алгоритмов классификации, их краткие определения, плюсы и минусы. Это лишь несколько алгоритмов, которые мы рассмотрели, но есть и более ценные алгоритмы, такие как Наивный Байес, Нейронные сети, Упорядоченная логистическая регрессия. Невозможно сказать, какой алгоритм хорошо работает для какой проблемы, поэтому лучше всего попробовать несколько и выбрать окончательную модель на основе показателей оценки.

Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Какова основная цель использования логистической регрессии?

Логистическая регрессия в основном используется в статистических вероятностях. Он использует уравнение логистической регрессии, чтобы понять взаимосвязь между зависимыми переменными и независимыми переменными, присутствующими в данных данных. Это делается путем оценки вероятностей отдельных событий. Модель логистической регрессии очень похожа на модель линейной регрессии, однако их использование предпочтительнее, когда зависимая переменная, представленная в данных, является дихотомической.

Чем SVM отличается от логистической регрессии?

Хотя SVM обеспечивает большую точность, чем модели логистической регрессии, ее сложно использовать и, следовательно, она неудобна для пользователя. В случае больших объемов данных использование SVM не является предпочтительным. В то время как SVM используется для решения как проблем регрессии, так и задач классификации, логистическая регрессия хорошо решает только проблемы классификации. В отличие от SVM, переобучение является обычным явлением при использовании логистической регрессии. Кроме того, логистическая регрессия более уязвима для выбросов по сравнению с машинами опорных векторов.

Является ли дерево регрессии типом дерева решений?

Да, деревья регрессии — это в основном деревья решений, которые используются для задач регрессии. Модели регрессии используются для понимания взаимосвязи между зависимыми переменными и независимыми переменными, которые фактически возникли в результате разделения исходного заданного набора данных. Деревья регрессии можно использовать только тогда, когда дерево решений состоит из непрерывной целевой переменной.