Введение в алгоритм классификации: концепции и различные типы

Опубликовано: 2020-04-13

Алгоритмы классификации помогают разделить данные на разные классы. Точно так же, как когда вы хотите сортировать вещи во время упаковки, алгоритм классификации помогает вам классифицировать данные. В этой статье мы рассмотрим, что такое алгоритмы классификации, типы алгоритмов классификации, некоторые основные концепции этой темы и как они работают.

Оглавление

Что означает Классификация?

Чтобы предсказать целевой класс, когда мы используем наш обучающий набор данных для получения граничных условий, мы называем этот процесс классификацией. Есть много типов целевых классов, которых вы можете достичь. Например, предположим, что вы хотите предсказать, будут ли ваши клиенты покупать определенный продукт или нет, в соответствии с имеющимися у вас данными о клиентах. В этом случае целевыми классами будут либо «Да», либо «Нет».

С другой стороны, вы можете классифицировать овощи по их весу, размеру или цвету. В этом сценарии доступными целевыми классами могут быть шпинат, помидор, лук, картофель и капуста. Вы также можете выполнить классификацию по полу, где целевыми классами будут женщины и мужчины.

Давайте немного разберемся, как работает алгоритм классификации, рассмотрев третий пример. Мы можем оставить длину волос в качестве параметра функции, хотя это просто для примера. Мы можем обучить нашу модель, используя алгоритм классификации, и позволить ему определять граничные условия для выполнения дифференциации между женским и мужским полом по заданному параметру признака, т. е. длине волос.

Основные понятия классификации

Прежде чем мы приступим к дальнейшему обсуждению алгоритмов классификации, вы должны быть знакомы с несколькими определениями. Таким образом, вы сможете избежать путаницы в дальнейшем:

Функции

Это индивидуальное измеримое свойство конкретного явления, которое мы наблюдаем в данный момент времени.

Классификаторы

Классификатор — это алгоритм, который сопоставляет входные данные модели с определенной категорией.

Модели классификации

Модели классификации должны заключать входные значения, которые мы даем модели во время обучения. Эти модели предсказывают категории (метки классов) для новых данных, которые мы им предоставляем.

Многоуровневая классификация

Классификация с несколькими метками — это когда мы сопоставляем каждый образец с набором целевых меток нескольких классов. Например, в школьной сумке могут быть книги, коробка для завтрака и ручки одновременно.

Мультиклассовая классификация

Мультиклассовая классификация — это когда мы присваиваем каждому образцу только одну целевую метку. Это происходит, когда у нас больше двух классов. Например, автомобиль может двигаться или стоять на месте, но не то и другое одновременно.

Бинарная классификация

Двоичная классификация — это когда у нас есть только два возможных класса. Например, пол человека может быть мужским или женским.

Типы алгоритмов классификации

Вот все типы алгоритмов классификации:

  • Оценка ядра

(K-ближайший сосед)

  • Линейные классификаторы

(логистическая регрессия, линейный дискриминант Фишера и наивный байесовский классификатор)

  • Квадратичные классификаторы
  • Нейронные сети
  • Изучение векторного квантования
  • Опорные векторные машины

(Машины опорных векторов методом наименьших квадратов)

Давайте теперь обсудим некоторые из основных типов алгоритмов классификации:

Узнайте больше: Типы алгоритмов машинного обучения с примерами использования

K-ближайший сосед

K-ближайший сосед, также известный как KNN, является популярным алгоритмом для решения задач регрессии и классификации. Он классифицирует новые случаи в соответствии с голосами k-соседей. Мы определяем k-ближайших соседей, используя функции расстояния. Самая популярная функция расстояния — евклидова, но есть и другие варианты, такие как Манхэттен и Хэмминг.

Чтобы понять KNN, вы можете взглянуть на пример из реальной жизни. Предположим, вы хотите подружиться с человеком, о котором у вас мало информации. Чтобы лучше узнать их, вы сначала поговорите с их друзьями и коллегами, чтобы получить представление о том, что они из себя представляют. Так работает алгоритм KNN.

При использовании алгоритма k-ближайших соседей убедитесь, что вы нормализуете переменные, поскольку переменные с более высоким диапазоном могут привести к смещению. Более того, алгоритмы KNN довольно дороги в вычислительном отношении.

Деревья решений

Деревья решений помогают предсказать возможные результаты в соответствии с рядом вариантов. Это контролируемый алгоритм обучения, в котором используются различные функции с непрерывными и категориальными зависимыми переменными.

Например, предположим, что вы хотите пойти купить фруктов для себя, но замечаете, что погода пасмурная. Теперь у вас есть два варианта: вы можете пойти, а может быть, и нет. Если вы пойдете, может пойти дождь, и тогда вам придется вернуться с пустыми руками. С другой стороны, если не идет дождь, вы можете купить фрукты, которые вам нужны. Это был простой пример, содержащий несколько переменных, но вы поняли идею.

Читайте также: Дерево решений в R

Логистическая регрессия

Логистическая регрессия не является алгоритмом регрессии. Логистическая регрессия оценивает дискретные значения в соответствии с определенным набором независимых переменных. Другими словами, он предсказывает вероятность события с помощью логит-функции. Вот почему он также называется логит-регрессией.

Поскольку логистическая регрессия была разработана для классификации, она пользуется популярностью среди экспертов. Кроме того, это наиболее подходящий алгоритм для понимания влияния различных независимых переменных на возможный результат. Его недостатком является то, что он работает только с предсказуемыми двоичными переменными и предполагает, что его данные не содержат пропущенных значений.

Машина опорных векторов

В машине опорных векторов значение каждого признака является значением определенной координаты, а каждый элемент представляет собой точку в n-мерном пространстве. Здесь «n» означает количество имеющихся у вас функций.

Предположим, у вас есть две характеристики: длина волос и рост. В этом случае мы сначала отобразим эти переменные в двумерном пространстве, и каждая точка будет иметь две координаты. Мы называем эти координаты опорными векторами; поэтому этот алгоритм называется «Машина опорных векторов».

После того, как мы нанесем эти точки, мы найдем линию, которая разбивает данные на две четко классифицированные группы. Эта строка является классификатором, и мы создадим классы в соответствии с той стороной, на которой наши данные тестирования лежат в конечном результате.

Заключительные мысли

В этом блоге мы попытались максимально подробно объяснить алгоритмы классификации. Если вы хотите узнать больше об этой теме, мы предлагаем отправиться в наш блог, который наполнен ценными статьями такого рода.

Вы также можете перейти в наш каталог курсов по машинному обучению, чтобы узнать больше по этой теме. Мы уверены, что вы найдете что-то полезное.

Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Подготовьтесь к карьере будущего

ДИПЛОМ PG В ОБЛАСТИ МАШИННОГО ОБУЧЕНИЯ И ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Узнать больше @ UPGRAD