Классификация дерева решений: все, что вам нужно знать

Опубликовано: 2020-05-29

Оглавление

Введение

Многие аналогии можно перенести из природы в нашу реальную жизнь; деревья оказались одними из самых влиятельных из них. Деревья оказали влияние на значительную область машинного обучения. Они охватывают как основную классификацию, так и регрессию. При анализе любого решения можно использовать классификатор дерева решений для представления процесса принятия решения.

Таким образом, в основном дерево решений является частью контролируемого машинного обучения, где обработка данных происходит путем непрерывного разделения данных с учетом определенного параметра.

Из чего состоят деревья решений?

Ответ на вопрос прост. Деревья решений состоят из трех основных элементов, аналогию каждой из которых можно провести с реальным деревом. Все три из них перечислены ниже:

  1. Узлы: это место, где происходит тестирование значения. В узле передается значение определенного атрибута, и он проверяется и тестируется по значениям для принятия решения.
  2. Края/ветки: эта часть соответствует результату любого теста. Ребра/ветви также отвечают за соединение двух разных узлов или листьев.
  3. Листовые узлы: это узлы, которые обычно находятся на терминалах. Листовые узлы отвечают за прогнозирование результата.

Классификация дерева решений

Деревья решений можно разделить на две категории: деревья классификации и деревья регрессии.

1. Деревья классификации

Деревья классификации — это такие типы деревьев решений, которые основаны на ответах на вопросы «Да» или «Нет» и использовании этой информации для принятия решения. Таким образом, дерево, которое определяет, подходит ли человек или нет, задавая кучу связанных вопросов и используя ответы, чтобы прийти к жизнеспособному решению, является типом дерева классификации.

Эти типы деревьев обычно строятся с использованием процесса, называемого бинарным рекурсивным разбиением. Метод бинарного рекурсивного разбиения предполагает разбиение данных на отдельные модули или секции, а затем эти секции дополнительно объединяются в каждую ветвь классификатора дерева решений .

2. Деревья регрессии

Теперь дерево решений регрессионного типа отличается от дерева решений классификационного типа в одном аспекте. Данные, которые были загружены в два дерева, сильно различаются. Деревья классификации обрабатывают данные, которые являются дискретными, в то время как деревья решений регрессии обрабатывают непрерывный тип данных. Хорошим примером деревьев регрессии может быть цена дома или то, как долго пациент обычно остается в больнице.

Узнать больше: линейная регрессия в машинном обучении

Как создаются деревья решений?

Деревья решений создаются путем получения набора данных, на которых должна обучаться модель (деревья решений являются частью контролируемого машинного обучения). Этот обучающий набор данных должен постоянно объединяться в более мелкие подмножества данных. Этот процесс дополняется созданием ассоциативного дерева, которое постепенно создается рядом друг с другом в процессе разбивки данных. После того, как машина закончила обучение, завершается создание дерева решений на основе предоставленного обучающего набора данных, и это дерево затем возвращается пользователю.

Основная идея использования дерева решений состоит в том, чтобы разделить данные на две основные области: область с плотным населением (кластер) или область с пустыми (или разреженными) областями.

Классификация дерева решений работает по элементарному принципу деления. Он побеждает там, где любой новый пример, который был введен в дерево после прохождения серии тестов, был бы организован и получил метку класса. Алгоритм «разделяй и властвуй» подробно обсуждается ниже:

Разделяй и властвуй

Очевидно, что классификатор дерева решений основан и построен с использованием эвристики, известной как рекурсивное разбиение, также известной как алгоритм «разделяй и властвуй». Он разбивает данные на более мелкие наборы и продолжает делать это. Пока не будет определено, что данные в каждом подмножестве однородны, или если пользователь определил другой критерий остановки, это остановит этот алгоритм.

Как работает классификатор дерева решений ?

  1. Алгоритм «разделяй и властвуй» используется для создания классификатора дерева решений . Используя алгоритм, мы всегда начинаем с корня дерева, а также разделяем набор данных, чтобы уменьшить неопределенность в окончательном решении.
  2. Это оказывается итеративным процессом. Итак, мы повторяем этот процесс на каждом узле. Этот процесс повторяется до тех пор, пока у нас не будет узлов желаемой чистоты.
  3. Как правило, чтобы избежать переобучения, мы устанавливаем предел чистоты, который должен быть достигнут. Это означает, что конечный результат может быть не на 100% чистым.

Основы алгоритма «разделяй и властвуй»:

  1. Сначала идет выбор или выбор теста для корневого узла. Затем начинается процесс создания веток. Ветви разработаны с учетом каждого возможного исхода испытания, которое было определено.
  2. Далее следует разделение экземпляров данных на более мелкие подмножества. Каждая ветвь будет иметь свой собственный сросток, который соединяется с узлом.
  3. Затем этот процесс необходимо повторить для каждой ветви, используя только те экземпляры, которые приходят в рассматриваемую ветвь.
  4. Этот рекурсивный процесс следует остановить, если все экземпляры принадлежат одному и тому же классу.

Преимущества использования классификации дерева решений

  1. Для строительства не требуется огромных денежных средств.
  2. Это быстрый процесс классификации записей, которые являются новыми или неизвестными.
  3. Его можно очень легко интерпретировать, особенно если дерево небольшого размера.
  4. Точность предсказания с использованием классификатора дерева решений сравнима с другими методами предсказания или классификации.
  5. Он также имеет возможность исключать функции, которые не важны. Этот процесс удаления ненужных функций выполняется автоматически.

Читайте: Как создать идеальное дерево решений?

Недостатки использования классификатора дерева решений

  1. В этом случае переоснащение набора данных очень просто.
  2. Граница решения имеет ограничение. Он может быть параллелен только осям, содержащим атрибуты.
  3. Модели, основанные на деревьях решений, часто имеют предвзятое разделение, которое имеет огромное количество уровней.
  4. Любые небольшие изменения, внесенные в набор данных, могут существенно повлиять на логику принятия решения.
  5. Лагерные деревья сложно понять, потому что иногда они могут показаться очень нелогичными.

Читайте также: Деревья решений в машинном обучении

Изучите курсы по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Заключение

Деревья решений пригодятся, когда мы сталкиваемся с проблемами, которые не могут быть решены с помощью линейных решений. Из наблюдений было замечено, что древовидные модели могут легко отображать нелинейность входных данных и эффективно устранять проблему. Сложные методы, такие как генерация случайного леса и повышение градиента, основаны на самом классификаторе дерева решений .

Деревья решений — это мощный инструмент, который можно использовать во многих областях реальной жизни, таких как биомедицинская инженерия, астрономия, управление системами, медицина, физика и т. д. Это эффективно делает классификацию дерева решений важным и незаменимым инструментом машинного обучения.

Склонны ли деревья решений к переоснащению?

Деревья решений разбивают сложные данные на более простые формы. Классификация дерева решений пытается разделить данные до тех пор, пока их нельзя будет разделить дальше. Затем создается четкая диаграмма всего возможного содержимого, которая помогает в дальнейшем анализе. Хотя обширное дерево с многочисленными соединениями дает нам прямой путь, оно также может создать проблему при тестировании данных. Это чрезмерное сращивание приводит к переоснащению, когда множество делений заставляют дерево сильно расти. В таких случаях прогностическая способность дерева решений скомпрометирована, и, следовательно, оно становится ненадежным. Сокращение — это метод, используемый для борьбы с переоснащением, при котором удаляются лишние подмножества.

Нужна ли нормализация деревьям решений?

Деревья решений — это наиболее распространенный алгоритм машинного обучения, используемый для классификации и регрессии данных. Этот контролируемый механизм объединяет данные для каждого подмножества в различные группы, пока они не достигнут конечного узла, где они не могут быть разделены дальше. Поскольку эти данные будут разделены на категории на основе предоставленных атрибутов, они будут разделены поровну. Это означает, что как данные, которые прошли нормализацию, так и данные, которые не прошли нормализацию, будут иметь одинаковое количество расщеплений. Следовательно, нормализация не является обязательным условием для древовидных моделей, основанных на принятии решений.

Как сращивать деревья решений?

Деревья решений — это надежный механизм классификации данных и прогнозирования решений. Сращивание в дереве решений требует точности; одна небольшая ошибка может поставить под угрозу целостность дерева решений. Объединение в дереве решений происходит с использованием рекурсивного разделения. Разделение данных начинается с создания подмножеств данных с помощью присвоенных им атрибутов. Данные разбиваются рекурсивно при повторении до тех пор, пока объединенные данные в каждом узле не будут признаны устаревшими при прогнозировании решений. Подмножество также может быть похоже на значение целевой переменной. Сращивание должно быть методичным и повторяющимся для хорошей точности.