Руководство по алгоритму дерева решений: приложения, плюсы и минусы и пример

Опубликовано: 2020-12-10

Существуют различные виды алгоритмов машинного обучения, и каждый из них имеет уникальное применение. В этой статье мы рассмотрим один из самых популярных и полезных алгоритмов машинного обучения — алгоритм дерева решений. Мы обсудили пример дерева решений в R, чтобы помочь вам ознакомиться с его использованием. Давайте начнем.

Оглавление

Что такое алгоритм дерева решений?

Дерево решений — это своего рода контролируемый алгоритм машинного обучения, который имеет корневой узел и конечные узлы. Каждый узел представляет функцию, а связи между узлами показывают решение. Каждый лист представляет собой результат.

Предположим, вы хотите пойти на рынок, чтобы купить овощи. У тебя есть два выхода: либо ты идешь, либо нет. Если вы не пойдете, вы не получите овощи, но если вы пойдете, вам придется добраться до рынка, который ведет к другому разделу выбора. Дерево решений работает именно так.

Приложения деревьев решений

Вот некоторые приложения деревьев решений:

Маркетинг:

Предприятия могут использовать деревья решений для повышения точности своих рекламных кампаний, наблюдая за эффективностью продуктов и услуг своих конкурентов. Деревья решений могут помочь в сегментации аудитории и помочь предприятиям создавать более целенаправленную рекламу с более высоким коэффициентом конверсии.

Удержание клиентов:

Компании используют деревья решений для удержания клиентов, анализируя их поведение и выпуская новые предложения или продукты, соответствующие этому поведению. Используя модели дерева решений, компании также могут определить уровень удовлетворенности своих клиентов.

Диагностика болезней и недомоганий:

Деревья принятия решений могут помочь врачам и медицинским работникам в выявлении пациентов с повышенным риском развития серьезных (или предотвратимых) состояний, таких как диабет или деменция. Способность деревьев решений сужать возможности в соответствии с конкретными переменными весьма полезна в таких случаях.

Обнаружение мошенничества:

Компании могут предотвращать мошенничество, используя деревья решений для заблаговременного выявления мошеннического поведения. Это может сэкономить компаниям много ресурсов, включая время и деньги.

Преимущества и недостатки деревьев решений

Преимущества алгоритма дерева решений:

Ниже приведены основные преимущества использования дерева решений в R:

  • Понимание результатов проще, чем другие модели. Вы можете поручить технической группе запрограммировать вашу модель дерева решений, чтобы она работала быстрее, и вы можете применить ее к новым экземплярам. Его расчеты включают тесты включения по экземпляру, который является качественной или количественной моделью.
  • Он непараметрический. По этой причине независимые переменные, присутствующие в нашей задаче, не должны следовать каким-либо конкретным распределениям вероятностей. У вас могут быть коллинеарные переменные. Независимо от того, различают они или нет, это не влияет на ваше дерево решений, потому что ему не нужно выбирать эти переменные.
  • Они способны работать с пропущенными значениями. CHAID помещает все недостающие значения в категорию, которую вы можете объединить с другой или отделить от других.
  • Экстремальные отдельные значения (например, выбросы) не оказывают большого влияния на деревья решений. Вы можете изолировать их в небольших узлах, чтобы они не влияли на всю классификацию.
  • Это дает вам отличное визуальное представление процесса принятия решений. Каждая ветвь дерева решений обозначает факторы, которые могут повлиять на ваши решения, и вы видите более широкую картину. Вы можете использовать деревья решений для улучшения коммуникации в вашей команде.
  • Деревья CART могут напрямую обрабатывать все типы переменных, включая качественные, непрерывные и дискретные переменные.

Недостатки алгоритма дерева решений

  • Он не анализирует все независимые переменные одновременно. Вместо этого он оценивает их последовательно. Из-за этого дерево никогда не пересматривает деление узла на любом уровне, что может привести к смещению в выборе дерева.
  • Изменение даже одной переменной может повлиять на все дерево, если оно близко к вершине. Есть способы решить эту проблему. Например, вы можете построить дерево на нескольких образцах и агрегировать их в соответствии со средним значением (или голосованием); это называется повторной выборкой. Однако это приводит к другому набору проблем, поскольку снижает удобочитаемость модели, делая ее более сложной. Итак, с помощью ресемплинга можно избавиться от лучших качеств деревьев решений. Почему это проблема? Предположим, что одна переменная обладает всеми качествами определенной группы, но она также имеет качество, по которому дерево расщепляется. В этом случае дерево поместит его в неправильный класс только потому, что оно обладает этим важным качеством.
  • Все узлы определенного уровня в дереве решений зависят от узлов на своих предыдущих уровнях. Другими словами, то, как вы определяете узлы на уровне «n+1», полностью зависит от вашего определения узлов на уровне «n». Если ваше определение на уровне «n» неверно, все последующие уровни и узлы, присутствующие на этих уровнях, также будут неправильными.

Узнайте: линейная регрессия в машинном обучении

Дерево решений в R (пример)

Вам понадобится rpart для построения дерева решений в R. Мы используем rpart для классификации. В R вы строите дерево решений на основе рекурсивного алгоритма разбиения, который генерирует решение, а вместе с ним и деревья регрессии. Он состоит из двух шагов:

  • Во-первых, он идентифицирует переменную, которая наилучшим образом разбивает данные на две отдельные группы.
  • Во-вторых, он будет повторять процесс предыдущего шага для каждой подгруппы до тех пор, пока эти группы не достигнут определенного размера или если он больше не сможет вносить улучшения в эти подгруппы.

В качестве примера имеем следующие данные:

В приведенных выше данных у вас есть время и ускорение велосипеда. Мы должны предсказать его ускорение в зависимости от времени. Мы сделаем это, выполнив следующие действия:

1библиотека (часть)

Затем загрузите данные:

1данные(велосипед)

Теперь создадим точечную диаграмму:

1 график (разгон ~ раз, данные = велосипед)

После того, как мы это сделали, мы создадим дерево:

1mct <- rpart(ускорение ~ раз, данные=велосипед)

Наш последний шаг — построить график:

1 участок (мкт)

Читайте: Как создать идеальное дерево решений?

Последние мысли

Теперь у нас есть прекрасно работающая модель дерева решений в R. Вы можете найти больше подобных руководств в нашем блоге.

Если вам интересно узнать больше о деревьях решений и машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий. , статус выпускника IIIT-B, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Что является наиболее важной особенностью алгоритма дерева решений?

Алгоритмы дерева решений являются ценным инструментом для определения решительности и анализа рисков и часто выражаются в виде графика или списка правил. Простота использования алгоритмов дерева решений является одной из его важнейших характеристик. Они легко понятны и актуальны, поскольку они наглядны. Даже если пользователи не знакомы с построением алгоритмов дерева решений, они могут успешно его применять. Алгоритмы дерева решений чаще всего используются для прогнозирования будущих событий на основе предыдущего опыта и помогают в принятии рациональных решений. Другой важной областью алгоритмов дерева решений является интеллектуальный анализ данных, где деревья решений используются в качестве инструмента классификации и моделирования, как подробнее обсуждается ниже.

Насколько важен алгоритм дерева решений?

Алгоритм дерева решений имеет важное преимущество, заключающееся в принудительном анализе всех мыслимых результатов решения и отслеживании каждого пути к заключению. Он производит подробное исследование последствий для каждой ветви и указывает узлы принятия решений, которые требуют дополнительного изучения. Кроме того, алгоритмы дерева решений присваивают каждой трудности, пути решения и результату уникальное значение. Этот метод выделяет важные пути принятия решений, снижает неопределенность, устраняет двусмысленность и проясняет финансовые последствия альтернативных вариантов действий. Когда фактическая информация недоступна, пользователи могут использовать алгоритмы дерева решений, чтобы сопоставлять варианты друг с другом для простых сравнений, используя вероятности для обстоятельств.

На каком методе основан алгоритм дерева решений?

Алгоритм дерева решений основан на методе дерева решений, который можно использовать для задач классификации и регрессии. Название подразумевает использование древовидной структуры, похожей на блок-схему, для отображения прогнозов, полученных в результате последовательности разделений на основе признаков. Он начинается с корневого узла и заканчивается конечным решением. Дерево решений состоит из трех типов узлов, т. е. квадратов, которые обычно представляют узлы решений, узлов шансов, которые обычно изображаются в кругах, и треугольников, которые символизируют конечные узлы.