Руководство по алгоритму дерева решений: приложения, плюсы и минусы и пример
Опубликовано: 2020-12-10Существуют различные виды алгоритмов машинного обучения, и каждый из них имеет уникальное применение. В этой статье мы рассмотрим один из самых популярных и полезных алгоритмов машинного обучения — алгоритм дерева решений. Мы обсудили пример дерева решений в R, чтобы помочь вам ознакомиться с его использованием. Давайте начнем.
Оглавление
Что такое алгоритм дерева решений?
Дерево решений — это своего рода контролируемый алгоритм машинного обучения, который имеет корневой узел и конечные узлы. Каждый узел представляет функцию, а связи между узлами показывают решение. Каждый лист представляет собой результат.
Предположим, вы хотите пойти на рынок, чтобы купить овощи. У тебя есть два выхода: либо ты идешь, либо нет. Если вы не пойдете, вы не получите овощи, но если вы пойдете, вам придется добраться до рынка, который ведет к другому разделу выбора. Дерево решений работает именно так.
Приложения деревьев решений
Вот некоторые приложения деревьев решений:
Маркетинг:
Предприятия могут использовать деревья решений для повышения точности своих рекламных кампаний, наблюдая за эффективностью продуктов и услуг своих конкурентов. Деревья решений могут помочь в сегментации аудитории и помочь предприятиям создавать более целенаправленную рекламу с более высоким коэффициентом конверсии.
Удержание клиентов:
Компании используют деревья решений для удержания клиентов, анализируя их поведение и выпуская новые предложения или продукты, соответствующие этому поведению. Используя модели дерева решений, компании также могут определить уровень удовлетворенности своих клиентов.
Диагностика болезней и недомоганий:
Деревья принятия решений могут помочь врачам и медицинским работникам в выявлении пациентов с повышенным риском развития серьезных (или предотвратимых) состояний, таких как диабет или деменция. Способность деревьев решений сужать возможности в соответствии с конкретными переменными весьма полезна в таких случаях.
Обнаружение мошенничества:
Компании могут предотвращать мошенничество, используя деревья решений для заблаговременного выявления мошеннического поведения. Это может сэкономить компаниям много ресурсов, включая время и деньги.
Преимущества и недостатки деревьев решений
Преимущества алгоритма дерева решений:
Ниже приведены основные преимущества использования дерева решений в R:
- Понимание результатов проще, чем другие модели. Вы можете поручить технической группе запрограммировать вашу модель дерева решений, чтобы она работала быстрее, и вы можете применить ее к новым экземплярам. Его расчеты включают тесты включения по экземпляру, который является качественной или количественной моделью.
- Он непараметрический. По этой причине независимые переменные, присутствующие в нашей задаче, не должны следовать каким-либо конкретным распределениям вероятностей. У вас могут быть коллинеарные переменные. Независимо от того, различают они или нет, это не влияет на ваше дерево решений, потому что ему не нужно выбирать эти переменные.
- Они способны работать с пропущенными значениями. CHAID помещает все недостающие значения в категорию, которую вы можете объединить с другой или отделить от других.
- Экстремальные отдельные значения (например, выбросы) не оказывают большого влияния на деревья решений. Вы можете изолировать их в небольших узлах, чтобы они не влияли на всю классификацию.
- Это дает вам отличное визуальное представление процесса принятия решений. Каждая ветвь дерева решений обозначает факторы, которые могут повлиять на ваши решения, и вы видите более широкую картину. Вы можете использовать деревья решений для улучшения коммуникации в вашей команде.
- Деревья CART могут напрямую обрабатывать все типы переменных, включая качественные, непрерывные и дискретные переменные.
Недостатки алгоритма дерева решений
- Он не анализирует все независимые переменные одновременно. Вместо этого он оценивает их последовательно. Из-за этого дерево никогда не пересматривает деление узла на любом уровне, что может привести к смещению в выборе дерева.
- Изменение даже одной переменной может повлиять на все дерево, если оно близко к вершине. Есть способы решить эту проблему. Например, вы можете построить дерево на нескольких образцах и агрегировать их в соответствии со средним значением (или голосованием); это называется повторной выборкой. Однако это приводит к другому набору проблем, поскольку снижает удобочитаемость модели, делая ее более сложной. Итак, с помощью ресемплинга можно избавиться от лучших качеств деревьев решений. Почему это проблема? Предположим, что одна переменная обладает всеми качествами определенной группы, но она также имеет качество, по которому дерево расщепляется. В этом случае дерево поместит его в неправильный класс только потому, что оно обладает этим важным качеством.
- Все узлы определенного уровня в дереве решений зависят от узлов на своих предыдущих уровнях. Другими словами, то, как вы определяете узлы на уровне «n+1», полностью зависит от вашего определения узлов на уровне «n». Если ваше определение на уровне «n» неверно, все последующие уровни и узлы, присутствующие на этих уровнях, также будут неправильными.
Узнайте: линейная регрессия в машинном обучении

Дерево решений в R (пример)
Вам понадобится rpart для построения дерева решений в R. Мы используем rpart для классификации. В R вы строите дерево решений на основе рекурсивного алгоритма разбиения, который генерирует решение, а вместе с ним и деревья регрессии. Он состоит из двух шагов:
- Во-первых, он идентифицирует переменную, которая наилучшим образом разбивает данные на две отдельные группы.
- Во-вторых, он будет повторять процесс предыдущего шага для каждой подгруппы до тех пор, пока эти группы не достигнут определенного размера или если он больше не сможет вносить улучшения в эти подгруппы.
В качестве примера имеем следующие данные:
В приведенных выше данных у вас есть время и ускорение велосипеда. Мы должны предсказать его ускорение в зависимости от времени. Мы сделаем это, выполнив следующие действия:
1библиотека (часть)
Затем загрузите данные:
1данные(велосипед)
Теперь создадим точечную диаграмму:
1 график (разгон ~ раз, данные = велосипед)
После того, как мы это сделали, мы создадим дерево:
1mct <- rpart(ускорение ~ раз, данные=велосипед)
Наш последний шаг — построить график:
1 участок (мкт)
Читайте: Как создать идеальное дерево решений?
Последние мысли
Теперь у нас есть прекрасно работающая модель дерева решений в R. Вы можете найти больше подобных руководств в нашем блоге.
Если вам интересно узнать больше о деревьях решений и машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий. , статус выпускника IIIT-B, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.
Что является наиболее важной особенностью алгоритма дерева решений?
Алгоритмы дерева решений являются ценным инструментом для определения решительности и анализа рисков и часто выражаются в виде графика или списка правил. Простота использования алгоритмов дерева решений является одной из его важнейших характеристик. Они легко понятны и актуальны, поскольку они наглядны. Даже если пользователи не знакомы с построением алгоритмов дерева решений, они могут успешно его применять. Алгоритмы дерева решений чаще всего используются для прогнозирования будущих событий на основе предыдущего опыта и помогают в принятии рациональных решений. Другой важной областью алгоритмов дерева решений является интеллектуальный анализ данных, где деревья решений используются в качестве инструмента классификации и моделирования, как подробнее обсуждается ниже.
Насколько важен алгоритм дерева решений?
Алгоритм дерева решений имеет важное преимущество, заключающееся в принудительном анализе всех мыслимых результатов решения и отслеживании каждого пути к заключению. Он производит подробное исследование последствий для каждой ветви и указывает узлы принятия решений, которые требуют дополнительного изучения. Кроме того, алгоритмы дерева решений присваивают каждой трудности, пути решения и результату уникальное значение. Этот метод выделяет важные пути принятия решений, снижает неопределенность, устраняет двусмысленность и проясняет финансовые последствия альтернативных вариантов действий. Когда фактическая информация недоступна, пользователи могут использовать алгоритмы дерева решений, чтобы сопоставлять варианты друг с другом для простых сравнений, используя вероятности для обстоятельств.
На каком методе основан алгоритм дерева решений?
Алгоритм дерева решений основан на методе дерева решений, который можно использовать для задач классификации и регрессии. Название подразумевает использование древовидной структуры, похожей на блок-схему, для отображения прогнозов, полученных в результате последовательности разделений на основе признаков. Он начинается с корневого узла и заканчивается конечным решением. Дерево решений состоит из трех типов узлов, т. е. квадратов, которые обычно представляют узлы решений, узлов шансов, которые обычно изображаются в кругах, и треугольников, которые символизируют конечные узлы.