Плюсы и минусы регрессии дерева решений в машинном обучении
Опубликовано: 2020-12-24Один из самых популярных алгоритмов машинного обучения, регрессия по дереву решений, используется как конкурентами, так и специалистами по науке о данных. Это прогностические модели, которые вычисляют целевое значение на основе набора бинарных правил.
Он используется для построения как регрессионных, так и классификационных моделей в виде древовидной структуры. Наборы данных разбиваются на более мелкие подмножества в дереве решений, в то время как связанное дерево решений постепенно строится одновременно.
Дерево решений используется для получения оценки на основе выполнения ряда вопросов по набору данных. Задавая эти верные/ложные вопросы, модель может сузить возможные значения и сделать прогноз. Порядок и содержание вопроса определяются самой моделью.
Оглавление
Каковы условия дерева решений?
Дерево решений имеет ветви, узлы, листья и т. д. Корневой узел — это начальный узел, представляющий всю выборку или совокупность, и он может быть далее разделен на другие узлы или однородные наборы. Узел решения состоит из двух или более узлов, представляющих отдельные значения тестируемого атрибута.
Листовой/конечный узел не делится на другие узлы и представляет собой решение. Ветвь или поддерево — это подраздел всего дерева. Разделение — это процесс разделения узла на два или более подузлов. Противоположность разделения называется обрезкой, т. е. удалением подузлов узла принятия решений. Родительский узел — это узел, который делится на подузлы, а подузел — это дочерний узел.
Связанный: Руководство по алгоритму дерева решений

Как это работает?
Алгоритм дерева решений использует точку данных и проходит через все дерево, задавая верные/ложные вопросы. Начиная с корневого узла задаются вопросы, и для каждого ответа создаются отдельные ветки, и так продолжается до тех пор, пока не будет достигнут конечный узел. Для построения дерева используется рекурсивное разбиение.
Дерево решений — это контролируемая модель машинного обучения, поэтому оно учится сопоставлять данные с выходными данными на этапе обучения построения модели. Это делается путем подгонки модели под исторические данные, которые должны иметь отношение к проблеме, а также ее истинное значение, которое модель должна научиться точно предсказывать. Это помогает модели изучить отношения между данными и целевой переменной.
После этой фазы дерево решений может построить аналогичное дерево, рассчитав вопросы и их порядок, что поможет сделать наиболее точную оценку. Таким образом, прогноз зависит от обучающих данных, которые подаются в модель.
Как принимается решение о разделении?
Решение о разделении различается для деревьев классификации и регрессии, и от него сильно зависит точность предсказания дерева. Среднеквадратическая ошибка (MSE) обычно используется, чтобы решить, следует ли разделить узел на два или более подузлов в регрессии дерева решений . В случае бинарного дерева алгоритм выбирает значение и разбивает данные на два подмножества, вычисляет MSE для каждого подмножества и в результате выбирает наименьшее значение MSE.
Внедрение регрессии дерева решений
Базовая структура для реализации алгоритма регрессии дерева решений представлена в следующих шагах.
Импорт библиотек
Первым шагом к разработке любой модели машинного обучения является импорт всех необходимых библиотек для разработки.
Загрузка данных
После импорта библиотек следующим шагом будет загрузка набора данных. Данные могут быть загружены или использованы из локальных папок пользователя.
Разделение набора данных
После загрузки данных их необходимо разделить на обучающий набор и тестовый набор и создать переменные x и y. Значения также необходимо изменить, чтобы преобразовать данные в требуемый формат.
Обучение модели
Здесь регрессионная модель дерева данных обучается с использованием обучающего набора, созданного на предыдущем шаге.
Прогнозирование результатов
Здесь результаты тестового набора прогнозируются с использованием модели, обученной на обучающем наборе.

Оценка модели
Производительность модели проверяется путем сравнения реальных значений и прогнозируемых значений на последнем этапе. О точности модели можно судить, сравнивая эти значения. Визуализация результатов путем создания графика значений также помогает оценить точность модели.

Читайте: Как создать идеальное дерево решений?
Преимущества
- Модель дерева решений можно использовать как для задач классификации, так и для задач регрессии, и ее легко интерпретировать, понимать и визуализировать.
- Вывод дерева решений также легко понять.
- По сравнению с другими алгоритмами подготовка данных при предварительной обработке в дереве решений требует меньших усилий и не требует нормализации данных.
- Реализация также может быть выполнена без масштабирования данных.
- Дерево решений — один из самых быстрых способов определить взаимосвязь между переменными и самой значимой переменной.
- Новые функции также могут быть созданы для лучшего предсказания целевой переменной.
- На деревья решений не сильно влияют выбросы или пропущенные значения, и они могут обрабатывать как числовые, так и категориальные переменные.
- Поскольку это непараметрический метод, он не имеет предположений о пространственных распределениях и структуре классификатора.
Недостатки
- Переоснащение является одной из практических трудностей для моделей дерева решений. Это происходит, когда алгоритм обучения продолжает разрабатывать гипотезы, которые уменьшают ошибку обучающего набора, но за счет увеличения ошибки тестового набора. Но эту проблему можно решить, обрезав и установив ограничения на параметры модели.
- Деревья решений нельзя использовать с непрерывными числовыми переменными.
- Небольшое изменение данных приводит к большим различиям в древовидной структуре, что вызывает нестабильность.
- Используемые вычисления также могут стать сложными по сравнению с другими алгоритмами, и обучение модели занимает больше времени.
- Это также относительно дорого, поскольку количество времени и уровни сложности выше.
Заключение
Алгоритм регрессии дерева решений был объяснен в этой статье путем описания того, как строится дерево , а также кратких определений различных терминов, относящихся к нему. Также включено краткое описание того, как работает дерево решений и как принимается решение о разделении любого узла.
Как можно реализовать базовую регрессию дерева решений, также было объяснено с помощью последовательности шагов. Наконец, были представлены преимущества и недостатки алгоритма дерева решений.
Если вам интересно узнать больше о деревьях решений и машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий. , статус выпускника IIIT-B, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.
Регрессия используется для прогнозирования непрерывных переменных. Это когда мы должны предсказать число. Например, если вы хотите предсказать цены на дома в городе на основе таких характеристик, как размер дома и площадь города, будет использоваться регрессия. Проблемы регрессии очень легко решить с помощью линейной регрессии. В двух словах, регрессия — это процесс оценки неизвестного выходного значения на основе входного значения. Дерево решений — это диаграмма, которая показывает все возможные решения и возможные результаты. Деревья решений часто используются для изучения того, как решения влияют на будущие результаты. Например, дерево решений может помочь компании проанализировать, следует ли ей покупать дополнительные склады или строить новый распределительный центр. Как правило, деревья решений используются в исследованиях операций и управленческой науке. Деревья решений — распространенная и популярная концепция при принятии решений и планировании программ. Их можно использовать при выборе между вариантами действий, когда некоторые из возможных вариантов являются взаимоисключающими и когда результат каждого варианта действий зависит от состояния мира. Модель деревьев решений можно использовать для любого класса задач, как для классификации, так и для численного прогнозирования. Его можно распространить на любой класс задач. Его можно использовать как для контролируемой, так и для неконтролируемой классификации. Он может обрабатывать смесь числовых и категориальных функций. Дает стабильные результаты. Однако трудно понять причину прогноза. Следует понимать, что модель изучает не лучшее разделение в каждом узле дерева, а изучает распределение вероятностей класса в каждом узле. Это требование делает модель ресурсоемкой и не позволяет ей обрабатывать большие объемы данных.Что такое регрессия в машинном обучении?
Что такое деревья решений?
Каковы преимущества и недостатки деревьев решений?