Объяснение дерева решений в машинном обучении [с примерами]

Опубликовано: 2020-12-21

Введение

Обучение дереву решений — это распространенный метод интеллектуального анализа данных и форма контролируемого машинного обучения. Дерево решений похоже на диаграмму, с помощью которой люди представляют статистическую вероятность или находят ход событий, действие или результат. Пример дерева решений позволяет лучше понять концепцию.

Ветви на диаграмме дерева решений показывают вероятный результат, возможное решение или реакцию. Ветвь в конце дерева решений отображает прогноз или результат. Деревья решений обычно используются для поиска решения проблемы, которую сложно решить вручную. Давайте разберемся в этом подробно с помощью нескольких примеров дерева решений.

Дерево решений — это один из популярных и мощных инструментов, который используется для прогнозирования и классификации данных или событий. Это похоже на блок-схему, но имеет древовидную структуру. Внутренние узлы деревьев представляют тест или вопрос по атрибуту; каждая ветвь является возможным результатом заданного вопроса, а конечный узел, который также называется конечным узлом, обозначает метку класса.

В дереве решений у нас есть несколько переменных-предикторов. В зависимости от этих предикторов попробуйте предсказать так называемую переменную отклика.

Связанное Чтение: Классификация дерева решений: все, что вам нужно знать

Дерево решений в машинном обучении

Представляя несколько шагов в виде последовательности, дерево решений становится простым и эффективным способом понять и визуализировать возможные варианты решений и потенциальные результаты из диапазона. Деревья решений также помогают определить возможные варианты и взвесить выгоды и риски для каждого варианта действий, который может быть получен.

Дерево решений развернуто во многих малых и крупных организациях в качестве своего рода системы поддержки при принятии решений. Поскольку пример дерева решений представляет собой структурированную модель, читатели могут понять диаграмму и проанализировать, как и почему конкретный вариант может привести к соответствующему решению. Пример дерева решений также позволяет читателю предсказать и получить несколько возможных решений для одной проблемы, понять формат и связь между различными событиями и данными с решением.

Каждому результату в дереве присваивается номер вознаграждения и риска или вес. Если вы когда-нибудь воспользуетесь деревом решений, то у вас будет каждый конечный результат с возможными недостатками и преимуществами. Чтобы завершить свое дерево правильно, вы можете растянуть его настолько коротким или длинным, насколько это необходимо, в зависимости от события и объема данных. Давайте возьмем простой пример дерева решений, чтобы лучше понять его.

Рассмотрим приведенные данные, которые состоят из таких сведений о людях, как: пьют ли они, курят ли они, их вес и возраст, в котором эти люди умерли.

Имя	Пьющий	Курильщик	Масса	Возраст (умер)
Сэм	да	да	120	44
Мэри	Нет	Нет	70	96
Йонас	да	Нет	72	88
Тейлор	да	да	55	52
Джо	Нет	да	94	56
Гарри	Нет	Нет	62	93

Давайте попробуем предсказать, умрут ли люди в более молодом возрасте или в более старшем. Такие характеристики, как пьющий, курящий и вес, будут выступать в качестве прогностического значения. Используя их, мы будем рассматривать возраст как переменную отклика.

Давайте обозначим, что люди, умершие до 70 лет, умерли «молодыми», а люди, умершие после 70 лет, умерли «старыми». Давайте теперь предскажем переменную ответа на основе переменной-предиктора. Ниже приведено дерево решений, сделанное после изучения данных.

Приведенное выше дерево решений объясняет, что если человек курит, он умирает молодым. Если человек не курит, то следующий фактор, который учитывается, это то, пьет ли человек или нет. Если человек не курит и не пьет, он умирает старым.

Если человек не курит и пьет, то учитывается вес человека. Если человек не курит, пьет и весит меньше 90 кг, то человек умирает старым. И, наконец, если человек не курит, пьет и весит более 90 кг, то он умирает молодым.

Из приведенных данных давайте возьмем пример Йонаса, чтобы проверить, правильно ли классифицировано дерево решений и правильно ли оно предсказывает переменную ответа. Йонас не курит, пьет и весит менее 90 кг. Согласно дереву решений, он умрет старым (возраст, в котором он умрет> 70 лет). Кроме того, согласно данным, он умер в возрасте 88 лет, это означает, что пример дерева решений был классифицирован правильно и работал отлично.

Но задумывались ли вы когда-нибудь об основной идее работы дерева решений? В дереве решений набор экземпляров разбивается на подмножества таким образом, чтобы вариации в каждом подмножестве становились меньше. То есть мы хотим уменьшить энтропию, и, следовательно, уменьшается вариация, а событие или экземпляр пытаются сделать чистым.

Рассмотрим аналогичный пример дерева решений . Во-первых, мы рассматриваем, курит человек или нет.

Здесь мы не уверены в некурящих. Итак, делим на пьющих и непьющих.

На приведенной ниже диаграмме видно, что мы перешли от высокой энтропии, имеющей большие вариации, к уменьшению ее до меньшего класса, в котором мы более уверены. Таким образом, вы можете постепенно построить любой пример дерева решений .

Давайте построим дерево решений, используя алгоритм ID3. Что более важно в дереве решений, так это глубокое понимание энтропии. Энтропия есть не что иное, как степень неопределенности. Его дают:

(Иногда его также обозначают буквой «Е»)

Если мы применим его к приведенному выше примеру, он будет выглядеть следующим образом:

Рассмотрим случай, когда у нас нет людей, разделенных на какие-либо категории. Это наихудший сценарий (высокая энтропия), когда оба типа людей имеют одинаковое количество. Соотношение здесь 3:3.

Точно так же для людей, которые не пьют, соотношение 1: 1, а энтропия будет равна 1. Таким образом, требуется дальнейшее разделение из-за неопределенности. Для людей, которые не пьют, соотношение составляет 2:0. Следовательно, энтропия равна 0.

Теперь мы вычислили энтропию для разных случаев и, следовательно, можем вычислить средневзвешенное значение для одного и того же.

Для первой ветви E= 6 6 1=1

Для класса курильщиков E= 2 6 0+ 4 6 0,811=0,54 .

Для класса курильщиков и пьющих E= 2 6 0+ 2 6 1+ 2 6 0=0,33 .

Приведенная ниже диаграмма поможет вам быстро понять приведенные выше расчеты.

Наконец, информационный прирост:

Сорт	Энтропия	Прирост информации (E2-E1)
Люди	1	0,46
Курильщик	0,54	0,21
Курильщик+пьющий	0,33	–

Читайте также: Вопросы и ответы на собеседовании по дереву решений

Заключение

Мы успешно изучили деревья решений, начиная с теории и заканчивая практическим примером дерева решений . Мы также построили дерево решений, используя алгоритм ID3. Если вам это показалось интересным, возможно, вы захотите подробно изучить науку о данных.

Если вам интересно узнать больше о деревьях решений и машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий. , статус выпускника IIIT-B, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Что такое деревья решений?

Деревья решений используются для визуальной организации и систематизации информации о принятии решений. Деревья нарисованы так, чтобы корень был вверху, а листья внизу. Деревья решений читаются снизу вверх, двигаясь слева направо. Каждый уровень дерева является базой для дальнейшего тестирования, и решения на каждом уровне будут сужать область до тех пор, пока не будет получен ответ на вопрос. Дерево решений разбивает проблему или решение на несколько подрешений и следует логическому пути к корню, который является основной целью. Деревья решений используются для анализа бизнес-среды, расстановки приоритетов и предоставления информации, чтобы принимать решения о том, в каком направлении двигаться.

Каковы проблемы обучения дерева решений в машинном обучении?

Деревья решений можно использовать в качестве основы для тестирования новых стратегий или для объяснения стратегий другим. Дерево решений объясняет, что произойдет при заданном наборе предположений. Их также можно использовать для оценки эффективности стратегии, которая использовалась в прошлом. Известно, что деревья решений слишком восприимчивы к ошибкам из-за всех своих ветвей. Деревья решений не всегда точны, потому что иногда они не учитывают все возможные переменные, и человек, анализирующий дерево решений, может не разбираться во всех аспектах конкретной ситуации.

Какие данные лучше всего подходят для деревьев решений?

Деревья решений помогают находить закономерности в данных, используя структуру, подобную блок-схеме. Наилучшим типом данных будут качественные, категориальные и числовые. Хотя деревья решений работают со всеми типами данных, лучше всего они работают с числовыми данными. Они должны быть в состоянии иметь значения, которые являются числами, или должен быть способ перевести их в числа. Деревья решений сильно зависят от типа данных, а также от их количества. Если количество точек данных превышает 100, деревья решений могут быть хорошей моделью.