Вопросы и ответы на собеседовании по дереву решений [для начинающих и опытных]

Опубликовано: 2020-09-22

В мире машинного обучения деревья решений являются одним из, если не самым уважаемым, алгоритмом. Деревья решений также сильны. Деревья решений используются как для прогнозирования непрерывных значений (регрессия), так и для прогнозирования классов (выполнение классификации или классификации) экземпляров, предоставленных алгоритму.

Деревья решений по своей структуре похожи на блок-схемы. Узел любого дерева решений представляет собой проверку атрибута. Каждая ветвь дерева решений представляет результаты проверки, проведенной на каждом узле. Узел каждого листа (также известный как терминальные узлы) содержит метку класса.

Это было о структуре дерева; однако всплеск популярности деревьев решений не связан с тем, как они создаются. Прозрачность дерева придает ему особое положение в мире, где доминируют мощные и полезные алгоритмы. На самом деле вы можете сделать все вручную для небольшого дерева решений и предсказать, как будет сформировано дерево решений. Для деревьев большего размера это упражнение становится довольно утомительным.

Однако это не означает, что вы не сможете понять, что делает дерево в каждом узле. Способность понять, что происходит за кулисами или под капотом, действительно отличает деревья решений от любого другого алгоритма машинного обучения.

Как мы видели, насколько важны деревья решений, естественно, что деревья решений также будут иметь решающее значение для любого специалиста по машинному обучению или специалиста по данным. Чтобы помочь вам понять эту концепцию и в то же время помочь вам получить дополнительную изюминку в вашем интервью, мы составили исчерпывающий список вопросов для интервью по дереву решений, а также вопросов и ответов для интервью по дереву решений. Эти вопросы должны помочь вам пройти любое собеседование. Попробуйте сначала решить каждый из этих вопросов, прежде чем читать решения, чтобы получить максимальную отдачу от этих вопросов.

Оглавление

Вопросы и ответы на собеседовании по дереву принятия решений

Q1. Вы увидите два утверждения, перечисленных ниже. Вам нужно будет внимательно прочитать их оба, а затем выбрать один из вариантов из двух вариантов утверждений. Контекстуальный вопрос: выберите утверждения, которые верны о деревьях мешков.

Отдельные деревья совсем не зависят друг от друга для дерева мешков.
Чтобы улучшить общую производительность модели, агрегат берется у слабых учеников. Этот метод известен как деревья мешков.
Только утверждение номер один является ИСТИННЫМ.
Только утверждение номер два является ИСТИННЫМ.
Оба утверждения один и два ИСТИННЫ.
Ни один из вариантов, упомянутых выше.

Ответ Правильный ответ на этот вопрос — C, потому что для дерева мешков оба эти утверждения верны. В деревьях мешков или агрегации начальной загрузки основная цель применения этого алгоритма состоит в том, чтобы уменьшить количество дисперсии, присутствующей в дереве решений. Механизм создания дерева мешков заключается в том, что при замене из имеющейся выборки берется ряд подмножеств для обучения данных.

Теперь каждое из этих меньших подмножеств данных используется для обучения отдельного дерева решений. Поскольку информация, поступающая в каждое дерево, оказывается уникальной, вероятность того, что какое-либо дерево окажет какое-либо влияние на другое, становится очень низкой. Конечный результат, который дают все эти деревья, собирается, а затем обрабатывается для получения вывода. Таким образом, второе утверждение также оказывается верным.

Q2. Вы увидите два утверждения, перечисленных ниже. Вам нужно будет внимательно прочитать их оба, а затем выбрать один из вариантов из двух вариантов утверждений. Контекстуальный вопрос: выберите утверждения, которые верны в отношении бустинга деревьев.

Слабые ученики в повышающем дереве не зависят друг от друга.
Вся производительность слабых учеников собирается и агрегируется, чтобы улучшить общую производительность усиленного дерева.
Только утверждение номер один является ИСТИННЫМ.
Только утверждение номер два является ИСТИННЫМ.
Оба утверждения один и два ИСТИННЫ.
Ни один из вариантов, упомянутых выше.

Ответ Если бы вы поняли, как выполняется бустинг деревьев, вы бы поняли и смогли бы отличить правильное утверждение от утверждения, которое является ложным. Итак, усиленное дерево создается при последовательном соединении множества слабых учеников. Каждое дерево, представленное в этой последовательности, преследует одну единственную цель: уменьшить ошибку, допущенную его предшественником.

Если деревья связаны таким образом, все деревья не могут быть независимыми друг от друга, что делает первое утверждение ложным. Что касается второго утверждения, то оно верно главным образом потому, что в усиленном дереве именно этот метод применяется для повышения общей производительности модели. Правильным вариантом будет Б, т.е. только утверждение номер два ИСТИННО, а утверждение номер один ЛОЖНО.

Q3. Вы увидите четыре утверждения, перечисленных ниже. Вам нужно будет внимательно прочитать их все, а затем выбрать один из вариантов, следующих за четырьмя утверждениями. Контекстуальный вопрос: выберите утверждения, которые верны о лесах Радома и методе ансамбля повышения градиента.

Для выполнения классификации можно использовать как методы случайного леса, так и ансамблевые методы повышения градиента.
Случайные леса можно использовать для выполнения задач классификации, тогда как метод повышения градиента может выполнять только регрессию.
Повышение градиента можно использовать для выполнения задач классификации, тогда как метод случайного леса может выполнять только регрессию.
Для выполнения регрессии можно использовать как методы случайного леса, так и ансамблевые методы повышения градиента.
Только утверждение номер один является ИСТИННЫМ.
Только утверждение номер два является ИСТИННЫМ.
Оба утверждения один и два ИСТИННЫ.
Только утверждение номер три ВЕРНО
Только утверждение номер четыре ВЕРНО
Только утверждения номер один и четыре ВЕРНЫ

Ответ Ответ на этот вопрос прост. Оба этих ансамблевых метода на самом деле очень хорошо подходят как для задач классификации, так и для регрессии. Итак, ответ на этот вопрос будет F, потому что только утверждения номер один и номер четыре ИСТИННЫ.

Q4 Вы увидите четыре утверждения, перечисленных ниже. Вам нужно будет внимательно прочитать их все, а затем выбрать один из вариантов, следующих за четырьмя утверждениями. Контекстуальный вопрос: рассмотрим случайный лес деревьев. Так что же будет верным в отношении каждого или любого из деревьев в случайном лесу?

Каждое дерево, составляющее случайный лес, основано на подмножестве всех признаков.
Каждый из случайных лесов построен на всех функциях.
Каждое дерево в случайном лесу строится на подмножестве всех имеющихся наблюдений.
Каждое дерево в случайном лесу строится на полном наборе наблюдений.
Только утверждение номер один является ИСТИННЫМ.
Только утверждение номер два является ИСТИННЫМ.
Оба утверждения один и два ИСТИННЫ.
Только утверждение номер три ВЕРНО
Только утверждение номер четыре ВЕРНО
Оба утверждения номер один и четыре ВЕРНЫ
Оба утверждения номер один и три ВЕРНЫ
Оба утверждения номер два и три ВЕРНЫ
Оба утверждения номер два и четыре ВЕРНЫ

Ответ Генерация случайных лесов основана на концепции бэггинга. Чтобы построить случайный лес, берется небольшое подмножество как из наблюдений, так и из признаков. Значения, полученные после удаления подмножеств, затем вводятся в сингулярные деревья решений. Затем все значения из всех таких деревьев решений собираются для принятия окончательного решения. Это означает, что единственными правильными утверждениями будут первое и третье. Так что правильным вариантом будет Г.

Q5 Вы увидите четыре утверждения, перечисленных ниже. Вам нужно будет внимательно прочитать их все, а затем выбрать один из вариантов, следующих за четырьмя утверждениями. Контекстуальный вопрос заключается в том, чтобы выбрать правильные утверждения о гиперпараметре, известном как «max_depth» алгоритма повышения градиента.

Выбор меньшего значения этого гиперпараметра лучше, если точность набора проверки аналогична.
Выбор более высокого значения этого гиперпараметра лучше, если точность набора проверки аналогична.
Если мы увеличим значение этого гиперпараметра, то шансы того, что эта модель действительно переобучит данные, возрастут.
Если мы увеличим значение этого гиперпараметра, то вероятность того, что эта модель действительно не соответствует данным, возрастет.
Только утверждение номер один является ИСТИННЫМ.
Только утверждение номер два является ИСТИННЫМ.
Оба утверждения один и два ИСТИННЫ.
Только утверждение номер три ВЕРНО
Только утверждение номер четыре ВЕРНО
Оба утверждения номер один и четыре ВЕРНЫ
Оба утверждения номер один и три ВЕРНЫ
Оба утверждения номер два и три ВЕРНЫ
Оба утверждения номер два и четыре ВЕРНЫ

Ответ Гиперпараметр max_depth управляет глубиной до тех пор, пока повышение градиента не смоделирует представленные данные перед ним. Если вы продолжите увеличивать значение этого гиперпараметра, модель обязательно переобучится. Итак, утверждение номер три верно. Если у нас одинаковые оценки по проверочным данным, мы обычно предпочитаем модель с меньшей глубиной. Итак, утверждения номер один и три верны, и, таким образом, ответ на вопросы интервью этого дерева решений – g.

Q6. Вы увидите четыре утверждения, перечисленных ниже. Вам нужно будет внимательно прочитать их все, а затем выбрать один из вариантов, следующих за четырьмя утверждениями. Контекстуальный вопрос заключается в том, какой из следующих методов не имеет скорости обучения в качестве одного из своих настраиваемых гиперпараметров.

Дополнительные деревья.
АдаБуст
Случайный лес
Повышение градиента.
Только утверждение номер один является ИСТИННЫМ.
Только утверждение номер два является ИСТИННЫМ.
Оба утверждения один и два ИСТИННЫ.
Только утверждение номер три ВЕРНО
Только утверждение номер четыре ВЕРНО
Оба утверждения номер один и четыре ВЕРНЫ
Оба утверждения номер один и три ВЕРНЫ
Оба утверждения номер два и три ВЕРНЫ
Оба утверждения номер два и четыре ВЕРНЫ

Ответ Только дополнительные деревья и случайный лес не имеют скорости обучения в качестве одного из своих настраиваемых гиперпараметров. Итак, ответ будет g, потому что утверждения номер один и три ИСТИННЫ.

Q7. Выберите вариант, который является верным.

Только в алгоритме случайного леса можно обрабатывать реальные значения, делая их дискретными.
Только в алгоритме повышения градиента можно обрабатывать реальные значения, делая их дискретными.
Как в случайном лесу, так и в повышении градиента реальные значения можно обрабатывать, делая их дискретными.
Ни один из вариантов, упомянутых выше.

Ответ Оба алгоритма работоспособны. Они оба могут легко обрабатывать функции, которые имеют в них реальную ценность. Таким образом, ответ на вопросы и ответы в рамках интервью по дереву решений: C.

Q8. Выберите один вариант из списка ниже. Вопрос в том, выберите алгоритм, который не является алгоритмом обучения ансамбля.

Повышение градиента
АдаБуст
Дополнительные деревья
Случайный лес
Деревья решений

Ответ Этот вопрос прост. Только один из этих алгоритмов не является алгоритмом обучения ансамбля. Одно эмпирическое правило, о котором следует помнить, заключается в том, что любой метод ансамблевого обучения будет включать использование более одного дерева решений. Поскольку в варианте E есть только единственное дерево решений, то это не алгоритм обучения ансамбля. Итак, ответ на этот вопрос будет E (деревья решений).

Q9. Вы увидите два утверждения, перечисленных ниже. Вам нужно будет внимательно прочитать их оба, а затем выбрать один из вариантов из двух вариантов утверждений. Контекстуальный вопрос заключается в том, что из следующего будет верным в парадигме ансамблевого обучения.

Количество деревьев в ансамбле должно быть как можно больше.
Вы по-прежнему сможете интерпретировать происходящее даже после того, как реализуете алгоритм Random Forest.
Только утверждение номер один является ИСТИННЫМ.
Только утверждение номер два является ИСТИННЫМ.
Оба утверждения один и два ИСТИННЫ.
Ни один из вариантов, упомянутых выше.

Ответ Поскольку любой метод ансамблевого обучения основан на объединении колоссального количества деревьев решений (которые сами по себе являются очень слабыми обучаемыми) вместе, поэтому всегда будет полезно иметь больше деревьев для создания вашего ансамблевого метода. Однако алгоритм случайного леса подобен черному ящику. Вы не будете знать, что происходит внутри модели. Таким образом, вы обязательно потеряете всю интерпретируемость после применения алгоритма случайного леса. Таким образом, правильным ответом на этот вопрос будет А, потому что только утверждение, которое является истинным, является утверждением номер один.

Q10. Отвечайте только ИСТИНА или ЛОЖЬ. Алгоритм бэггинга лучше всего работает для моделей с высокой дисперсией и низким смещением?

Ответ Истинный. Бэггинг действительно наиболее благоприятен для использования в модели с высокой дисперсией и низким смещением.

Q11. . Вы увидите два утверждения, перечисленных ниже. Вам нужно будет внимательно прочитать их оба, а затем выбрать один из вариантов из двух вариантов утверждений. Контекстуальный вопрос заключается в том, чтобы выбрать правильные идеи для деревьев, повышающих градиент.

На каждом этапе повышения алгоритм вводит другое дерево, чтобы обеспечить компенсацию всех текущих проблем модели.
Мы можем применить алгоритм градиентного спуска, чтобы минимизировать функцию потерь.
Только утверждение номер один является ИСТИННЫМ.
Только утверждение номер два является ИСТИННЫМ.
Оба утверждения один и два ИСТИННЫ.
Ни один из вариантов, упомянутых выше.

Ответ Ответ на этот вопрос C означает, что оба варианта ИСТИННЫ. Для первого утверждения именно так работает алгоритм повышения. Новые деревья, введенные в модель, предназначены только для увеличения производительности существующего алгоритма. Да, алгоритм градиентного спуска — это функция, которая применяется для уменьшения функции потерь.

Q12. Какие из приведенных ниже утверждений о скорости обучения в алгоритме повышения градиента верны?

Скорость обучения, которую вы устанавливаете, должна быть как можно выше.
Скорость обучения, которую вы устанавливаете, должна быть не настолько высокой, насколько это возможно, а настолько низкой, насколько это возможно.
Скорость обучения должна быть низкой, но не очень низкой.
Скорость обучения, которую вы устанавливаете, должна быть высокой, но не сверхвысокой.

Ответ Скорость обучения должна быть низкой, но не очень низкой, поэтому ответом на вопросы и ответы интервью в этом дереве решений будет вариант C.

Проверьте: Вопросы для интервью по машинному обучению

Что дальше?

Если вам интересно узнать больше о дереве решений, машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и задания, статус выпускника IIIT-B, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Как можно улучшить дерево решений?

Дерево решений — это инструмент для создания простого визуального пособия, в котором условные автономные точки или точки принятия решений представлены в виде узлов, а различные возможные результаты — в виде листьев. Проще говоря, дерево решений — это модель процесса принятия решений. Вы можете улучшить дерево решений, обеспечив, чтобы критерии остановки всегда были явными. Когда критерий остановки не является явным, это оставляет вопрос о необходимости дальнейшего исследования, а также оставляет сомнения в том, следует ли останавливаться или нет. Дерево решений также должно быть построено таким образом, чтобы за ним было легко следить и оно не сбивало с толку читателя.

Почему точность дерева решений такая низкая?

Точность дерева решений ниже, чем мы ожидали. Это может произойти по следующим причинам: Неверные данные. Очень важно использовать правильные данные для алгоритмов машинного обучения. Плохие данные могут привести к неправильным результатам. Случайность. Иногда система настолько сложна, что невозможно предсказать, что произойдет в будущем. В этом случае упадет и точность дерева решений. Переобучение. Дерево решений может не отражать уникальность данных, поэтому его можно рассматривать как обобщение. Если одни и те же данные используются для настройки дерева, это может привести к чрезмерной подгонке данных.

Как обрезается дерево решений?

Дерево решений обрезается с использованием алгоритма ветвей и границ. Алгоритм ветвей и границ находит оптимальное решение для дерева решений, перебирая узлы дерева и ограничивая значение целевой функции на каждой итерации. Целевая функция — это значение дерева решений для бизнеса. В каждом узле алгоритм либо удаляет ветвь дерева, либо обрезает ветвь до нового узла. Самое приятное то, что ветвь можно обрезать, даже если это приводит к неоптимальному решению.