Perguntas e respostas da entrevista da árvore de decisão [para iniciantes e experientes]

Publicados: 2020-09-22

No mundo do aprendizado de máquina, as árvores de decisão são de um deles, se não o mais respeitável, algoritmo. As árvores de decisão também são poderosas. As árvores de decisão são usadas tanto para prever os valores contínuos (regressão) quanto para prever classes (executar classificação ou classificar) das instâncias fornecidas ao algoritmo.

As árvores de decisão são semelhantes a um fluxograma em sua estrutura. O nó de qualquer árvore de decisão representa um teste feito no atributo. Cada ramo da árvore de decisão é representativo dos resultados do exame realizado em cada nó. O nó de cada folha (que também é conhecido como nós terminais) contém o rótulo da classe.

Isso era sobre a estrutura da árvore; no entanto, o aumento da popularidade das árvores de decisão não se deve à forma como são criadas. A transparência da árvore dá-lhe uma posição própria no mundo dominado por algoritmos poderosos e úteis. Você pode fazer tudo manualmente para uma pequena árvore de decisão e pode prever como a árvore de decisão seria formada. Para árvores maiores em tamanho, este exercício torna-se bastante tedioso.

No entanto, isso não significa que você não será capaz de entender o que a árvore está fazendo em cada nó. A capacidade de entender o que está acontecendo nos bastidores ou nos bastidores realmente diferencia as árvores de decisão com qualquer outro algoritmo de aprendizado de máquina existente.

Como vimos como as árvores de decisão são vitais, é inerente que as árvores de decisão também sejam críticas para qualquer profissional de aprendizado de máquina ou cientista de dados. Para ajudá-lo a entender esse conceito e, ao mesmo tempo, ajudá-lo a obter um toque extra em sua entrevista, fizemos uma lista abrangente de perguntas e respostas da entrevista em árvore de decisão. Essas perguntas devem ajudá-lo a se sair bem em qualquer entrevista. Tente resolver cada uma dessas perguntas antes de ler as soluções para tirar o máximo proveito dessas perguntas.

Índice

Perguntas e respostas da entrevista da árvore de decisão

Q1. Você verá duas declarações listadas abaixo. Você terá que ler os dois com atenção e depois escolher uma das opções das opções das duas declarações. A questão contextual é: Escolha as afirmações que são verdadeiras sobre ensacamento de árvores.

As árvores individuais não dependem umas das outras para uma árvore de ensacamento.
Para melhorar o desempenho geral do modelo, o agregado é retirado de alunos fracos. Este método é conhecido como árvores de ensacamento.
Apenas a afirmação número um é VERDADEIRA.
Apenas a afirmação número dois é VERDADEIRA.
Ambas as declarações um e dois são VERDADEIRAS.
Nenhuma das opções mencionadas acima.

Resp. A resposta correta para essa pergunta é C porque, para uma árvore de ensacamento, ambas as afirmações são verdadeiras. Em árvores de ensacamento ou agregação bootstrap, o principal objetivo da aplicação desse algoritmo é reduzir a quantidade de variância presente na árvore de decisão. O mecanismo de criação de uma árvore de ensacamento é que, com a substituição, vários subconjuntos são retirados da amostra presente para treinar os dados.

Agora, cada um desses subconjuntos menores de dados é usado para treinar uma árvore de decisão separada. Como as informações que são alimentadas em cada árvore são únicas, a probabilidade de qualquer árvore ter algum impacto sobre a outra se torna muito baixa. O resultado final que todas essas árvores fornecem é coletado e processado para fornecer a saída. Assim, a segunda afirmação também se mostra verdadeira.

Q2. Você verá duas declarações listadas abaixo. Você terá que ler os dois com atenção e depois escolher uma das opções das opções das duas declarações. A questão contextual é: Escolha as afirmações que são verdadeiras sobre o aumento de árvores.

Os alunos fracos em uma árvore impulsionadora são independentes uns dos outros.
O desempenho dos alunos fracos é todo coletado e agregado para melhorar o desempenho geral da árvore impulsionada.
Apenas a afirmação número um é VERDADEIRA.
Apenas a afirmação número dois é VERDADEIRA.
Ambas as declarações um e dois são VERDADEIRAS.
Nenhuma das opções mencionadas acima.

Resp. Se você entender como é feito o aumento das árvores, você entenderá e será capaz de diferenciar a afirmação correta da afirmação, que é falsa. Assim, uma árvore impulsionada é criada quando muitos alunos fracos são conectados em série. Cada árvore presente nesta sequência tem um único objetivo: reduzir o erro que seu antecessor cometeu.

Se as árvores estiverem conectadas dessa maneira, todas as árvores não podem ser independentes umas das outras, tornando assim a primeira afirmação falsa. Ao chegar à segunda afirmação, é verdade principalmente porque, em uma árvore impulsionada, esse é o método aplicado para melhorar o desempenho geral do modelo. A opção correta será B, ou seja, apenas a afirmação número dois é TRUE, e a afirmação número um é FALSE.

Q3. Você verá quatro declarações listadas abaixo. Você terá que ler todos eles com atenção e depois escolher uma das opções entre as opções que seguem as quatro afirmações. A questão contextual é: Escolha as afirmações que são verdadeiras sobre as florestas Radom e o método de conjunto de aumento de gradiente.

Os métodos de conjunto Random forest e Gradient boosting podem ser usados para realizar a classificação.
Florestas aleatórias podem ser usadas para realizar tarefas de classificação, enquanto o método de aumento de gradiente só pode realizar regressão.
O aumento de gradiente pode ser usado para realizar tarefas de classificação, enquanto o método Random Forest só pode executar regressão.
Os métodos de conjunto Random forest e Gradient boosting podem ser usados para realizar a regressão.
Apenas a afirmação número um é VERDADEIRA.
Apenas a afirmação número dois é VERDADEIRA.
Ambas as declarações um e dois são VERDADEIRAS.
Apenas a afirmação número três é VERDADEIRA
Apenas a afirmação número quatro é VERDADEIRA
Apenas a declaração número um e quatro é VERDADEIRA

Resp. A resposta a esta pergunta é simples. Ambos os métodos de conjunto são realmente muito capazes de realizar tarefas de classificação e regressão. Então, a resposta a esta pergunta seria F porque apenas as afirmações número um e quatro são VERDADEIRAS.

Q4 Você verá quatro declarações listadas abaixo. Você terá que ler todos eles com atenção e depois escolher uma das opções entre as opções que seguem as quatro afirmações. A questão contextual é, considere uma floresta aleatória de árvores. Então, o que será verdade sobre cada uma das árvores da floresta aleatória?

Cada árvore que constitui a floresta aleatória é baseada no subconjunto de todas as feições.
Cada um em uma floresta aleatória é construído em todos os recursos.
Cada uma das árvores em uma floresta aleatória é construída em um subconjunto de todas as observações presentes.
Cada uma das árvores em uma floresta aleatória é construída no conjunto de observação completo.
Apenas a afirmação número um é VERDADEIRA.
Apenas a afirmação número dois é VERDADEIRA.
Ambas as declarações um e dois são VERDADEIRAS.
Apenas a afirmação número três é VERDADEIRA
Apenas a afirmação número quatro é VERDADEIRA
Ambas as declarações número um e quatro são VERDADEIRAS
Ambas as afirmações número um e três são VERDADEIRAS
Ambas as declarações número dois e três são VERDADEIRAS
Ambas as declarações número dois e quatro são VERDADEIRAS

Resp. A geração de florestas aleatórias é baseada no conceito de ensacamento. Para construir uma floresta aleatória, um pequeno subconjunto é obtido tanto das observações quanto dos recursos. Os valores obtidos após a retirada dos subconjuntos são então alimentados em árvores de decisão singulares. Em seguida, todos os valores de todas essas árvores de decisão são coletados para tomar a decisão final. Isso significa que as únicas afirmações corretas seriam um e três. Então, a opção certa seria G.

Q5 Você verá quatro declarações listadas abaixo. Você terá que ler todos eles com atenção e depois escolher uma das opções entre as opções que seguem as quatro afirmações. A questão contextual é selecionar as declarações corretas sobre o hiperparâmetro conhecido como “max_depth” do algoritmo de aumento de gradiente.

Escolher um valor menor desse hiperparâmetro é melhor se a precisão do conjunto de validação for semelhante.
Escolher um valor mais alto desse hiperparâmetro é melhor se a precisão do conjunto de validação for semelhante.
Se formos aumentar o valor desse hiperparâmetro, então as chances desse modelo realmente superajustar os dados aumentam.
Se formos aumentar o valor desse hiperparâmetro, então as chances desse modelo realmente subajustar os dados aumentam.
Apenas a afirmação número um é VERDADEIRA.
Apenas a afirmação número dois é VERDADEIRA.
Ambas as declarações um e dois são VERDADEIRAS.
Apenas a afirmação número três é VERDADEIRA
Apenas a afirmação número quatro é VERDADEIRA
Ambas as declarações número um e quatro são VERDADEIRAS
Ambas as afirmações número um e três são VERDADEIRAS
Ambas as declarações número dois e três são VERDADEIRAS
Ambas as declarações número dois e quatro são VERDADEIRAS

Resp. O hiperparâmetro max_depth controla a profundidade até que o aumento do gradiente modele os dados apresentados à sua frente. Se você continuar aumentando o valor desse hiperparâmetro, o modelo estará fadado ao sobreajuste. Portanto, a afirmação número três está correta. Se tivermos as mesmas pontuações nos dados de validação, geralmente preferimos o modelo com menor profundidade. Portanto, as afirmações número um e três estão corretas e, portanto, a resposta a essas perguntas da entrevista da árvore de decisão é g.

Q6. Você verá quatro declarações listadas abaixo. Você terá que ler todos eles com atenção e depois escolher uma das opções entre as opções que seguem as quatro afirmações. A questão contextual é qual dos métodos a seguir não tem uma taxa de aprendizado como um de seus hiperparâmetros ajustáveis.

Árvores Extras.
AdaBoostGenericName
Floresta Aleatória
Aumento de gradiente.
Apenas a afirmação número um é VERDADEIRA.
Apenas a afirmação número dois é VERDADEIRA.
Ambas as declarações um e dois são VERDADEIRAS.
Apenas a afirmação número três é VERDADEIRA
Apenas a afirmação número quatro é VERDADEIRA
Ambas as declarações número um e quatro são VERDADEIRAS
Ambas as afirmações número um e três são VERDADEIRAS
Ambas as declarações número dois e três são VERDADEIRAS
Ambas as declarações número dois e quatro são VERDADEIRAS

Resp. Apenas Extra Trees e Random forest não têm uma taxa de aprendizado como um de seus hiperparâmetros ajustáveis. Então, a resposta seria g porque a afirmação número um e três são VERDADEIRAS.

Q7. Escolha a opção, que é verdadeira.

Somente no algoritmo de floresta aleatória, os valores reais podem ser tratados tornando-os discretos.
Somente no algoritmo de aumento de gradiente, os valores reais podem ser tratados tornando-os discretos.
Tanto na floresta aleatória quanto no aumento de gradiente, os valores reais podem ser tratados tornando-os discretos.
Nenhuma das opções mencionadas acima.

Resp. Ambos os algoritmos são capazes. Ambos podem lidar facilmente com os recursos que têm valores reais neles. Portanto, a resposta a essas perguntas e respostas da entrevista da árvore de decisão é C.

Q8. Escolha uma opção da lista abaixo. A questão é, escolha o algoritmo que não é um algoritmo de aprendizado conjunto.

Aumento de gradiente
AdaBoostGenericName
Árvores Extras
Floresta Aleatória
Árvores de decisão

Resp. Esta pergunta é direta. Apenas um desses algoritmos não é um algoritmo de aprendizado de conjunto. Uma regra prática a ser lembrada é que qualquer método de aprendizado em conjunto envolveria o uso de mais de uma árvore de decisão. Como na opção E existe apenas a árvore de decisão singular, então esse não é um algoritmo de aprendizado de conjunto. Então, a resposta para essa pergunta seria E (árvores de decisão).

Q9. Você verá duas declarações listadas abaixo. Você terá que ler os dois com atenção e depois escolher uma das opções das opções das duas declarações. A questão contextual é, qual dos seguintes seria verdadeiro no paradigma de aprendizagem em conjunto.

A contagem de árvores no conjunto deve ser a mais alta possível.
Você ainda poderá interpretar o que está acontecendo mesmo depois de implementar o algoritmo do Random Forest.
Apenas a afirmação número um é VERDADEIRA.
Apenas a afirmação número dois é VERDADEIRA.
Ambas as declarações um e dois são VERDADEIRAS.
Nenhuma das opções mencionadas acima.

Resp. Como qualquer método de aprendizado em conjunto é baseado no acoplamento de um número colossal de árvores de decisão (que por si só é um aprendiz muito fraco), sempre será benéfico ter mais árvores para fazer seu método de conjunto. No entanto, o algoritmo de floresta aleatória é como uma caixa preta. Você não saberá o que está acontecendo dentro do modelo. Portanto, você perderá toda a interpretabilidade depois de aplicar o algoritmo de floresta aleatória. Então, a resposta correta para essa pergunta seria A, porque apenas a afirmação verdadeira é a afirmação número um.

Q10. Responda apenas em VERDADEIRO ou FALSO. O algoritmo de ensacamento funciona melhor para os modelos que possuem alta variância e baixo viés?

Resp. Verdadeiro. O ensacamento, de fato, é mais favorável para ser usado para modelos de alta variância e baixo viés.

Q11. . Você verá duas declarações listadas abaixo. Você terá que ler os dois com atenção e depois escolher uma das opções das opções das duas declarações. A questão contextual é escolher as ideias certas para árvores de aumento de gradiente.

Em cada estágio de reforço, o algoritmo introduz outra árvore para garantir que todos os problemas do modelo atual sejam compensados.
Podemos aplicar um algoritmo de gradiente descendente para minimizar a função de perda.
Apenas a afirmação número um é VERDADEIRA.
Apenas a afirmação número dois é VERDADEIRA.
Ambas as declarações um e dois são VERDADEIRAS.
Nenhuma das opções mencionadas acima.

Resp. A resposta a esta pergunta é C, o que significa que ambas as duas opções são VERDADEIRAS. Para a primeira declaração, é assim que o algoritmo de reforço funciona. As novas árvores introduzidas no modelo são apenas para aumentar o desempenho do algoritmo existente. Sim, o algoritmo de gradiente descendente é a função que é aplicada para reduzir a função de perda.

Q12. No algoritmo de aumento de gradiente, quais das afirmações abaixo estão corretas sobre a taxa de aprendizado?

A taxa de aprendizado que você define deve ser a mais alta possível.
A taxa de aprendizado que você define não deve ser a mais alta possível, e sim a mais baixa possível.
A taxa de aprendizagem deve ser baixa, mas não muito baixa.
A taxa de aprendizado que você está configurando deve ser alta, mas não super alta.

Resp. A taxa de aprendizado deve ser baixa, mas não muito baixa, então a resposta a essas perguntas e respostas da entrevista da árvore de decisão seria a opção C.

Confira: Perguntas da entrevista sobre aprendizado de máquina

Qual o proximo?

Se você estiver interessado em aprender mais sobre a árvore de decisão, Aprendizado de Máquina, confira o Diploma PG do IIIT-B e do upGrad em Aprendizado de Máquina e IA, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, status de ex-alunos do IIIT-B, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

Como a árvore de decisão pode ser melhorada?

Uma árvore de decisão é uma ferramenta para criar uma ajuda visual simples na qual os pontos de decisão ou autônomos condicionais são representados como nós e os vários resultados possíveis como folhas. Em palavras simples, uma árvore de decisão é um modelo do processo de tomada de decisão. Você pode melhorar a árvore de decisão garantindo que os critérios de parada sejam sempre explícitos. Quando o critério de parada não é explícito, deixa-se se perguntar se é necessária uma exploração mais aprofundada, e também deixa dúvidas se deve-se parar ou não. A árvore de decisão também deve ser construída de forma que seja fácil de seguir e não confunda o leitor.

Por que a precisão da árvore de decisão é tão baixa?

A precisão da árvore de decisão é menor do que esperávamos. Isso pode acontecer devido aos seguintes motivos: Dados incorretos - É muito importante usar os dados corretos para algoritmos de aprendizado de máquina. Dados ruins podem levar a resultados errados. Aleatoriedade - Às vezes, o sistema é tão complexo que é impossível prever o que acontecerá no futuro. Nesse caso, a precisão da árvore de decisão também cairá. Overfitting - A árvore de decisão pode não ser capaz de capturar a singularidade dos dados e, portanto, pode ser considerada uma generalização. Se os mesmos dados forem usados para ajustar a árvore, ele poderá ajustar demais os dados.

Como uma árvore de decisão é podada?

Uma árvore de decisão é podada usando um algoritmo branch and bound. Um algoritmo branch and bound encontra a solução ótima para a árvore de decisão iterando pelos nós da árvore e limitando o valor da função objetivo em cada iteração. A função objetivo é o valor da árvore de decisão para o negócio. Em cada nó, o algoritmo remove um ramo da árvore ou poda um ramo para um novo nó. A melhor parte é que um ramo pode ser podado mesmo que isso leve a uma solução não ideal.