Árvore de decisão no aprendizado de máquina explicada [com exemplos]

Publicados: 2020-12-21

Introdução

O Decision Tree Learning é uma técnica de mineração de dados convencional e é uma forma de aprendizado de máquina supervisionado. Uma árvore de decisão é como um diagrama no qual as pessoas representam uma probabilidade estatística ou encontram o curso do acontecimento, a ação ou o resultado. Um exemplo de árvore de decisão torna mais claro o entendimento do conceito.

As ramificações no diagrama de uma árvore de decisão mostram um resultado provável, uma decisão possível ou uma reação. A ramificação no final da árvore de decisão exibe a previsão ou um resultado. As árvores de decisão geralmente são usadas para encontrar uma solução para um problema que se torna complicado de resolver manualmente. Vamos entender isso em detalhes com a ajuda de alguns exemplos de árvores de decisão.

Uma árvore de decisão é uma das ferramentas populares e poderosas usadas para previsão e classificação dos dados ou de um evento. É como um fluxograma, mas com a estrutura de uma árvore. Os nós internos das árvores representam um teste ou uma pergunta sobre um atributo; cada ramo é o resultado possível da pergunta feita, e o nó terminal, que também é chamado de nó folha, denota um rótulo de classe.

Em uma árvore de decisão, temos várias variáveis ​​preditoras. Dependendo dessas variáveis ​​de previsão, tente prever a chamada variável de resposta.

Leitura relacionada: Classificação da árvore de decisão: tudo o que você precisa saber

Árvore de decisão no ML

Ao representar algumas etapas na forma de uma sequência, a árvore de decisão se torna uma maneira fácil e eficaz de entender e visualizar as possíveis opções de decisão e os resultados potenciais do intervalo. As árvores de decisão também são úteis para identificar opções possíveis e avaliar as recompensas e os riscos em relação a cada curso de ação que pode ser obtido.

Uma árvore de decisão é implantada em muitas organizações de pequena e grande escala como uma espécie de sistema de suporte na tomada de decisões. Como um exemplo de árvore de decisão é um modelo estruturado, os leitores podem entender o gráfico e analisar como e por que uma determinada opção pode levar a uma decisão correspondente. O exemplo da árvore de decisão também permite ao leitor prever e obter várias soluções possíveis para um único problema, entender o formato e a relação entre diferentes eventos e dados com a decisão.

Cada resultado na árvore tem um número ou peso de recompensa e risco atribuído. Se você usar uma árvore de decisão, terá todos os resultados finais com possíveis desvantagens e benefícios. Para concluir sua árvore de forma adequada, você pode ampliá-la o quanto for necessário, dependendo do evento e da quantidade de dados. Vamos dar um exemplo simples de árvore de decisão para entendê-lo melhor.

Considere os dados fornecidos que consistem em detalhes de pessoas como: se são bebedores, fumantes, seu peso e a idade em que essas pessoas morreram.

Nome Bebedor Fumante Peso Idade (morreu)
Sam sim sim 120 44
Mary Não Não 70 96
Jonas sim Não 72 88
Taylor sim sim 55 52
João Não sim 94 56
atormentar Não Não 62 93

Vamos tentar prever se as pessoas morrerão em uma idade mais jovem ou mais velha. As características como bebedor, fumante e o peso atuarão como um valor preditor. Usando estes, vamos considerar a idade como uma variável de resposta.

Vamos rotular que as pessoas que morreram antes dos 70 anos morreram “jovens” e as pessoas que morreram após os 70 anos morreram “velhas”. Vamos agora prever a variável de resposta com base na variável preditora. Dada a seguir é uma árvore de decisão feita depois de aprender os dados.

A árvore de decisão acima explica que, se uma pessoa é fumante, ela morre jovem. Se uma pessoa não é fumante, então o próximo fator considerado é se a pessoa bebe ou não. Se uma pessoa não é fumante e não bebe, a pessoa morre velha.

Se uma pessoa não é fumante e bebe, então o peso da pessoa é considerado. Se uma pessoa não é fumante, bebe e pesa menos de 90 kg, então a pessoa morre velha. E, por último, se uma pessoa não é fumante, bebe e pesa mais de 90 kg, morre jovem.

A partir dos dados fornecidos, tomemos o exemplo de Jonas para verificar se a árvore de decisão está classificada corretamente e se prevê corretamente a variável resposta. Jonas não é fumante, bebe e pesa menos de 90 kg. De acordo com a árvore de decisão, ele morrerá velho (idade em que morre>70). Além disso, de acordo com os dados, ele morreu aos 88 anos, o que significa que o exemplo da árvore de decisão foi classificado corretamente e funcionou perfeitamente.

Mas você já se perguntou sobre a ideia básica por trás do funcionamento de uma árvore de decisão? Em uma árvore de decisão, o conjunto de instâncias é dividido em subconjuntos de forma que a variação em cada subconjunto seja menor. Ou seja, queremos reduzir a entropia e, portanto, a variação é reduzida e o evento ou instância tenta se tornar puro.

Consideremos um exemplo semelhante de árvore de decisão . Em primeiro lugar, consideramos se a pessoa é fumante ou não.

Aqui, não temos certeza sobre os não-fumantes. Então, dividimos em bebedor e não bebedor.

Podemos ver no diagrama abaixo que passamos de uma alta entropia com grande variação para reduzi-la a uma classe menor na qual temos mais certeza. Dessa forma, você pode construir incrementalmente qualquer exemplo de árvore de decisão .

Vamos construir uma árvore de decisão usando o algoritmo ID3. O que é mais importante na árvore de decisão é uma forte compreensão da entropia. A entropia nada mais é do que o grau de incerteza. É dado por:

(Às vezes, também é indicado por “E”)

Se aplicarmos ao exemplo acima, ficará da seguinte forma:

Considere o caso em que não temos pessoas divididas em nenhuma categoria. É um cenário de pior caso (alta entropia) quando ambos os tipos de pessoas têm a mesma quantidade. A proporção aqui é 3:3.

Da mesma forma, para pessoas que não bebem, tem proporção de 1:1 e a entropia seria 1. Assim, precisa de mais uma divisão devido à incerteza. Para as pessoas que não bebem, a proporção é de 2:0. Portanto, a entropia é 0.

Agora, calculamos a entropia para os diferentes casos e, portanto, podemos calcular a média ponderada para o mesmo.

Para a primeira ramificação, E= 6 6 1=1

Para a classe Fumante, E= 2 6 0+ 4 6 0,811=0,54

Para a classe de fumantes e bebedores, E= 2 6 0+ 2 6 1+ 2 6 0=0,33

O diagrama abaixo irá ajudá-lo a entender rapidamente os cálculos acima.

Por fim, o ganho de informação:

Classe Entropia Ganho de informação (E2-E1)
Pessoas 1 0,46
Fumante 0,54 0,21
Fumante+Bebedor 0,33

Leia também: Perguntas e respostas da entrevista da árvore de decisão

Conclusão

Estudamos com sucesso as árvores de decisão em profundidade desde a teoria até um exemplo prático de árvore de decisão . Também construímos uma árvore de decisão usando o algoritmo ID3. Se você achou isso interessante, talvez goste de explorar a ciência de dados em detalhes.

Se você estiver interessado em saber mais sobre árvores de decisão, aprendizado de máquina, confira o Diploma PG do IIIT-B e do upGrad em aprendizado de máquina e IA, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições , IIIT-B Alumni status, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

O que são árvores de decisão?

As árvores de decisão são usadas para organizar e organizar visualmente as informações de tomada de decisão. As árvores são desenhadas de forma que a raiz fique no topo e as folhas na parte inferior. As árvores de decisão são lidas de baixo para cima, movendo-se da esquerda para a direita. Cada nível da árvore é uma base para testes adicionais e as decisões em cada nível restringirão o escopo até que a pergunta seja respondida. Uma árvore de decisão divide um problema ou decisão em várias subdecisões e segue o caminho lógico até a raiz, que é o objetivo principal. As árvores de decisão são usadas para analisar o ambiente de negócios, priorizar e fornecer insights, a fim de tomar decisões sobre qual direção tomar.

Quais são os problemas no aprendizado da árvore de decisão no aprendizado de máquina?

As árvores de decisão podem ser usadas como base para testar novas estratégias ou para explicar estratégias a outros. Uma árvore de decisão explica o que acontecerá sob um determinado conjunto de suposições. Eles também podem ser usados ​​para avaliar o desempenho de uma estratégia que foi usada no passado. Árvores de decisão são conhecidas por serem muito suscetíveis a erros por causa de todas as suas ramificações. As árvores de decisão nem sempre são precisas porque, às vezes, elas não levam em conta todas as variáveis ​​possíveis, e a pessoa que analisa a árvore de decisão pode não ter experiência em todos os aspectos da situação específica.

Que tipo de dados é melhor para árvores de decisão?

As Árvores de Decisão ajudam você a encontrar padrões nos dados usando uma estrutura semelhante a um fluxograma. O melhor tipo de dados seria qualitativo, categórico e numérico. Embora as Árvores de Decisão funcionem com todos os tipos de dados, elas funcionam melhor com dados numéricos. Eles devem poder ter valores que são números ou deve haver uma maneira de traduzi-los em números. As Árvores de Decisão são fortemente dependentes do tipo de dados, bem como da quantidade. Se o número de pontos de dados for maior que 100, as Árvores de Decisão seriam um bom modelo.