Guia para o Algoritmo da Árvore de Decisão: Aplicações, Prós e Contras e Exemplo

Publicados: 2020-12-10

Existem vários tipos de algoritmos de Machine Learning, e cada um deles possui aplicações únicas. Neste artigo, veremos um dos algoritmos de ML mais populares e úteis, o algoritmo Árvore de Decisão. Discutimos um exemplo da árvore de decisão em R para ajudá-lo a se familiarizar com seu uso. Vamos começar.

Índice

O que é um algoritmo de árvore de decisão?

Uma Árvore de Decisão é um tipo de algoritmo de aprendizado de máquina supervisionado que possui um nó raiz e nós folha. Cada nó representa um recurso e os links entre os nós mostram a decisão. Cada folha representa um resultado.

Suponha que você queira ir ao mercado para comprar legumes. Você tem duas opções: ou você vai, ou você não vai. Se você não for, não conseguirá os vegetais, mas se for, terá que ir ao mercado, o que leva a outra seção de escolha. Uma árvore de decisão funciona exatamente assim.

Aplicativos de Árvores de Decisão

Aqui estão algumas aplicações de árvores de decisão:

Marketing:

As empresas podem usar árvores de decisão para aumentar a precisão de suas campanhas promocionais observando o desempenho dos produtos e serviços de seus concorrentes. As árvores de decisão podem ajudar na segmentação do público e apoiar as empresas na produção de anúncios mais bem direcionados e com taxas de conversão mais altas.

Retenção de Clientes:

As empresas usam árvores de decisão para retenção de clientes por meio da análise de seus comportamentos e do lançamento de novas ofertas ou produtos para atender a esses comportamentos. Ao usar modelos de árvore de decisão, as empresas também podem descobrir os níveis de satisfação de seus clientes.

Diagnóstico de doenças e enfermidades:

As árvores de decisão podem ajudar médicos e profissionais da área médica a identificar pacientes com maior risco de desenvolver doenças graves (ou evitáveis), como diabetes ou demência. A capacidade das árvores de decisão de reduzir as possibilidades de acordo com variáveis específicas é bastante útil nesses casos.

Detecção de Fraudes:

As empresas podem evitar fraudes usando árvores de decisão para identificar antecipadamente o comportamento fraudulento. Ele pode economizar muitos recursos para as empresas, incluindo tempo e dinheiro.

Vantagens e desvantagens das árvores de decisão

Vantagens do algoritmo de árvore de decisão:

A seguir estão as principais vantagens de usar uma árvore de decisão em R:

Compreender os resultados é mais fácil do que outros modelos. Você pode fazer com que a equipe técnica programe seu modelo de árvore de decisão para que ele funcione mais rápido e você possa aplicá-lo a novas instâncias. Seus cálculos possuem testes de inclusão de acordo com uma instância, que é um modelo qualitativo ou quantitativo.
É não paramétrico. As variáveis independentes presentes em nosso problema não precisam seguir nenhuma distribuição de probabilidade específica por esse motivo. Você pode ter variáveis colineares. Se eles estão discriminando ou não, isso não tem impacto em sua árvore de decisão porque não precisa escolher essas variáveis.
Eles são capazes de trabalhar com valores ausentes. O CHAID coloca todos os valores ausentes em uma categoria, que você pode mesclar com outra ou manter separada das outras.
Valores individuais extremos (como valores discrepantes) não têm muito efeito nas árvores de decisão. Você pode isolá-los em pequenos nós para que não afetem toda a classificação.
Ele oferece uma ótima representação visual de um processo de tomada de decisão. Cada ramo de uma árvore de decisão representa os fatores que podem afetar suas decisões, e você consegue ver uma imagem maior. Você pode usar árvores de decisão para melhorar a comunicação em sua equipe.
As árvores CART podem lidar com todos os tipos de variáveis diretamente, incluindo variáveis qualitativas, contínuas e discretas.

Desvantagens do Algoritmo de Árvore de Decisão

Ele não analisa todas as variáveis independentes simultaneamente. Em vez disso, ele os avalia sequencialmente. Devido a isso, a árvore nunca revisa a divisão de um nó em nenhum nível, o que pode causar viés nas escolhas da árvore.
Modificar até mesmo uma única variável pode afetar toda a árvore se estiver perto do topo. Existem maneiras de resolver este problema. Por exemplo, você pode construir a árvore em várias amostras e agregá-las de acordo com uma média (ou voto); isso é chamado de reamostragem. No entanto, isso leva a outro conjunto de problemas, pois reduz a legibilidade do modelo, tornando-o mais complexo. Assim, por meio da reamostragem, você pode se livrar das melhores qualidades das árvores de decisão. Por que isso é um problema? Suponha que uma variável tenha todas as qualidades de um determinado grupo, mas também tenha a qualidade de acordo com a qual a árvore se divide. Nesse caso, a árvore a colocaria na classe errada só porque tem essa qualidade importante.
Todos os nós de um nível específico em uma árvore de decisão dependem dos nós em seus níveis anteriores. Em outras palavras, como você define os nós no nível 'n +1' depende inteiramente de sua definição para os nós no nível 'n.' Se sua definição no nível 'n' estiver errada, todos os níveis subsequentes e os nós presentes nesses níveis também estarão errados.

Aprenda: Regressão Linear em Aprendizado de Máquina

Árvore de Decisão em R (Exemplo)

Você precisará de rpart para construir uma árvore de decisão em R. Usamos rpart para classificação. Em R, você constrói uma árvore de decisão com base em um algoritmo de particionamento recursivo que gera uma decisão e, junto com ela, árvores de regressão. Tem duas etapas:

Primeiro, ele identificará uma variável que divide os dados em dois grupos separados da melhor maneira possível.
Segundo, ele repetirá o processo da etapa anterior em cada subgrupo até que esses grupos atinjam um tamanho específico ou se não puder mais fazer melhorias nesses subgrupos.

Temos os seguintes dados como exemplo:

Nos dados acima, você tem o tempo e a aceleração de uma bicicleta. Temos que prever sua aceleração de acordo com o tempo. Faremos isso fazendo o seguinte:

1biblioteca(rpart)

Em seguida, carregue os dados:

1dados(bicicleta)

Agora, vamos criar um gráfico de dispersão:

1plot(aceleração~vezes,dados=bicicleta)

Uma vez, fizemos isso e criaremos a árvore:

1mct <- rpart(aceleração ~ tempos, dados=bicicleta)

Nosso passo final é traçar o gráfico:

1 Lote(mct)

Leia: Como criar uma árvore de decisão perfeita?

Pensamentos finais

Agora temos um modelo de árvore de decisão funcionando perfeitamente em R. Você pode encontrar mais tutoriais semelhantes em nosso blog.

Se você estiver interessado em saber mais sobre árvores de decisão, aprendizado de máquina, confira o Diploma PG do IIIT-B e do upGrad em aprendizado de máquina e IA, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições , IIIT-B Alumni status, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

Qual é o recurso mais significativo em um algoritmo de árvore de decisão?

Os algoritmos de árvore de decisão são uma ferramenta valiosa para determinação e análise de risco e geralmente são expressos como um gráfico ou lista de regras. A simplicidade de uso de algoritmos de árvore de decisão é uma de suas características mais essenciais. Eles são facilmente compreensíveis e relevantes, pois são visuais. Mesmo que os usuários não estejam familiarizados com a construção de algoritmos de árvore de decisão, eles podem aplicá-lo com sucesso. Os algoritmos de árvore de decisão são mais comumente empregados para antecipar eventos futuros com base na experiência anterior e auxiliar na tomada de decisão racional. Outro campo significativo de algoritmos de árvore de decisão é a mineração de dados, onde as árvores de decisão são utilizadas como uma ferramenta de classificação e modelagem, conforme discutido mais abaixo.

Qual a importância de um algoritmo de árvore de decisão?

Um algoritmo de árvore de decisão tem a importante vantagem de forçar a análise de todos os resultados concebíveis de uma decisão e rastrear cada caminho até uma conclusão. Gera um estudo detalhado das implicações ao longo de cada ramo e indica os nós de decisão que requerem mais investigação. Além disso, a cada dificuldade, caminho de decisão e resultado é atribuído um valor único por algoritmos de árvore de decisão. Esse método destaca as importantes rotas de decisão, reduz a incerteza, elimina a ambiguidade e esclarece as implicações financeiras de cursos de ação alternativos. Quando as informações factuais não estão disponíveis, os usuários podem usar algoritmos de árvore de decisão para colocar as opções em perspectiva umas com as outras para comparações simples usando probabilidades para circunstâncias.

O algoritmo da árvore de decisão é baseado em qual técnica?

O algoritmo de árvore de decisão é baseado na técnica de árvore de decisão, que pode ser usada para problemas de classificação e regressão. O nome implica o uso de uma estrutura de árvore semelhante a um fluxograma para exibir as previsões resultantes de uma sucessão de divisões baseadas em recursos. Começa com um nó raiz e termina com uma decisão folha. Uma árvore de decisão é composta de três tipos de nós, ou seja, Quadrados que comumente representam nós de decisão, nós de Chance que são geralmente representados em círculos e Triângulos que simbolizam nós finais.