Prós e contras da regressão da árvore de decisão no aprendizado de máquina
Publicados: 2020-12-24Um dos algoritmos de aprendizado de máquina mais populares, a regressão de árvore de decisão, é usado por concorrentes e profissionais de ciência de dados. Esses são modelos preditivos que calculam um valor de destino com base em um conjunto de regras binárias.
Ele é usado para construir modelos de regressão e classificação na forma de uma estrutura de árvore. Os conjuntos de dados são divididos em subconjuntos menores em uma árvore de decisão, enquanto uma árvore de decisão associada é construída incrementalmente simultaneamente.
Uma árvore de decisão é usada para chegar a uma estimativa com base na execução de uma série de perguntas no conjunto de dados. Ao fazer essas perguntas de verdadeiro/falso, o modelo é capaz de restringir os valores possíveis e fazer uma previsão. A ordem e o conteúdo da pergunta são decididos pelo próprio modelo.
Índice
Quais são os termos da árvore de decisão?
Uma árvore de decisão tem ramos, nós, folhas, etc. Um nó raiz é um nó inicial que representa toda a amostra ou população, e pode ser dividido em outros nós ou conjuntos homogêneos. Um nó de decisão consiste em dois ou mais nós que representam valores separados do atributo testado.
Um nó folha/terminal não se divide em mais nós e representa uma decisão. Um ramo ou subárvore é uma subseção de uma árvore inteira. A divisão é o processo de dividir um nó em dois ou mais subnós. O oposto da divisão é chamado de poda, ou seja, a remoção de subnós de um nó de decisão. Um nó pai é um nó que é dividido em subnós e o subnó é o nó filho.
Relacionado: Guia para algoritmo de árvore de decisão

Como funciona?
O algoritmo da árvore de decisão usa um ponto de dados e percorre toda a árvore fazendo perguntas de verdadeiro/falso. A partir do nó raiz, perguntas são feitas e ramos separados são criados para cada resposta, e isso continua até que o nó folha seja alcançado. O particionamento recursivo é usado para construir a árvore.
Uma árvore de decisão é um modelo de aprendizado de máquina supervisionado e, portanto, aprende a mapear dados para as saídas na fase de treinamento da construção do modelo. Isso é feito ajustando o modelo com dados históricos que precisam ser relevantes para o problema, juntamente com seu valor real que o modelo deve aprender a prever com precisão. Isso ajuda o modelo a aprender os relacionamentos entre os dados e a variável de destino.
Após esta fase, a árvore de decisão é capaz de construir uma árvore semelhante calculando as questões e sua ordem, o que a ajudará a fazer a estimativa mais precisa. Assim, a previsão depende dos dados de treinamento que são alimentados no modelo.
Como é decidida a divisão?
A decisão de dividir é diferente para árvores de classificação e regressão, e a precisão da previsão da árvore depende muito dela. O erro quadrático médio (MSE) é geralmente usado para decidir se um nó deve ser dividido em dois ou mais subnós em uma regressão de árvore de decisão . No caso de uma árvore binária, o algoritmo escolhe um valor e divide os dados em dois subconjuntos, calcula o MSE para cada subconjunto e escolhe o menor valor MSE como resultado.
Implementando a regressão da árvore de decisão
A estrutura básica para implementar um algoritmo de regressão de árvore de decisão é fornecida nas etapas a seguir.
Importando bibliotecas
O primeiro passo para desenvolver qualquer modelo de aprendizado de máquina é importar todas as bibliotecas necessárias para o desenvolvimento.
Carregando os dados
Após importar as bibliotecas, a próxima etapa é carregar o conjunto de dados. Os dados podem ser baixados ou usados nas pastas locais do usuário.
Dividindo o conjunto de dados
Depois que os dados são carregados, eles precisam ser divididos em um conjunto de treinamento e um conjunto de teste e criar as variáveis x e y. Os valores também precisam ser reformulados para tornar os dados no formato necessário.
Treinando o modelo
Aqui, o modelo de regressão da árvore de dados é treinado usando o conjunto de treinamento criado na etapa anterior.
Prevendo os resultados
Aqui, os resultados do conjunto de teste são previstos usando o modelo treinado no conjunto de treinamento.

Avaliação do modelo
O desempenho do modelo é verificado comparando os valores reais e os valores previstos na etapa final. A precisão do modelo pode ser inferida comparando esses valores. A visualização dos resultados criando um gráfico dos valores também ajuda na aferição da precisão do modelo.

Leia: Como criar uma árvore de decisão perfeita?
Vantagens
- O modelo de árvore de decisão pode ser usado para problemas de classificação e regressão e é fácil de interpretar, entender e visualizar.
- A saída de uma árvore de decisão também pode ser facilmente compreendida.
- Comparado com outros algoritmos, a preparação de dados durante o pré-processamento em uma árvore de decisão requer menos esforço e não requer normalização dos dados.
- A implementação também pode ser feita sem dimensionar os dados.
- Uma árvore de decisão é uma das maneiras mais rápidas de identificar relacionamentos entre variáveis e a variável mais significativa.
- Novos recursos também podem ser criados para melhor previsão de variáveis de destino.
- As árvores de decisão não são amplamente influenciadas por valores discrepantes ou valores ausentes e podem lidar com variáveis numéricas e categóricas.
- Por ser um método não paramétrico, ele não possui suposições sobre distribuições espaciais e estrutura do classificador.
Desvantagens
- O overfitting é uma das dificuldades práticas para os modelos de árvore de decisão. Isso acontece quando o algoritmo de aprendizado continua desenvolvendo hipóteses que reduzem o erro do conjunto de treinamento, mas ao custo de aumentar o erro do conjunto de teste. Mas esse problema pode ser resolvido removendo e definindo restrições nos parâmetros do modelo.
- Árvores de decisão não podem ser bem usadas com variáveis numéricas contínuas.
- Uma pequena mudança nos dados tende a causar uma grande diferença na estrutura da árvore, o que causa instabilidade.
- Os cálculos envolvidos também podem se tornar complexos em comparação com outros algoritmos e levar mais tempo para treinar o modelo.
- Também é relativamente caro, pois a quantidade de tempo necessária e os níveis de complexidade são maiores.
Conclusão
O algoritmo de regressão da árvore de decisão foi explicado através deste artigo, descrevendo como a árvore é construída juntamente com breves definições de vários termos relacionados a ela. Uma breve descrição de como a árvore de decisão funciona e como a decisão sobre a divisão de qualquer nó é tomada também está incluída.
Como uma regressão básica de árvore de decisão pode ser implementada também foi explicada por meio de uma sequência de etapas. Por fim, foram apresentadas as vantagens e desvantagens de um algoritmo de árvore de decisão.
Se você estiver interessado em saber mais sobre árvores de decisão, aprendizado de máquina, confira o Diploma PG do IIIT-B e do upGrad em aprendizado de máquina e IA, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições , IIIT-B Alumni status, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.
A regressão é usada para prever variáveis contínuas. É quando temos que prever um número. Por exemplo, se você deseja prever os preços das casas em uma cidade, com base em características como tamanho da casa e área da cidade, a regressão seria usada. Problemas de regressão são muito fáceis de resolver usando regressão linear. Em poucas palavras, a regressão é o ato de estimar um valor de saída desconhecido com base em um valor de entrada. Uma árvore de decisão é um diagrama que mostra todas as decisões possíveis e os resultados possíveis. As árvores de decisão são frequentemente usadas para examinar como as decisões influenciam os resultados futuros. Por exemplo, uma árvore de decisão pode ajudar uma empresa a analisar se deve comprar armazéns adicionais ou construir um novo centro de distribuição. Em geral, as árvores de decisão são usadas em pesquisa operacional e ciência de gerenciamento. As árvores de decisão são um conceito comum e popular na tomada de decisões e no planejamento de programas. Eles podem ser usados na escolha entre cursos de ação quando alguns dos cursos possíveis são mutuamente exclusivos e quando o resultado de cada curso de ação depende do estado do mundo. O modelo de árvores de decisão pode ser usado para qualquer classe de problemas, seja para classificação ou previsão numérica. Pode ser estendido a qualquer classe de problemas. Pode ser usado para classificação supervisionada e não supervisionada. Ele pode lidar com uma mistura de recursos numéricos e categóricos. Dá resultados estáveis. No entanto, é difícil entender a razão por trás da previsão. Deve-se entender que o modelo não está aprendendo a melhor divisão em cada nó da árvore, mas sim a distribuição de probabilidade da classe dentro de cada nó. Esse requisito torna o modelo computacionalmente intensivo e impede que ele manipule grandes quantidades de dados.O que é regressão no aprendizado de máquina?
O que são árvores de decisão?
Quais são as vantagens e desvantagens das árvores de decisão?