Classificação da árvore de decisão: tudo o que você precisa saber

Publicados: 2020-05-29

Índice

Introdução
De que são feitas as árvores de decisão?
Classificação da árvore de decisão
- 1. Árvores de classificação
- 2. Árvores de regressão
Como as árvores de decisão são criadas?
Dividir e conquistar
Como funciona o classificador de árvore de decisão?
Vantagens de usar a classificação de árvore de decisão
Desvantagens de usar o classificador de árvore de decisão
Conclusão
As Árvores de Decisão estão inclinadas ao overfit?
As Árvores de Decisão precisam de normalização?
Como emendar árvores de decisão?

Introdução

Muitas analogias poderiam ser levadas da natureza para nossas vidas reais; as árvores são uma das mais influentes delas. As árvores causaram impacto em uma área considerável de aprendizado de máquina. Eles cobrem tanto a classificação essencial quanto a regressão. Ao analisar qualquer decisão, um classificador de árvore de decisão pode ser empregado para representar o processo de tomada de decisão.

Então, basicamente, uma árvore de decisão faz parte do aprendizado de máquina supervisionado, onde o processamento de dados acontece dividindo os dados continuamente, mantendo em mente um parâmetro específico.

De que são feitas as árvores de decisão?

A resposta à pergunta é direta. As árvores de decisão são feitas de três coisas essenciais, a analogia com cada uma delas pode ser feita com uma árvore da vida real. Todos os três estão listados abaixo:

Nós: Este é o local onde o teste para o valor acontece. Em um nó, o valor de um atributo específico é passado e é verificado e testado em relação aos valores para tomar uma decisão.
Bordas/Ramos: Esta parte corresponde ao resultado de qualquer resultado de teste. Arestas/Ramos também são responsáveis por ligar dois nós ou folhas diferentes.
Nós Folha: Estes são os nós que normalmente são encontrados nos terminais. Os nós folha são responsáveis por prever o resultado.

Classificação da árvore de decisão

As árvores de decisão podem ser amplamente classificadas em duas categorias, a saber, árvores de classificação e árvores de regressão.

1. Árvores de classificação

As árvores de classificação são os tipos de árvores de decisão que se baseiam em responder às perguntas “Sim” ou “Não” e usar essas informações para chegar a uma decisão. Assim, uma árvore, que determina se uma pessoa está apta ou não, fazendo um monte de perguntas relacionadas e usando as respostas para chegar a uma solução viável, é um tipo de árvore de classificação.

Esses tipos de árvores são geralmente construídos empregando um processo que é chamado de particionamento recursivo binário. O método de particionamento recursivo binário envolve a divisão dos dados em módulos ou partições separadas e, em seguida, essas partições são divididas em cada ramificação do classificador da árvore de decisão .

2. Árvores de regressão

Agora, um tipo de regressão de árvore de decisão é diferente do tipo de classificação de árvore de decisão em um aspecto. Os dados que foram alimentados nas duas árvores são muito diferentes. As árvores de classificação tratam os dados, que são discretos, enquanto as árvores de decisão de regressão tratam do tipo de dados contínuo. Um bom exemplo de árvores de regressão seria o preço da casa ou quanto tempo um paciente normalmente ficará no hospital.

Saiba mais: Regressão Linear em Machine Learning

Como as árvores de decisão são criadas?

As árvores de decisão são criadas a partir do conjunto de dados em que o modelo deve ser treinado (as árvores de decisão fazem parte do aprendizado de máquina supervisionado). Este conjunto de dados de treinamento deve ser continuamente dividido em subconjuntos de dados menores. Esse processo é complementado pela criação de uma árvore de associação que é criada incrementalmente lado a lado no processo de divisão dos dados. Após a máquina ter concluído o aprendizado, a criação de uma árvore de decisão com base no conjunto de dados de treinamento fornecido é concluída e essa árvore é devolvida ao usuário.

A ideia central por trás do uso de uma árvore de decisão é separar os dados em duas regiões primárias, a região com a população densa (cluster) ou a área, que são regiões vazias (ou esparsas).

A classificação da Árvore de Decisão funciona com base em um princípio elementar da divisão. Ele conquista onde qualquer novo exemplo que tenha sido alimentado na árvore, após passar por uma série de testes, seria organizado e receberia um rótulo de classe. O algoritmo de dividir e conquistar é discutido em detalhes abaixo:

Dividir e conquistar

É evidente que o classificador de árvore de decisão é baseado e construído fazendo uso de uma heurística conhecida como particionamento recursivo, também conhecido como algoritmo de divisão e conquista. Ele divide os dados em conjuntos menores e continua a fazê-lo. Até que seja determinado que os dados dentro de cada subconjunto são homogêneos, ou se o usuário tiver definido outro critério de parada, isso interromperia esse algoritmo.

Como funciona o classificador de árvore de decisão ?

O algoritmo de divisão e conquista é usado para criar um classificador de árvore de decisão . Ao fazer uso do algoritmo começamos sempre na raiz da árvore e também dividimos o conjunto de dados para reduzir a incerteza na decisão final.
Acontece que é um processo iterativo. Então, repetimos esse processo em cada nó. Esse processo se repete até o momento em que não temos os nós da pureza que desejamos.
Geralmente, para evitar overfitting, estabelecemos um limite de pureza a ser alcançado. Isso significa que o resultado final pode não ser 100% puro.

Noções básicas do algoritmo de divisão e conquista:

Primeiro vem escolher ou selecionar um teste para o nó raiz. Em seguida, começa o processo de criação de ramificações. As ramificações são projetadas tendo em mente cada resultado possível do julgamento que foi definido.
Em seguida vem a divisão das instâncias de dados em subconjuntos menores. Cada ramificação teria sua própria emenda, que é conectada ao nó.
Esse processo deve ser repetido para cada ramificação usando apenas as instâncias que chegam ao ramal em questão.
Este processo recursivo deve ser interrompido se todas as instâncias pertencerem à mesma classe.

Vantagens de usar a classificação de árvore de decisão

Não requer uma quantidade enorme de dinheiro para construir.
É um processo rápido de classificação de registros novos ou desconhecidos.
Pode ser interpretado muito facilmente, especialmente se a árvore for pequena.
A precisão da previsão usando o classificador de árvore de decisão é comparável a outros métodos de previsão ou classificação.
Ele também tem a capacidade de excluir os recursos que não são importantes. Esse processo de eliminação de recursos irrelevantes é feito automaticamente.

Leia: Como criar uma árvore de decisão perfeita?

Desvantagens de usar o classificador de árvore de decisão

O overfitting do conjunto de dados é muito fácil neste caso.
O limite da decisão tem uma restrição. Só pode ser paralelo aos eixos, que contém os atributos.
Modelos baseados em árvores de decisão geralmente têm divisões tendenciosas que possuem um grande número de níveis.
Quaisquer pequenas alterações feitas no conjunto de dados podem ter um impacto significativo na lógica que governa a decisão.
As árvores lager são difíceis de entender porque às vezes podem parecer muito contra-intuitivas.

Leia também: Árvores de decisão em aprendizado de máquina

Aprenda cursos de ciência de dados das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Conclusão

As árvores de decisão são úteis quando nos deparamos com problemas que não podem ser tratados com soluções lineares. A partir das observações, notou-se que os modelos baseados em árvore podem facilmente mapear a não linearidade das entradas e eliminar efetivamente o problema em questão. Métodos sofisticados como geração de floresta aleatória e aumento de gradiente são todos baseados no próprio classificador da árvore de decisão .

Árvores de decisão são uma ferramenta poderosa que pode ser usada em muitas áreas da vida real, como Engenharia Biomédica, astronomia, controle de sistemas, medicina, física, etc. Isso efetivamente torna a classificação de árvores de decisão uma ferramenta crítica e indispensável de aprendizado de máquina.

As Árvores de Decisão estão inclinadas ao overfit?

As Árvores de Decisão fragmentam os dados complexos em formas mais simples. Uma classificação de Árvore de Decisão tenta dividir os dados até que não possam mais ser divididos. Um gráfico claro de todos os conteúdos possíveis é então criado, o que ajuda na análise posterior. Enquanto uma vasta árvore com inúmeras emendas nos dá um caminho reto, ela também pode gerar um problema ao testar os dados. Essa emenda excessiva leva ao overfitting, em que muitas divisões fazem com que a árvore cresça tremendamente. Nesses casos, a capacidade preditiva da Árvore de Decisão fica comprometida e, portanto, torna-se instável. A poda é uma técnica usada para lidar com o overfitting, onde os subconjuntos excessivos são removidos.

As Árvores de Decisão precisam de normalização?

Árvores de decisão são o algoritmo de aprendizado de máquina mais comum usado para a classificação e regressão de dados. Esse mecanismo supervisionado divide os dados por subconjunto em vários grupos até atingir o nó folha, onde não pode ser dividido mais. Como esses dados serão divididos em categorias com base nos atributos fornecidos, eles serão divididos uniformemente. Ele transmite que tanto os dados que passaram pela normalização quanto os dados que não passaram teriam o mesmo número de divisões. Portanto, a normalização não é um pré-requisito para modelos de árvore baseados em decisão.

Como emendar árvores de decisão?

As Árvores de Decisão são um mecanismo confiável para classificar dados e prever soluções. A emenda em uma árvore de decisão requer precisão; um pequeno erro pode comprometer a integridade da Árvore de Decisão. O splicing em uma árvore de decisão ocorre usando particionamento recursivo. A divisão de dados começa com a criação de subconjuntos de dados por meio dos atributos atribuídos a eles. Os dados são divididos recursivamente em repetição até que os dados emendados em cada nó sejam considerados obsoletos na previsão de soluções. O subconjunto também pode ser semelhante ao valor da variável de destino. A emenda deve ser metódica e repetitiva para uma boa precisão.