5 Tipos de Algoritmos de Classificação em Aprendizado de Máquina [2022]

Publicados: 2021-01-02

Índice

Introdução

O aprendizado de máquina é um dos tópicos mais importantes em Inteligência Artificial. É ainda dividido em aprendizado supervisionado e não supervisionado, que pode estar relacionado à análise de dados rotulados e não rotulados ou à previsão de dados. No Aprendizado Supervisionado, temos mais dois tipos de problemas de negócios chamados Regressão e Classificação.

A classificação é um algoritmo de aprendizado de máquina onde obtemos os dados rotulados como entrada e precisamos prever a saída em uma classe. Se houver duas classes, então ela é chamada de Classificação Binária. Se houver mais de duas classes, ela é chamada de Classificação Multiclasse. Em cenários do mundo real, tendemos a ver os dois tipos de classificação.

Neste artigo, investigaremos alguns tipos de algoritmos de classificação, juntamente com seus prós e contras. Existem muitos algoritmos de classificação disponíveis, mas vamos nos concentrar nos 5 algoritmos abaixo:

Regressão Logística
K Vizinho mais próximo
Árvores de decisão
Floresta Aleatória
Máquinas de vetor de suporte

1. Regressão Logística

Embora o nome sugira Regressão, é um Algoritmo de Classificação. A Regressão Logística é um método estatístico de classificação de dados em que há uma ou mais variáveis independentes ou características que determinam um resultado que é medido com uma variável (TARGET) que possui duas ou mais classes. Seu principal objetivo é encontrar o melhor modelo de ajuste para descrever a relação entre a variável Target e as variáveis independentes.

Prós

1) Fácil de implementar, interpretar e eficiente de treinar, pois não faz suposições e é rápido na Classificação.

2) Pode ser usado para classificação multiclasse.

3) É menos propenso a overfitting, mas faz overfit em conjuntos de dados de alta dimensão.

Contras

1) Overfits quando as observações são menores que os recursos.

2) Funciona apenas com funções discretas.

3) Problemas não lineares não podem ser resolvidos.

4) Difícil de aprender padrões complexos e geralmente as redes neurais os superam.

2. K Vizinho mais próximo

O algoritmo K-nearest neighbors (KNN) usa a técnica de 'semelhança de recursos' ou 'vizinhos mais próximos' para prever o cluster no qual um novo ponto de dados se encaixa. Abaixo estão alguns passos com base nos quais podemos entender melhor o funcionamento deste algoritmo

Etapa 1 - Para implementar qualquer algoritmo em Machine Learning, precisamos de um conjunto de dados limpo e pronto para modelagem. Vamos supor que já temos um conjunto de dados limpo que foi dividido em conjunto de dados de treinamento e teste.

Passo 2 − Como já temos os conjuntos de dados prontos, precisamos escolher o valor de K (inteiro) que nos diz quantos pontos de dados mais próximos precisamos levar em consideração para implementar o algoritmo. Podemos saber como determinar o valor de k nas etapas posteriores do artigo.

Etapa 3 - Esta etapa é iterativa e precisa ser aplicada para cada ponto de dados no conjunto de dados

Calcule a distância entre os dados de teste e cada linha de dados de treinamento usando qualquer uma das métricas de distância
Distância euclidiana
distância de Manhattan
distância de Minkowski
Distância de Hamming.

Muitos cientistas de dados tendem a usar a distância euclidiana, mas podemos conhecer o significado de cada uma na etapa posterior deste artigo.

Precisamos classificar os dados com base na métrica de distância que usamos na etapa acima.

Escolha as K linhas superiores nos dados classificados transformados.

Em seguida, ele atribuirá uma classe ao ponto de teste com base na classe mais frequente dessas linhas.

Passo 4 – Fim

Prós

Fácil de usar, entender e interpretar.
Tempo de cálculo rápido.
Sem suposições sobre os dados.
Alta precisão das previsões.
Versátil – Pode ser usado para problemas de negócios de classificação e regressão.
Também pode ser usado para problemas multiclasse.
Temos apenas um parâmetro Hyper para ajustar na etapa de ajuste de hiperparâmetro.

Contras

Computacionalmente caro e requer muita memória, pois o algoritmo armazena todos os dados de treinamento.
O algoritmo fica mais lento à medida que as variáveis aumentam.
É muito sensível a recursos irrelevantes.
Maldição da Dimensionalidade.
Escolhendo o valor ótimo de K.
Conjunto de dados de classe desequilibrada causará problemas.
Valores ausentes nos dados também causam problemas.

Leia: Ideias de projetos de aprendizado de máquina

3. Árvores de decisão

As árvores de decisão podem ser usadas para Classificação e Regressão, pois podem lidar com dados numéricos e categóricos. Ele divide o conjunto de dados em subconjuntos ou nós cada vez menores à medida que a árvore é desenvolvida. A árvore de decisão tem saída com nós de decisão e folha onde um nó de decisão tem duas ou mais ramificações enquanto um nó folha representa uma decisão. O nó superior que corresponde ao melhor preditor é chamado de nó raiz.

Prós

Simples de entender
Fácil visualização
Menos interpretação de dados
Manipula dados numéricos e categóricos.

Contras

Às vezes não generaliza bem
Instável a mudanças nos dados de entrada

4. Florestas aleatórias

Florestas aleatórias são um método de aprendizado de conjunto que pode ser usado para classificação e regressão. Ele funciona construindo várias árvores de decisão e produz os resultados tomando a média de todas as árvores de decisão em Regressão ou Votação por maioria em problemas de Classificação. Você pode ficar sabendo pelo próprio nome que um grupo de árvores é chamado de Floresta.

Prós

Pode lidar com grandes conjuntos de dados.
Produzirá a importância das variáveis.
Pode lidar com valores ausentes.

Contras

É um algoritmo de caixa preta.
Previsão lenta em tempo real e algoritmos complexos.

5. Máquinas vetoriais de suporte

A máquina de vetores de suporte é uma representação do conjunto de dados como pontos no espaço separados em categorias por uma lacuna ou linha clara que está o mais longe possível. Os novos pontos de dados agora são mapeados nesse mesmo espaço e classificados para pertencer a uma categoria com base em qual lado da linha ou separação eles se enquadram.

Prós

Funciona melhor em espaços de alta dimensão.
Usa um subconjunto de pontos de dados de treinamento na função de decisão, o que o torna um algoritmo eficiente de memória.

Contras

Não fornecerá estimativas de probabilidade.
Pode calcular estimativas de probabilidade usando validação cruzada, mas é demorado.

Leia também: Carreira em Machine Learning

Conclusão

Neste artigo discutimos sobre os 5 algoritmos de classificação, suas breves definições, prós e contras. Estes são apenas alguns algoritmos que cobrimos, mas existem algoritmos mais valiosos, como Naive Bayes, Redes Neurais, Regressão Logística Ordenada. Não se pode dizer qual algoritmo funciona bem para qual problema, então a melhor prática é experimentar alguns e selecionar o modelo final com base nas métricas de avaliação.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

Qual é o principal objetivo por trás do uso da regressão logística?

A regressão logística é usada principalmente em probabilidades estatísticas. Utiliza uma equação de regressão logística para compreender a relação entre as variáveis dependentes e as variáveis independentes presentes nos dados fornecidos. Isso é feito estimando as probabilidades de eventos individuais. Um modelo de regressão logística é muito semelhante ao modelo de regressão linear, no entanto, seu uso é preferido quando a variável dependente fornecida nos dados é dicotômica.

Como o SVM é diferente da regressão logística?

Embora o SVM forneça mais precisão do que os modelos de regressão logística, é complexo de usar e, portanto, não é fácil de usar. No caso de grandes quantidades de dados, o uso de SVM não é preferido. Enquanto o SVM é usado para resolver problemas de regressão e classificação, a regressão logística só resolve bem os problemas de classificação. Ao contrário do SVM, o overfitting é uma ocorrência comum ao usar a regressão logística. Além disso, a regressão logística é mais vulnerável a outliers quando comparada às máquinas de vetores de suporte.

Uma árvore de regressão é um tipo de árvore de decisão?

Sim, as árvores de regressão são basicamente árvores de decisão usadas para tarefas de regressão. Modelos de regressão são usados para compreender a relação entre as variáveis dependentes e as variáveis independentes que realmente surgiram pela divisão do conjunto de dados inicial. As árvores de regressão podem ser usadas somente quando a árvore de decisão consiste em uma variável de destino contínua.