Introdução ao Algoritmo de Classificação: Conceitos e Vários Tipos

Publicados: 2020-04-13

Os algoritmos de classificação ajudam você a dividir seus dados em diferentes classes. Assim como quando você deseja classificar as coisas durante a embalagem, um algoritmo de classificação ajuda você a classificar os dados. Neste artigo, veremos o que são algoritmos de classificação, os tipos de algoritmos de classificação, alguns conceitos básicos deste tópico e como eles funcionam.

Índice

O que significa Classificação?

Para prever a classe de destino, quando usamos nosso conjunto de dados de treinamento para obter condições de contorno, chamamos esse processo de classificação. Existem muitos tipos de classes-alvo que você pode alcançar. Por exemplo, suponha que você queira prever se seus clientes comprariam um determinado produto ou não de acordo com os dados do cliente que você possui. Nesse caso, as classes de destino seriam 'Sim' ou 'Não'.

Por outro lado, você pode classificar os vegetais de acordo com seu peso, tamanho ou cor. Nesse cenário, as classes de destino disponíveis podem ser Espinafre, Tomate, Cebola, Batata e Repolho. Você também pode realizar a classificação de gênero, onde as classes de destino seriam Feminino e Masculino.

Vamos entender um pouco como funciona um algoritmo de classificação considerando o terceiro exemplo. Podemos manter o comprimento do cabelo como um parâmetro de recurso, embora seja apenas para fins deste exemplo. Podemos treinar nosso modelo usando um algoritmo de classificação e deixá-lo determinar as condições de contorno para realizar a diferenciação entre os gêneros feminino e masculino através do parâmetro de característica dado, ou seja, comprimento do cabelo.

Conceitos Básicos de Classificação

Antes de começarmos a discutir algoritmos de classificação, você deve estar familiarizado com várias definições. Dessa forma, você poderá evitar qualquer confusão mais tarde:

Recursos

É uma propriedade individual mensurável de um fenômeno particular que observamos de cada vez.

Classificadores

Um classificador é um algoritmo que mapeia os dados de entrada de um modelo para uma categoria específica.

Modelos de classificação

Os modelos de classificação devem concluir os valores de entrada que damos ao modelo durante o treinamento. Esses modelos preveem as categorias (rótulos de classe) para os novos dados que fornecemos a eles.

Classificação de vários rótulos

A classificação multirrótulo é quando mapeamos cada amostra para um conjunto de rótulos de destino de várias classes. Por exemplo, uma mochila escolar pode ter livros, lancheira e canetas ao mesmo tempo.

Classificação multiclasse

A classificação multiclasse é quando atribuímos cada amostra a apenas um único rótulo de destino. Ocorre quando temos mais de duas classes. Por exemplo, um carro pode estar em movimento ou parado, mas não os dois ao mesmo tempo.

Classificação Binária

Classificação Binária é quando temos apenas duas classes possíveis. Por exemplo, o gênero de uma pessoa pode ser masculino ou feminino.

Tipos de Algoritmos de Classificação

Aqui estão todos os tipos de algoritmos de classificação:

  • Estimativa do kernel

(K-vizinho mais próximo)

  • Classificadores lineares

(Regressão logística, discriminante linear de Fisher e classificador Naive Bayes)

  • Classificadores Quadráticos
  • Redes neurais
  • Aprendendo Quantização Vetorial
  • Máquinas de vetor de suporte

(Mínimos quadrados suportam máquinas vetoriais)

Vamos agora discutir alguns dos tipos essenciais de algoritmos de classificação:

Saiba mais: Tipos de algoritmos de aprendizado de máquina com exemplos de casos de uso

K-vizinho mais próximo

K-nearest neighbor, também conhecido como KNN, é um algoritmo popular para resolver problemas de regressão e classificação. Classifica novos casos de acordo com os votos dos k-vizinhos. Determinamos k vizinhos mais próximos usando funções de distância. A função de distância mais popular é a euclidiana, mas também existem outras opções, como Manhattan e Hamming.

Para entender o KNN, você pode dar uma olhada em um exemplo da vida real. Suponha que você queira fazer amizade com uma pessoa sobre a qual você não tem muitas informações. Para conhecê-los melhor, primeiro você deve conversar com seus amigos e colegas para ter uma ideia de como eles são. É assim que o algoritmo KNN funciona.

Ao usar o algoritmo k-vizinho mais próximo, certifique-se de normalizar as variáveis, pois as variáveis ​​de intervalo mais alto podem desenvolver um viés. Além disso, os algoritmos KNN são bastante caros, computacionalmente.

Árvores de decisão

As árvores de decisão ajudam a prever possíveis resultados de acordo com uma série de escolhas. É um algoritmo de aprendizado supervisionado e usa vários recursos com variáveis ​​dependentes contínuas e categóricas.

Por exemplo, suponha que você queira sair para comprar frutas para si mesmo, mas percebe que o tempo está nublado. Agora, você tem duas opções, você pode ir, ou talvez não. Se você for, pode chover, e então você terá que voltar de mãos vazias. Por outro lado, se não chover, você pode comprar as frutas que precisa comprar. Foi um exemplo simples contendo várias variáveis, mas você entendeu.

Leia também: Árvore de decisão em R

Regressão Logística

A regressão logística não é um algoritmo de regressão. A regressão logística estima valores discretos de acordo com um conjunto particular de variáveis ​​independentes. Em outras palavras, ele prevê as chances de um evento usando uma função logit. É por isso que também tem o nome de regressão logit.

Como a regressão logística foi projetada para classificação, é uma escolha popular entre os especialistas. Além disso, é o algoritmo mais adequado para entender a influência de várias variáveis ​​independentes em um possível resultado. Sua desvantagem é que só funciona com variáveis ​​binárias previsíveis e assume que seus dados não contêm valores ausentes.

Máquina de vetor de suporte

Em uma máquina de vetores de suporte, o valor de cada recurso é o valor de uma coordenada específica e cada item é um ponto no espaço n-dimensional. Aqui, 'n' representa o número de recursos que você possui.

Vamos supor que você tenha duas características, comprimento do cabelo e altura. Nesse caso, primeiro plotamos essas variáveis ​​em um espaço bidimensional e cada ponto tem duas coordenadas. Chamamos essas coordenadas de Vetores de Suporte; é por isso que esse algoritmo é chamado de Support Vector Machine.

Depois de plotarmos esses pontos, encontraremos uma linha que divide os dados em dois grupos classificados distintamente. Essa linha é o classificador, e criamos classes de acordo com o lado em que nossos dados de teste estão no resultado final.

Considerações Finais

Neste blog, tentamos explicar os algoritmos de classificação da forma mais abrangente possível. Se você quiser saber mais sobre esse assunto, sugerimos que acesse nosso blog, que está repleto de artigos valiosos desse tipo.

Você também pode acessar nosso catálogo de cursos de aprendizado de máquina para saber mais sobre esse tópico. Temos certeza de que você encontrará algo útil.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

Prepare-se para uma carreira do futuro

DIPLOMA PG EM APRENDIZAGEM DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL
Saiba mais @ UPGRAD