Análise discriminante linear para aprendizado de máquina: o que você precisa saber?

Publicados: 2020-05-22

O avanço da tecnologia nos últimos anos permitiu que os dispositivos conectados lidassem com grandes quantidades de dados. No entanto, o armazenamento e a segurança dos dados ainda são grandes preocupações ao lidar com quantidades tão grandes de dados. É por isso que é muito importante lidar com os dados da maneira correta. Muitas vezes pode ser uma tarefa demorada.

É aqui que as técnicas de redução de dimensionalidade de dados, como análise discriminante linear ou LDA , entram em cena. Essas técnicas podem ajudá-lo a lidar com conjuntos de dados de uma maneira muito melhor, garantindo a segurança e a privacidade dos dados. Nosso foco neste blog será discutir a técnica de redução de dimensionalidade de dados de análise discriminante linear. Vamos começar falando sobre redução de dimensionalidade.

Índice

O que é redução de dimensionalidade?

Você será capaz de entender melhor a técnica de análise discriminante linear se conhecer o contexto do conceito em que se baseia. Ao lidar com dados multidimensionais, você tem dados com vários recursos correlacionados entre si. Se plotarmos dados multidimensionais em duas ou três dimensões, estamos usando a técnica de redução de dimensionalidade.

Uma alternativa que também é bastante utilizada como substituto da redução de dimensionalidade é a plotagem de dados usando histogramas, gráficos de dispersão, gráficos de caixa, entre outros. Esses gráficos podem ser usados ​​para encontrar padrões em um determinado conjunto de dados brutos. No entanto, os gráficos não apresentam dados de uma forma que seja fácil de decifrar para pessoas comuns. Além disso, dados com muitos recursos precisariam de vários gráficos para identificar padrões nesse conjunto de dados.

Técnicas de redução de dimensionalidade de dados, como LDA, ajudam a superar essas preocupações usando duas ou três dimensões para plotagem de dados. Isso permitirá que você seja mais explícito na apresentação dos dados, o que fará sentido até mesmo para quem não tem formação técnica.

Leia: 25 perguntas e respostas da entrevista de aprendizado de máquina

O que é análise discriminante linear?

É uma das técnicas de redução de dimensionalidade mais utilizadas. Ele é usado em aprendizado de máquina, bem como em aplicativos que têm algo a ver com a classificação de padrões. O LDA serve a um propósito muito específico, que é projetar características que existem em um espaço de alta dimensão em um espaço de dimensão inferior.

Isso é feito para eliminar problemas comuns de dimensionalidade e reduzir custos e recursos dimensionais. Ronald A Fisher detém o crédito pelo desenvolvimento do conceito original em 1936 – Análise Discriminante de Fisher ou Discriminante Linear . Originalmente, o discriminante linear era uma técnica de duas classes. A versão multi-classe veio mais tarde.

A análise discriminante linear é um método de classificação supervisionado usado para criar modelos de aprendizado de máquina. Esses modelos baseados em redução de dimensionalidade são utilizados na aplicação, como análise preditiva de marketing e reconhecimento de imagem, entre outros. Discutiremos as aplicações um pouco mais tarde.

Então, o que exatamente estamos procurando com a LDA? Existem duas áreas que esta técnica de redução de dimensionalidade ajuda a descobrir – Os parâmetros que podem ser usados ​​para explicar a relação entre um grupo e um objeto – O modelo preceptor de classificação que pode ajudar na separação dos grupos. É por isso que o LDA é amplamente utilizado para modelar variedades em diferentes grupos. Então você pode usar essa técnica para usar duas ou mais de duas classes para a distribuição de uma variável.

Extensões para análise discriminante linear

A LDA é considerada um dos métodos mais simples e eficazes disponíveis para classificação. Como o método é tão simples e fácil de entender, temos algumas variações e extensões disponíveis para ele. Alguns deles incluem:

1. Análise discriminante regularizada ou RDA

O RDA é usado para trazer a regularização para estimativa de variância ou covariância. Isso é feito para moderar o impacto que as variáveis ​​têm na LDA.

2. Análise discriminante quadrática ou QDA

No QDA, diferentes classes usam sua própria estimativa de variância. Caso o número da variável de entrada seja maior que o normal, cada classe usa sua estimativa de covariância.

3. Análise discriminante flexível ou FDA

A FDA faz uso de entradas com combinações não lineares. Splines são um bom exemplo.

Saiba mais sobre: ​​Ideias e tópicos do projeto Python

Aplicativos LDA comuns

LDA encontra seu uso em várias aplicações. Ele pode ser usado em qualquer problema que possa ser transformado em um problema de classificação. Exemplos comuns incluem reconhecimento de velocidade, reconhecimento facial, química, classificação de dados de microarray, recuperação de imagens, biometria e bioinformática, para citar alguns. Vamos discutir alguns deles.

1. Reconhecimento facial

Na visão computacional, o reconhecimento facial é considerado uma das aplicações mais populares. O reconhecimento facial é realizado pela representação de rostos usando grandes quantidades de valores de pixel. O LDA é usado para reduzir o número de recursos para preparar as bases para o uso do método de classificação. As novas dimensões são combinações de valores de pixel usados ​​para criar um modelo.

2. Identificação do cliente

Se você deseja identificar os clientes com base na probabilidade de eles comprarem um produto, você pode usar o LDA para coletar os recursos do cliente. Você pode identificar e escolher os recursos que descrevem o grupo de clientes que apresentam maiores chances de comprar um produto.

3. Médico

O LDA pode ser usado para classificar doenças em diferentes categorias, como grave, leve ou moderada. Existem vários parâmetros do paciente que irão conduzir esta tarefa de classificação. Essa classificação permite que os médicos definam o ritmo do tratamento.

Leia também: 15 ideias interessantes de projetos de aprendizado de máquina para iniciantes

Conclusão

LDA é uma técnica simples e bem compreendida que é comumente usada em modelos de ML de classificação. PCA e regressão logística são outras técnicas de redução de dimensionalidade disponíveis para nós. Mas quando se trata de problemas especiais de classificação, LDA é preferível aos outros dois.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

O que é análise discriminante linear?

A Análise Discriminante Linear (LDA) é um algoritmo de classificação para aprender as características subjacentes que são boas para discriminar um grupo de amostras de todos os outros grupos. Como resultado da aplicação do algoritmo LDA, obtemos um novo conjunto de recursos que pode ser usado para previsão de associação ao grupo. Por exemplo, digamos que você colete endereços IP e queira descobrir a qual país eles pertencem. Você tem um conjunto de treinamento de endereços IP de amostra e pode identificar o país de origem com uma precisão muito alta. Se você tiver um novo endereço IP e quiser saber de que país vem, você pode entregá-lo a um LDA e ele o atribuirá à classe com maior probabilidade.

Quais são as aplicações da análise discriminante linear?

A análise discriminante linear (LDA) é um conjunto de técnicas no framework de aprendizado supervisionado. LDA é um método, onde a variável dependente é linearmente separável no espaço de características. O LDA é usado em Marketing, Finanças e outras áreas para executar várias tarefas de classificação, como perfil de clientes e detecção de fraudes. Por exemplo, considere que queremos encontrar uma combinação linear de variáveis ​​independentes que separe dois grupos de pontos de dados. O LDA encontra uma combinação linear das variáveis ​​independentes que produz separação máxima entre os dois grupos de pontos de dados no espaço de características.

O que é Redução de Dimensionalidade?

A redução de dimensionalidade refere-se a uma coleção de técnicas para reduzir o número de variáveis ​​em um conjunto de dados. A técnica de redução de dimensionalidade mais comum é a Análise de Componentes Principais (PCA). PCA é a técnica de redução de dimensionalidade mais popular devido à sua simplicidade, elegância matemática e altas propriedades estatísticas. O PCA é usado para reduzir a dimensionalidade de um conjunto de dados, identificando o eixo que contém a maior variação juntamente com o menor número de erros.