PCA em aprendizado de máquina: suposições, etapas para aplicar e aplicativos
Publicados: 2020-11-12Índice
Entendendo a redução de dimensionalidade no ML
Os algoritmos de ML (Machine Learning) são testados com alguns dados que podem ser chamados de conjunto de recursos no momento do desenvolvimento e teste. Os desenvolvedores precisam reduzir o número de variáveis de entrada em seu conjunto de recursos para aumentar o desempenho de qualquer modelo/algoritmo de ML específico.
Por exemplo, suponha que você tenha um conjunto de dados com várias colunas ou uma matriz de pontos em um espaço 3D. Nesse caso, você pode reduzir as dimensões do conjunto de dados aplicando técnicas de redução de dimensionalidade no ML. PCA (Principal Component Analysis) é uma das técnicas de redução de dimensionalidade amplamente utilizadas por desenvolvedores/testadores de ML. Vamos mergulhar mais fundo na compreensão do PCA no aprendizado de máquina.
Análise do componente principal
PCA é uma técnica estatística não supervisionada que é usada para reduzir as dimensões do conjunto de dados. Modelos de ML com muitas variáveis de entrada ou dimensionalidade mais alta tendem a falhar ao operar em um conjunto de dados de entrada mais alto. O PCA ajuda a identificar as relações entre as diferentes variáveis e, em seguida, acoplá-las. O PCA trabalha com algumas premissas que devem ser seguidas e ajuda os desenvolvedores a manter um padrão.
PCA envolve a transformação de variáveis do conjunto de dados em um novo conjunto de variáveis que são chamados de PCs (Componentes Principais). Os componentes principais seriam iguais ao número de variáveis originais no conjunto de dados fornecido.
O primeiro componente principal (PC1) contém a variação máxima que estava presente nas variáveis anteriores, e essa variação diminui à medida que avançamos para o nível inferior. O PC final teria a menor variação entre as variáveis e você poderá reduzir as dimensões do seu conjunto de recursos.
Premissas no PCA
Existem algumas suposições no PCA que devem ser seguidas, pois levarão ao funcionamento preciso dessa técnica de redução de dimensionalidade no ML. As premissas no PCA são:

• Deve haver linearidade no conjunto de dados, ou seja, as variáveis se combinam de forma linear para formar o conjunto de dados. As variáveis apresentam relações entre si.
• O PCA assume que o componente principal com alta variância deve ser observado e os PCs com menor variância são desconsiderados como ruído. O arcabouço do coeficiente de correlação de Pearson levou à origem da PCA, e ali assumiu-se primeiro que os eixos com alta variância só seriam transformados em componentes principais.
• Todas as variáveis devem ser acessadas no mesmo nível de medição da razão. A norma mais preferida é de pelo menos 150 observações do conjunto de amostras com uma medida de razão de 5:1.
• Os valores extremos que se desviam de outros pontos de dados em qualquer conjunto de dados, também chamados de valores discrepantes, devem ser menores. Um número maior de valores atípicos representará erros experimentais e degradará seu modelo/algoritmo de ML.
• O conjunto de recursos deve ser correlacionado e o conjunto de recursos reduzido após a aplicação do PCA representará o conjunto de dados original, mas de maneira efetiva com menos dimensões.
Deve ler: Salário de aprendizado de máquina na Índia
Etapas para aplicar o PCA
As etapas para aplicar o PCA em qualquer modelo/algoritmo de ML são as seguintes:
• A normalização dos dados é muito necessária para aplicar o PCA. Dados não dimensionados podem causar problemas na comparação relativa do conjunto de dados. Por exemplo, se tivermos uma lista de números em uma coluna em algum conjunto de dados 2D, a média desses números será subtraída de todos os números para normalizar o conjunto de dados 2D. A normalização dos dados também pode ser feita em um conjunto de dados 3D.
• Depois de normalizar o conjunto de dados, encontre a covariância entre as diferentes dimensões e coloque-as em uma matriz de covariância. Os elementos fora da diagonal na matriz de covariâncias irão representar a covariância entre cada par de variáveis e os elementos diagonais irão representar as variâncias de cada variável/dimensão.
Uma matriz de covariância construída para qualquer conjunto de dados sempre será simétrica. Uma matriz de covariância representará o relacionamento nos dados e você poderá entender facilmente a quantidade de variação em cada componente principal.
• Você tem que encontrar os autovalores da matriz de covariância que representa a variabilidade nos dados em uma base ortogonal no gráfico. Você também terá que encontrar autovetores da matriz de covariância que representará a direção na qual ocorre a variância máxima entre os dados.
Suponha que sua matriz de covariância 'C' tenha uma matriz quadrada 'E' de autovalores de 'C'. Nesse caso, deve satisfazer esta equação – determinante de (EI – C) = 0, onde 'I' é uma matriz identidade da mesma dimensão de 'C'. Você deve verificar se a matriz de covariância deles é uma matriz simétrica/quadrada, pois somente o cálculo de autovalores é possível.

• Organize os autovalores em ordem crescente/decrescente e selecione os autovalores mais altos. Você pode escolher com quantos autovalores deseja prosseguir. Você perderá algumas informações ao ignorar os autovalores menores, mas esses valores de minuto não criarão impacto suficiente no resultado final.
Os autovalores mais altos selecionados se tornarão as dimensões do seu conjunto de recursos atualizado. Também formamos um vetor de características, que é uma matriz vetorial que consiste em autovetores de autovalores relativos escolhidos.
• Usando o vetor de características, encontramos os principais componentes do conjunto de dados em análise. Multiplicamos a transposição do vetor de características pela transposição da matriz escalonada (uma versão escalonada dos dados após a normalização) para obter uma matriz contendo componentes principais.
Notaremos que o autovalor mais alto será apropriado para os dados, e os outros não fornecerão muitas informações sobre o conjunto de dados. Isso prova que não estamos perdendo dados ao reduzir as dimensões do conjunto de dados; estamos apenas representando-o de forma mais eficaz.
Esses métodos são implementados para finalmente reduzir as dimensões de qualquer conjunto de dados no PCA.
Aplicações do PCA
Os dados são gerados em muitos setores, e há a necessidade de analisar os dados para o crescimento de qualquer empresa/empresa. O PCA ajudará na redução das dimensões dos dados, facilitando a análise. As aplicações do PCA são:
• Neurociência – Os neurocientistas usam PCA para identificar qualquer neurônio ou mapear a estrutura cerebral durante as transições de fase.
• Finanças – O PCA é utilizado no setor financeiro para reduzir a dimensionalidade dos dados para a criação de carteiras de renda fixa. Muitas outras facetas do setor financeiro envolvem PCA, como previsão de retornos, criação de algoritmos de alocação de ativos ou algoritmos de patrimônio, etc.
• Tecnologia de Imagem – PCA também é usado para compressão de imagem ou processamento de imagem digital. Cada imagem pode ser representada através de uma matriz traçando os valores de intensidade de cada pixel, e então podemos aplicar o PCA sobre ela.
• Reconhecimento Facial – PCA em reconhecimento facial leva à criação de eigenfaces que tornam o reconhecimento facial mais preciso.
• Médico – O PCA é usado em muitos dados médicos para encontrar a correlação entre diferentes variáveis. Por exemplo, os médicos usam PCA para mostrar a correlação entre colesterol e lipoproteína de baixa densidade.

• Segurança – As anomalias podem ser facilmente encontradas usando o PCA. Ele é usado para identificar ataques cibernéticos/computadores e visualizá-los com a ajuda do PCA.
Pontos para levar
O PCA também pode levar a um baixo desempenho do modelo após aplicá-lo se o conjunto de dados original tiver uma correlação fraca ou nenhuma correlação. As variáveis precisam estar relacionadas umas às outras para aplicar o PCA perfeitamente. O PCA nos fornece uma combinação de recursos e a importância do recurso individual do conjunto de dados original é erradicada. Os eixos principais com maior variação são os componentes principais ideais.
Leia também: Ideias de projetos de aprendizado de máquina
Conclusão
PCA é uma técnica amplamente utilizada para diminuir as dimensões de um conjunto de recursos.
Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.
O PCA pode ser usado em todos os dados?
sim. A Análise de Componentes Principais (PCA) é uma técnica de análise de dados que fornece uma maneira de olhar e entender dados com dimensões muito altas. Em outras palavras, o PCA pode ser aplicado a dados que possuem um grande número de variáveis. Existe um equívoco comum de que o PCA só pode ser usado em dados que estão em um determinado formato. Por exemplo, muitas pessoas pensam que o PCA só é útil em variáveis numéricas. Este não é o caso. Na verdade, o PCA pode ser usado em variáveis de todos os tipos. Por exemplo, o PCA pode ser aplicado a variáveis categóricas, variáveis ordinais e assim por diante.
Quais são as limitações da Análise de Componentes Principais?
O PCA é uma ótima ferramenta para analisar seus dados e extrair dois ou três fatores mais importantes. É ótimo identificar os outliers e a tendência. Mas, tem algumas limitações como: Não é adequado para conjuntos de dados pequenos (Geralmente, o conjunto de dados deve ter mais de 30 linhas). Ele não encontra os fatores importantes, mas os seleciona com base nos valores. Então, é difícil encontrar os fatores importantes. Não tem uma estrutura matemática forte por trás disso. É difícil comparar os dados com o PCA. Ele não pode encontrar nenhuma relação não linear.
Quais são as vantagens da análise de componentes principais?
A análise de componentes principais (PCA) é um método estatístico usado para transformar um grande número de variáveis possivelmente correlacionadas em um número muito menor de variáveis não correlacionadas chamadas de componentes principais. O PCA pode ser usado como uma técnica de redução de dados, pois permite encontrar as variáveis mais importantes que são necessárias para descrever um conjunto de dados. O PCA também pode ser usado para reduzir a dimensionalidade do espaço de dados para obter informações sobre a estrutura interna dos dados. Isso é útil ao lidar com grandes conjuntos de dados.