Multicolinearidade na análise de regressão: tudo o que você precisa saber

Publicados: 2020-12-23

Índice

Introdução

A regressão tenta determinar o caráter e a força da relação entre uma variável dependente e uma série de outras variáveis ​​independentes. Ajuda a avaliar a força da relação entre as diferentes variáveis ​​e a fazer um modelo das futuras relações entre elas. "Multicolinearidade" na regressão refere-se ao preditor que se correlaciona com os outros preditores,

O que é Multicolinearidade?

Sempre que as correlações entre duas ou mais variáveis ​​preditoras são altas, ocorre multicolinearidade na regressão. Em palavras simples, uma variável preditora, também chamada de preditor multicolinear, pode ser usada para prever a outra variável. Isso leva à criação de informações redundantes, o que distorce os resultados no modelo de regressão.

Os exemplos de preditores multicolineares seriam o preço de venda e a idade de um carro, o peso, a altura de uma pessoa ou a renda anual e anos de educação.

Calcular coeficientes de correlação é a maneira mais fácil de detectar multicolinearidade para todos os pares de valores de preditores. Se o r, esse coeficiente de correlação for exatamente +1 ou -1, é chamado de multicolinearidade perfeita. Se o coeficiente de correlação for exatamente ou próximo de +1 ou -1, então uma das variáveis ​​deve ser descartada do modelo somente caso seja possível.

É raro com dados experimentais, mas é muito comum que a multicolinearidade levante sua cabeça feia quando se trata de estudos observacionais. Pode levar a estimativas não confiáveis ​​e instáveis ​​de regressão quando a condição está presente. Com a ajuda da análise do resultado, alguns outros problemas podem ser interferidos como:

  • A estatística t geralmente será bem pequena e os intervalos de confiança do coeficiente serão amplos. Isso significa que fica difícil rejeitar a hipótese nula.
  • Pode haver uma mudança na magnitude e/ou sinal nos coeficientes de regressão parcial à medida que são passados ​​de amostra para amostra.
  • Os erros padrão podem ser grandes e a estimativa do coeficiente de regressão parcial pode ser imprecisa.
  • Fica difícil avaliar o efeito em variáveis ​​dependentes por variáveis ​​independentes devido à multicolinearidade.

Leia: Tipos de modelos de regressão em aprendizado de máquina

Por que a multicolinearidade é um problema?

A mudança em uma única variável pode causar uma mudança no restante das variáveis, o que acontece quando as variáveis ​​independentes são altamente correlacionadas. Assim, o modelo leva a um resultado significativamente flutuante. Como os resultados do modelo serão instáveis ​​e altamente variáveis, mesmo quando ocorrer uma pequena alteração nos dados, isso constituirá os seguintes problemas:

  • A estimação do coeficiente seria instável e de difícil interpretação do modelo. Ou seja, você não pode prever a escala das diferenças na saída se mesmo um de seus fatores de previsão muda em 1 unidade.
  • Seria difícil selecionar a lista de variáveis ​​significativas para o modelo se ele sempre apresentasse resultados variados.
  • O overfitting pode ser causado devido à natureza instável do modelo. Você observará que a precisão caiu significativamente se aplicar o mesmo modelo a alguma outra amostra de dados em comparação com a precisão obtida com seu conjunto de dados de treinamento.

Considerando a situação, pode não ser problemático para o seu modelo se ocorrerem apenas problemas moderados de colinearidade. No entanto, é sempre sugerido resolver o problema se houver um problema grave na colinearidade.

Qual é a causa da multicolinearidade?

Existem dois tipos:

  1. Multicolinearidade estrutural na regressão: Isso geralmente é causado pelo pesquisador ou por você ao criar novas variáveis ​​preditoras.
  2. Multicolinearidade baseada em dados na regressão: Isso geralmente é causado devido aos experimentos mal projetados, métodos de coleta de dados que não podem ser manipulados ou dados puramente observacionais. Em alguns casos, as variáveis ​​podem ser altamente correlacionadas devido à coleta de dados de estudos 100% observacionais, e não há erro do lado do pesquisador. Devido a isso, é sempre sugerido realizar os experimentos sempre que possível, definindo antecipadamente o nível da variável preditora.

Leia também: Ideias e tópicos do projeto de regressão linear

As outras causas também podem incluir

  1. Falta de dados. Em alguns casos, coletar uma grande quantidade de dados pode ajudar a resolver o problema.
  2. As variáveis ​​usadas como dummy podem ser usadas incorretamente. Por exemplo, o pesquisador pode falhar ao adicionar uma variável dummy para cada categoria ou excluir uma categoria.
  3. Considerando uma variável na regressão, que é uma combinação das outras variáveis ​​na regressão – por exemplo, considerando “receita total de investimento” quando é receita de juros de poupança + renda de títulos e ações.
  4. Incluindo duas variáveis ​​quase ou completamente idênticas. Por exemplo, rendimentos de títulos/poupanças e rendimentos de investimentos, peso em quilos e peso em libras.

Para verificar se ocorreu multicolinearidade

Você pode plotar a matriz de correlação de todas as variáveis ​​independentes. Alternativamente, você pode usar o VIF, ou seja, o fator de inflação de variância para cada variável independente. Ele mede a multicolinearidade no conjunto de variáveis ​​de regressão múltipla. O valor de VIF é proporcional à correlação entre esta variável e as demais. Isso significa que quanto maior o valor de VIF, maior a correlação.

Como podemos resolver o problema da multicolinearidade?

  1. Seleção da variável: A maneira mais fácil é remover algumas variáveis ​​altamente correlacionadas entre si e deixar apenas as mais significativas no conjunto.
  2. Transformação da variável: O segundo método é uma transformação de variável, que reduzirá a correlação e ainda conseguirá manter o recurso.
  3. Análise do Componente Principal: A Análise do Componente Principal geralmente é usada para reduzir a dimensão dos dados decompondo os dados em vários fatores independentes. Tem muitas aplicações como o cálculo do modelo pode ser simplificado reduzindo os fatores de previsão em número.

Leitura Relacionada: Regressão Linear em Machine Learning

Conclusão

Antes de construir o modelo de regressão, você deve sempre verificar o problema da multicolinearidade. Para olhar para cada variável independente facilmente, recomenda-se VIF para ver se eles têm uma correlação considerável com o resto. A matriz de correlação pode ajudar a escolher os fatores importantes quando não tiver certeza de quais variáveis ​​você deve selecionar. Também ajuda a entender por que algumas variáveis ​​têm um alto valor de VIF.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

O que significa o termo regressão ordinal no aprendizado de máquina?

A regressão ordinal é um tipo de análise de regressão que pertence à família de análise de regressão. A regressão ordinal analisa os dados e explica a relação entre uma variável dependente e duas ou mais variáveis ​​independentes como estudo preditivo. A regressão ordinal é usada para prever a variável dependente quando existem várias categorias 'ordenadas' e fatores independentes. Dito de outra forma, permite que variáveis ​​dependentes com diferentes níveis ordenados interajam com uma ou mais variáveis ​​independentes mais facilmente.

A presença de multicolinearidade afeta as árvores de decisão?

Se duas características estiverem altamente associadas em um modelo de aprendizado de máquina específico, a árvore de decisão, no entanto, selecionaria apenas uma delas durante a divisão. Se os dados estiverem distorcidos ou desequilibrados, uma única árvore leva a uma abordagem gananciosa, mas métodos de aprendizado de conjunto, como florestas aleatórias e árvores de aumento de gradiente, tornam a previsão impermeável à multicolinearidade. Como resultado, florestas aleatórias e árvores de decisão não são afetadas pela multicolinearidade.

Como a regressão logística é diferente da regressão linear?

Em alguns aspectos, a regressão linear difere da regressão logística. A regressão lógica produz observações e descobertas discretas, mas a regressão linear produz uma saída contínua e contínua. Na regressão linear, o erro quadrático médio é calculado, mas na regressão logística, a estimativa de máxima verossimilhança é calculada. Por fim, o objetivo da regressão linear é identificar a melhor linha para corresponder aos dados, mas a regressão logística fica à frente ajustando os dados a uma curva sigmóide.