Multicolinearidade na análise de regressão: tudo o que você precisa saber
Publicados: 2020-12-23Índice
Introdução
A regressão tenta determinar o caráter e a força da relação entre uma variável dependente e uma série de outras variáveis independentes. Ajuda a avaliar a força da relação entre as diferentes variáveis e a fazer um modelo das futuras relações entre elas. "Multicolinearidade" na regressão refere-se ao preditor que se correlaciona com os outros preditores,
O que é Multicolinearidade?
Sempre que as correlações entre duas ou mais variáveis preditoras são altas, ocorre multicolinearidade na regressão. Em palavras simples, uma variável preditora, também chamada de preditor multicolinear, pode ser usada para prever a outra variável. Isso leva à criação de informações redundantes, o que distorce os resultados no modelo de regressão.
Os exemplos de preditores multicolineares seriam o preço de venda e a idade de um carro, o peso, a altura de uma pessoa ou a renda anual e anos de educação.
Calcular coeficientes de correlação é a maneira mais fácil de detectar multicolinearidade para todos os pares de valores de preditores. Se o r, esse coeficiente de correlação for exatamente +1 ou -1, é chamado de multicolinearidade perfeita. Se o coeficiente de correlação for exatamente ou próximo de +1 ou -1, então uma das variáveis deve ser descartada do modelo somente caso seja possível.
É raro com dados experimentais, mas é muito comum que a multicolinearidade levante sua cabeça feia quando se trata de estudos observacionais. Pode levar a estimativas não confiáveis e instáveis de regressão quando a condição está presente. Com a ajuda da análise do resultado, alguns outros problemas podem ser interferidos como:
- A estatística t geralmente será bem pequena e os intervalos de confiança do coeficiente serão amplos. Isso significa que fica difícil rejeitar a hipótese nula.
- Pode haver uma mudança na magnitude e/ou sinal nos coeficientes de regressão parcial à medida que são passados de amostra para amostra.
- Os erros padrão podem ser grandes e a estimativa do coeficiente de regressão parcial pode ser imprecisa.
- Fica difícil avaliar o efeito em variáveis dependentes por variáveis independentes devido à multicolinearidade.
Leia: Tipos de modelos de regressão em aprendizado de máquina

Por que a multicolinearidade é um problema?
A mudança em uma única variável pode causar uma mudança no restante das variáveis, o que acontece quando as variáveis independentes são altamente correlacionadas. Assim, o modelo leva a um resultado significativamente flutuante. Como os resultados do modelo serão instáveis e altamente variáveis, mesmo quando ocorrer uma pequena alteração nos dados, isso constituirá os seguintes problemas:
- A estimação do coeficiente seria instável e de difícil interpretação do modelo. Ou seja, você não pode prever a escala das diferenças na saída se mesmo um de seus fatores de previsão muda em 1 unidade.
- Seria difícil selecionar a lista de variáveis significativas para o modelo se ele sempre apresentasse resultados variados.
- O overfitting pode ser causado devido à natureza instável do modelo. Você observará que a precisão caiu significativamente se aplicar o mesmo modelo a alguma outra amostra de dados em comparação com a precisão obtida com seu conjunto de dados de treinamento.
Considerando a situação, pode não ser problemático para o seu modelo se ocorrerem apenas problemas moderados de colinearidade. No entanto, é sempre sugerido resolver o problema se houver um problema grave na colinearidade.
Qual é a causa da multicolinearidade?
Existem dois tipos:

- Multicolinearidade estrutural na regressão: Isso geralmente é causado pelo pesquisador ou por você ao criar novas variáveis preditoras.
- Multicolinearidade baseada em dados na regressão: Isso geralmente é causado devido aos experimentos mal projetados, métodos de coleta de dados que não podem ser manipulados ou dados puramente observacionais. Em alguns casos, as variáveis podem ser altamente correlacionadas devido à coleta de dados de estudos 100% observacionais, e não há erro do lado do pesquisador. Devido a isso, é sempre sugerido realizar os experimentos sempre que possível, definindo antecipadamente o nível da variável preditora.
Leia também: Ideias e tópicos do projeto de regressão linear

As outras causas também podem incluir
- Falta de dados. Em alguns casos, coletar uma grande quantidade de dados pode ajudar a resolver o problema.
- As variáveis usadas como dummy podem ser usadas incorretamente. Por exemplo, o pesquisador pode falhar ao adicionar uma variável dummy para cada categoria ou excluir uma categoria.
- Considerando uma variável na regressão, que é uma combinação das outras variáveis na regressão – por exemplo, considerando “receita total de investimento” quando é receita de juros de poupança + renda de títulos e ações.
- Incluindo duas variáveis quase ou completamente idênticas. Por exemplo, rendimentos de títulos/poupanças e rendimentos de investimentos, peso em quilos e peso em libras.
Para verificar se ocorreu multicolinearidade
Você pode plotar a matriz de correlação de todas as variáveis independentes. Alternativamente, você pode usar o VIF, ou seja, o fator de inflação de variância para cada variável independente. Ele mede a multicolinearidade no conjunto de variáveis de regressão múltipla. O valor de VIF é proporcional à correlação entre esta variável e as demais. Isso significa que quanto maior o valor de VIF, maior a correlação.
Como podemos resolver o problema da multicolinearidade?
- Seleção da variável: A maneira mais fácil é remover algumas variáveis altamente correlacionadas entre si e deixar apenas as mais significativas no conjunto.
- Transformação da variável: O segundo método é uma transformação de variável, que reduzirá a correlação e ainda conseguirá manter o recurso.
- Análise do Componente Principal: A Análise do Componente Principal geralmente é usada para reduzir a dimensão dos dados decompondo os dados em vários fatores independentes. Tem muitas aplicações como o cálculo do modelo pode ser simplificado reduzindo os fatores de previsão em número.
Leitura Relacionada: Regressão Linear em Machine Learning
Conclusão
Antes de construir o modelo de regressão, você deve sempre verificar o problema da multicolinearidade. Para olhar para cada variável independente facilmente, recomenda-se VIF para ver se eles têm uma correlação considerável com o resto. A matriz de correlação pode ajudar a escolher os fatores importantes quando não tiver certeza de quais variáveis você deve selecionar. Também ajuda a entender por que algumas variáveis têm um alto valor de VIF.
Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.
O que significa o termo regressão ordinal no aprendizado de máquina?
A regressão ordinal é um tipo de análise de regressão que pertence à família de análise de regressão. A regressão ordinal analisa os dados e explica a relação entre uma variável dependente e duas ou mais variáveis independentes como estudo preditivo. A regressão ordinal é usada para prever a variável dependente quando existem várias categorias 'ordenadas' e fatores independentes. Dito de outra forma, permite que variáveis dependentes com diferentes níveis ordenados interajam com uma ou mais variáveis independentes mais facilmente.
A presença de multicolinearidade afeta as árvores de decisão?
Se duas características estiverem altamente associadas em um modelo de aprendizado de máquina específico, a árvore de decisão, no entanto, selecionaria apenas uma delas durante a divisão. Se os dados estiverem distorcidos ou desequilibrados, uma única árvore leva a uma abordagem gananciosa, mas métodos de aprendizado de conjunto, como florestas aleatórias e árvores de aumento de gradiente, tornam a previsão impermeável à multicolinearidade. Como resultado, florestas aleatórias e árvores de decisão não são afetadas pela multicolinearidade.
Como a regressão logística é diferente da regressão linear?
Em alguns aspectos, a regressão linear difere da regressão logística. A regressão lógica produz observações e descobertas discretas, mas a regressão linear produz uma saída contínua e contínua. Na regressão linear, o erro quadrático médio é calculado, mas na regressão logística, a estimativa de máxima verossimilhança é calculada. Por fim, o objetivo da regressão linear é identificar a melhor linha para corresponder aos dados, mas a regressão logística fica à frente ajustando os dados a uma curva sigmóide.