Suposições de regressão linear: 5 suposições com exemplos
Publicados: 2020-12-22A regressão é usada para medir e quantificar as relações de causa e efeito. A análise de regressão é uma técnica estatística usada para entender a magnitude e a direção de uma possível relação causal entre um padrão observado e as variáveis assumidas que impactam o determinado padrão observado.
Por exemplo, se houver uma redução de 20% no preço de um produto, digamos, um hidratante, as pessoas provavelmente o comprarão e as vendas provavelmente aumentarão.
Aqui, o padrão observado é um aumento nas vendas (também chamada de variável dependente). A variável assumida para impactar as vendas é o preço (também chamado de variável independente).
Índice
O que é regressão linear?
A regressão linear é uma técnica estatística que modela a magnitude e a direção de um impacto na variável dependente explicada pelas variáveis independentes. A regressão linear é comumente usada em análise preditiva.
A regressão linear explica dois aspectos importantes das variáveis, que são os seguintes:
- O conjunto de variáveis independentes explica significativamente a variável dependente?
- Quais variáveis são as mais significativas para explicar o dependente disponível? De que forma eles impactam a variável dependente? O impacto geralmente é determinado pela magnitude e pelo sinal dos coeficientes beta na equação.
Agora, vamos examinar as suposições da regressão linear, que são essenciais para entender antes de executarmos um modelo de regressão linear.

Leia mais: Modelo de regressão linear e como funciona?
Suposições de Regressão Linear
Relação linear
Uma das suposições mais importantes é que se diz que existe uma relação linear entre as variáveis dependentes e independentes. Se você tentar ajustar uma relação linear em um conjunto de dados não linear, o algoritmo proposto não capturará a tendência como um gráfico linear, resultando em um modelo ineficiente. Assim, isso resultaria em previsões imprecisas.
Como você pode determinar se a suposição é atendida?
A maneira simples de determinar se essa suposição é atendida ou não é criando um gráfico de dispersão x vs y. Se os pontos de dados caem em uma linha reta no gráfico, há uma relação linear entre as variáveis dependentes e independentes, e a suposição é válida.
O que você deve fazer se essa suposição for violada?
Se não existir uma relação linear entre as variáveis dependentes e independentes, aplique uma transformação não linear, como logarítmica, exponencial, raiz quadrada ou recíproca à variável dependente, à variável independente ou a ambas.
Sem autocorrelação ou independência
Os resíduos (termos de erro) são independentes uns dos outros. Em outras palavras, não há correlação entre os termos de erro consecutivos dos dados da série temporal. A presença de correlação nos termos de erro reduz drasticamente a precisão do modelo. Se os termos de erro estiverem correlacionados, o erro padrão estimado tenta deflacionar o erro padrão verdadeiro.
Como determinar se a suposição é atendida?
Realize um teste estatístico de Durbin-Watson (DW). Os valores devem estar entre 0-4. Se DW=2, não há autocorrelação; se DW estiver entre 0 e 2, significa que existe uma correlação positiva. Se DW estiver entre 2 e 4, significa que há uma correlação negativa. Outro método é traçar um gráfico em relação aos resíduos versus tempo e ver padrões nos valores residuais.
O que você deve fazer se essa suposição for violada?
Se a suposição for violada, considere as seguintes opções:
- Para correlação positiva, considere adicionar defasagens às variáveis dependentes, independentes ou ambas.
- Para correlação negativa, verifique se nenhuma das variáveis é superdiferenciada.
- Para correlação sazonal, considere adicionar algumas variáveis sazonais ao modelo.
Sem multicolinearidade
As variáveis independentes não devem ser correlacionadas. Se existe multicolinearidade entre as variáveis independentes, é um desafio prever o resultado do modelo. Em essência, é difícil explicar a relação entre as variáveis dependentes e independentes. Em outras palavras, não está claro quais variáveis independentes explicam a variável dependente.

Os erros padrão tendem a inflar com variáveis correlacionadas, ampliando os intervalos de confiança levando a estimativas imprecisas.
Como determinar se a suposição é atendida?
Use um gráfico de dispersão para visualizar a correlação entre as variáveis. Outra forma é determinar o VIF (Variance Inflation Factor). VIF<=4 não implica multicolinearidade, enquanto VIF>=10 implica multicolinearidade séria.
O que você deve fazer se essa suposição for violada?
Reduza a correlação entre as variáveis transformando ou combinando as variáveis correlacionadas.
Deve ler: tipos de modelos de regressão em ML
Homocedasticidade
Homocedasticidade significa que os resíduos têm variância constante em todos os níveis de x. A ausência desse fenômeno é conhecida como heterocedasticidade. A heterocedasticidade geralmente surge na presença de valores discrepantes e extremos.
Como determinar se a suposição é atendida?
Crie um gráfico de dispersão que mostre o valor residual versus o valor ajustado. Se os pontos de dados estiverem distribuídos igualmente sem um padrão proeminente, significa que os resíduos têm variância constante (homocedasticidade). Caso contrário, se um padrão em forma de funil for visto, significa que os resíduos não são distribuídos igualmente e retrata uma variância não constante (heterocedasticidade).
O que você deve fazer se essa suposição for violada?
- Transforme a variável dependente
- Redefinir a variável dependente
- Usar regressão ponderada
Distribuição normal de termos de erro
A última suposição que precisa ser verificada para regressão linear é a distribuição normal dos termos de erro. Se os termos de erro não seguirem uma distribuição normal, os intervalos de confiança podem se tornar muito amplos ou estreitos.
Como determinar se a suposição é atendida?
Verifique a suposição usando um gráfico QQ (Quantile-Quantile). Se os pontos de dados no gráfico formarem uma linha diagonal reta, a suposição será atendida.

Você também pode verificar a normalidade dos termos de erro usando testes estatísticos como o teste de Kolmogorov-Smironov ou Shapiro-Wilk.
O que você deve fazer se essa suposição for violada?
- Verifique se os outliers têm impacto na distribuição. Certifique-se de que sejam valores reais e não erros de entrada de dados.
- Aplique a transformação não linear na forma de logaritmo, raiz quadrada ou recíproca às variáveis dependentes, independentes ou ambas.
Conclusão
Aproveite o verdadeiro poder da regressão aplicando as técnicas discutidas acima para garantir que as suposições não sejam violadas. De fato, é possível compreender o impacto das variáveis independentes na variável dependente se todas as premissas da regressão linear forem atendidas.
O conceito de regressão linear é um elemento indispensável dos programas de ciência de dados e aprendizado de máquina.
Se você estiver interessado em aprender mais sobre modelos de regressão e mais sobre aprendizado de máquina, confira o Diploma PG do IIIT-B e do upGrad em aprendizado de máquina e IA, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, status de ex-alunos do IIIT-B, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.
Por que a homocedasticidade é necessária na regressão linear?
A homocedasticidade descreve quão semelhantes ou quão distantes os dados se desviam da média. Essa é uma suposição importante a ser feita porque os testes estatísticos paramétricos são sensíveis a diferenças. A heterocedasticidade não induz viés nas estimativas dos coeficientes, mas reduz sua precisão. Com menor precisão, é mais provável que as estimativas dos coeficientes estejam fora do valor correto da população. Para evitar isso, a homocedasticidade é uma suposição crucial a ser afirmada.
Quais são os dois tipos de multicolinearidade na regressão linear?
Dados e multicolinearidade estrutural são os dois tipos básicos de multicolinearidade. Quando fazemos um termo modelo de outros termos, obtemos multicolinearidade estrutural. Em outras palavras, ao invés de estar presente nos dados em si, é resultado do modelo que fornecemos. Embora a multicolinearidade de dados não seja um artefato do nosso modelo, ela está presente nos próprios dados. A multicolinearidade de dados é mais comum em investigações observacionais.
Quais são as desvantagens de usar o teste t para testes independentes?
Há problemas com a repetição de medições em vez de diferenças entre designs de grupo ao usar testes t de amostra pareada, o que leva a efeitos de transferência. Devido a erros do tipo I, o teste t não pode ser usado para comparações múltiplas. Será difícil rejeitar a hipótese nula ao fazer um teste t pareado em um conjunto de amostras. A obtenção dos sujeitos para os dados da amostra é um aspecto demorado e caro do processo de pesquisa.