Homocedasticidade no aprendizado de máquina: detecção, efeitos e como tratar

Publicados: 2021-01-06

Ao final deste tutorial, você terá conhecimento do seguinte:

  • O que é Homocedasticidade e Heterocedasticidade?
  • Como saber se a heterocedasticidade está presente.
  • Efeitos da Heterocedasticidade no Aprendizado de Máquina.
  • Tratamento da heterocedasticidade.

Índice

O que é Homocedasticidade e Heterocedasticidade?

Homocedasticidade significa ser da “mesma variação”. Na Regressão Linear, um dos principais pressupostos é que existe uma Homocedasticidade presente nos erros ou nos termos residuais (Y_Pred – Y_actual).

Em outras palavras, a Regressão Linear assume que para todas as instâncias, os termos de erro serão os mesmos e de muito pouca variação.

Vamos entendê-lo com a ajuda de um exemplo. Considere que temos duas variáveis ​​– área do tapete da casa e preço da casa. À medida que a área do tapete aumenta, os preços também aumentam.

Então ajustamos um modelo de regressão linear e vemos que os erros têm a mesma variância em todos os aspectos. O gráfico na imagem abaixo tem a área do tapete no eixo X e o preço no eixo Y.

Como você pode ver, as previsões estão quase ao longo da linha de regressão linear e com variância semelhante por toda parte.

Além disso, se plotarmos esses resíduos no eixo X, veremos isso em uma linha reta paralela ao eixo X. Este é um sinal claro de homocedasticidade

Fonte da imagem

Quando esta condição é violada, significa que há Heterocedasticidade no modelo. Considerando o mesmo exemplo acima, digamos que para casas com área de carpete menor os erros ou resíduos ou muito pequenos. E à medida que a área do tapete aumenta, a variação nas previsões aumenta, o que resulta no aumento do valor do erro ou dos termos residuais. Quando plotamos os valores novamente, vemos a curva Cone típica que indica fortemente a presença de Heteroscedsticidade no modelo.

Fonte da imagemEspecificamente falando, a heterocedasticidade é um aumento ou diminuição sistemática na variância dos resíduos ao longo do intervalo de variáveis ​​independentes. Isso é um problema porque a homocedasticidade é uma suposição de regressão linear e todos os erros devem ter a mesma variância. Saiba mais sobre regressão linear

Participe do Curso de Aprendizado de Máquina on-line das principais universidades do mundo - Mestrados, Programas de Pós-Graduação Executiva e Programa de Certificado Avançado em ML e IA para acelerar sua carreira.

Como saber se a heterocedasticidade está presente?

Em termos mais simples, a maneira mais fácil de saber se a heterocedasticidade está presente é traçar o gráfico dos resíduos. Se você vir algum padrão presente, então há Heterocedasticidade. Normalmente, os valores aumentam à medida que o valor ajustado aumenta, fazendo assim uma curva em forma de cone.

Leia: Ideias de projetos de aprendizado de máquina

Razões usuais para a heterocedasticidade

  • Quando há uma grande variação em uma variável. Em outras palavras, quando os valores menor e maior de uma variável são muito extremos. Estes também podem ser outliers.
  • Quando você está ajustando o modelo errado. Se você ajustar um modelo de regressão linear a um dado não linear, isso levará à heterocedasticidade.
  • Quando a escala de valores em uma variável não é a mesma.
  • Quando uma transformação errada nos dados é usada para regressão.
  • Quando há assimetria esquerda/direita presente nos dados.

Heterocedasticidade pura vs impura

Agora com as razões acima, a Heterocedasticidade pode ser Pura ou Impura. Quando ajustamos o modelo correto (linear ou não linear) e se ainda existe um padrão visível nos resíduos então é chamado de Heterocedasticidade Pura.

No entanto, se ajustarmos o modelo errado e observarmos um padrão nos resíduos, então é um caso de Heterocedasticidade Impura. Dependendo do tipo de heterocedasticidade as medidas precisam ser tomadas para superá-la. Também depende do domínio em que você está trabalhando e varia de domínio para domínio.

Efeitos da heterocedasticidade no aprendizado de máquina

Como discutimos anteriormente, o modelo de regressão linear faz uma suposição sobre a presença de homocedasticidade nos dados. Se essa suposição for quebrada, não poderemos confiar nos resultados que obtemos.

Se a heterocedasticidade estiver presente, as instâncias com alta variância terão um impacto maior na previsão que não queremos.

  • A presença de heterocedasticidade torna os coeficientes menos precisos e, portanto, os coeficientes corretos estão mais distantes do valor da população.
  • A heterocedasticidade também pode produzir valores de p menores do que os valores reais. Isso se deve ao fato de que a variância das estimativas dos coeficientes aumentou, mas o modelo padrão OLS (Ordinary Least Squares) não a detectou. Portanto, o modelo OLS calcula os valores de p usando uma variância subestimada. Isso pode nos levar a concluir incorretamente que os coeficientes de regressão são significativos quando na verdade não são significativos.
  • Os erros padrão produzidos também serão tendenciosos. Os erros padrão são cruciais no cálculo de testes significativos e intervalos de confiança. Se os erros padrão forem tendenciosos, isso significará que os testes estão incorretos e as estimativas do coeficiente de regressão estarão incorretas.

Como tratar a heterocedasticidade?

Se você detectar a presença de heterocedasticidade, existem várias maneiras de lidar com isso. Primeiramente, vamos considerar um exemplo onde temos 2 variáveis: População da Cidade e Número de Infecções do COVID-19.

Agora, neste exemplo, haverá uma enorme diferença no número de infecções em grandes cidades metropolitanas versus pequenas cidades de nível 3. A variável Número de Infecções será independente e População da Cidade será uma variável dependente.

Considere que ajuste um modelo de regressão a esses dados e observe Heterocedasticidade semelhante à imagem acima. Então agora sabemos que há Heterocedasticidade presente no modelo e ela precisa ser corrigida.

Agora o primeiro passo seria identificar a fonte da Heterocedasticidade. No nosso caso, é a variável com uma grande variância.

Pode haver várias maneiras de lidar com a heterocedasticidade, mas veremos três desses métodos.

Manipulando as Variáveis

Podemos fazer algumas modificações nas variáveis/características que temos para reduzir o impacto dessa grande variação nas previsões do modelo. Uma maneira de fazer isso modificando os recursos para taxas e porcentagens em vez de valores reais.

Isso faria com que os recursos transmitissem informações um pouco diferentes, mas vale a pena tentar. Também dependerá do problema e dos dados se esse tipo de abordagem pode ser implementado ou não.

Este método envolve a menor modificação com recursos e muitas vezes ajuda a resolver o problema e até mesmo melhorar o desempenho do modelo em alguns casos.

Portanto, no nosso caso, podemos alterar o recurso “Número de infecções” para “Taxa de infecções”. Isso ajudará a reduzir a variação, pois obviamente o número de infecções em cidades com grande população será grande.

Regressão Ponderada

A regressão ponderada é uma modificação da regressão normal em que os pontos de dados recebem determinados pesos de acordo com sua variância. Aqueles com grande variância recebem pesos pequenos e aqueles com menor variância recebem pesos maiores.

Então, quando esses pesos são elevados ao quadrado, o quadrado dos pesos pequenos subestima o efeito da alta variância.

Quando os pesos corretos são usados, a Heterocedasticidade é substituída pela Homocedasticidade. Mas como encontrar pesos corretos? Uma maneira rápida é usar o inverso dessa variável como o peso.

Então, no nosso caso, o peso será o Inverso da População da Cidade.

Transformações

Transformar os dados é o último recurso, pois ao fazer isso você perde a interpretabilidade do recurso.

O que isso significa é que você não pode mais explicar facilmente o que o recurso está mostrando.

Uma maneira pode ser usar transformações Box-Cox e transformações de log.

Antes de você ir

Pode haver muitas razões para a heterocedasticidade em seus dados. Também varia muito de um domínio para outro.

Portanto, é essencial ter o conhecimento disso também antes de iniciar os processos acima para remover a heterocedasticidade.

Neste blog, discutimos Homocedasticidade e Heteroscedasticidade e como ela pode ser usada para implementar vários algoritmos de aprendizado de máquina.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o Programa PG Executivo do IIIT-B e do upGrad em Machine Learning e IA , projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT -B Alumni status, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

O que significa regressão ponderada localmente no aprendizado de máquina?

Qual é o teste branco para heterocedasticidade?

Se você precisar que sua variável independente tenha um efeito interativo e não linear na variância, o uso de um teste branco é preferível para verificar a heterocedasticidade. No entanto, o teste branco, sendo um teste assintótico, é preferido apenas no caso de amostras grandes. O processo de heterocedasticidade pode ser uma função de uma ou mais de suas variáveis ​​independentes usando o teste de White. É comparável ao teste de Breusch-Pagan, a única diferença é que o teste de White permite uma influência não linear e interativa da variável independente na variância do erro.

Qual é exatamente a hipótese nula para a heterocedasticidade?

A existência de um outlier nos dados causa heterocedasticidade. A heterocedasticidade também pode ser produzida quando as variáveis ​​são omitidas do modelo. A heterocedasticidade implica apenas duas hipóteses: a hipótese nula e a hipótese alternativa. Ao aplicar os testes de White, Breusch-Pagan ou Cook-Weisberg para verificar a heterocedasticidade, a hipótese nula é verdadeira se as variâncias dos erros forem iguais. Uma hipótese alternativa ocorre quando as variâncias dos erros não são idênticas.