Homocedasticidade no aprendizado de máquina: detecção, efeitos e como tratar

Publicados: 2021-01-06

Ao final deste tutorial, você terá conhecimento do seguinte:

O que é Homocedasticidade e Heterocedasticidade?
Como saber se a heterocedasticidade está presente.
Efeitos da Heterocedasticidade no Aprendizado de Máquina.
Tratamento da heterocedasticidade.

Índice

O que é Homocedasticidade e Heterocedasticidade?
Como saber se a heterocedasticidade está presente?
- Razões usuais para a heterocedasticidade
- Heterocedasticidade pura vs impura
Efeitos da heterocedasticidade no aprendizado de máquina
Como tratar a heterocedasticidade?
- Manipulando as Variáveis
- Regressão Ponderada
- Transformações
Antes de você ir
O que significa regressão ponderada localmente no aprendizado de máquina?
Qual é o teste branco para heterocedasticidade?
Qual é exatamente a hipótese nula para a heterocedasticidade?

O que é Homocedasticidade e Heterocedasticidade?

Homocedasticidade significa ser da “mesma variação”. Na Regressão Linear, um dos principais pressupostos é que existe uma Homocedasticidade presente nos erros ou nos termos residuais (Y_Pred – Y_actual).

Em outras palavras, a Regressão Linear assume que para todas as instâncias, os termos de erro serão os mesmos e de muito pouca variação.

Vamos entendê-lo com a ajuda de um exemplo. Considere que temos duas variáveis – área do tapete da casa e preço da casa. À medida que a área do tapete aumenta, os preços também aumentam.

Então ajustamos um modelo de regressão linear e vemos que os erros têm a mesma variância em todos os aspectos. O gráfico na imagem abaixo tem a área do tapete no eixo X e o preço no eixo Y.

Como você pode ver, as previsões estão quase ao longo da linha de regressão linear e com variância semelhante por toda parte.

Além disso, se plotarmos esses resíduos no eixo X, veremos isso em uma linha reta paralela ao eixo X. Este é um sinal claro de homocedasticidade

Fonte da imagem

Quando esta condição é violada, significa que há Heterocedasticidade no modelo. Considerando o mesmo exemplo acima, digamos que para casas com área de carpete menor os erros ou resíduos ou muito pequenos. E à medida que a área do tapete aumenta, a variação nas previsões aumenta, o que resulta no aumento do valor do erro ou dos termos residuais. Quando plotamos os valores novamente, vemos a curva Cone típica que indica fortemente a presença de Heteroscedsticidade no modelo.

Fonte da imagemEspecificamente falando, a heterocedasticidade é um aumento ou diminuição sistemática na variância dos resíduos ao longo do intervalo de variáveis independentes. Isso é um problema porque a homocedasticidade é uma suposição de regressão linear e todos os erros devem ter a mesma variância. Saiba mais sobre regressão linear

Participe do Curso de Aprendizado de Máquina on-line das principais universidades do mundo - Mestrados, Programas de Pós-Graduação Executiva e Programa de Certificado Avançado em ML e IA para acelerar sua carreira.

Como saber se a heterocedasticidade está presente?

Em termos mais simples, a maneira mais fácil de saber se a heterocedasticidade está presente é traçar o gráfico dos resíduos. Se você vir algum padrão presente, então há Heterocedasticidade. Normalmente, os valores aumentam à medida que o valor ajustado aumenta, fazendo assim uma curva em forma de cone.

Leia: Ideias de projetos de aprendizado de máquina

Razões usuais para a heterocedasticidade

Quando há uma grande variação em uma variável. Em outras palavras, quando os valores menor e maior de uma variável são muito extremos. Estes também podem ser outliers.
Quando você está ajustando o modelo errado. Se você ajustar um modelo de regressão linear a um dado não linear, isso levará à heterocedasticidade.
Quando a escala de valores em uma variável não é a mesma.
Quando uma transformação errada nos dados é usada para regressão.
Quando há assimetria esquerda/direita presente nos dados.

Heterocedasticidade pura vs impura

Agora com as razões acima, a Heterocedasticidade pode ser Pura ou Impura. Quando ajustamos o modelo correto (linear ou não linear) e se ainda existe um padrão visível nos resíduos então é chamado de Heterocedasticidade Pura.

No entanto, se ajustarmos o modelo errado e observarmos um padrão nos resíduos, então é um caso de Heterocedasticidade Impura. Dependendo do tipo de heterocedasticidade as medidas precisam ser tomadas para superá-la. Também depende do domínio em que você está trabalhando e varia de domínio para domínio.

Efeitos da heterocedasticidade no aprendizado de máquina

Como discutimos anteriormente, o modelo de regressão linear faz uma suposição sobre a presença de homocedasticidade nos dados. Se essa suposição for quebrada, não poderemos confiar nos resultados que obtemos.

Se a heterocedasticidade estiver presente, as instâncias com alta variância terão um impacto maior na previsão que não queremos.

A presença de heterocedasticidade torna os coeficientes menos precisos e, portanto, os coeficientes corretos estão mais distantes do valor da população.
A heterocedasticidade também pode produzir valores de p menores do que os valores reais. Isso se deve ao fato de que a variância das estimativas dos coeficientes aumentou, mas o modelo padrão OLS (Ordinary Least Squares) não a detectou. Portanto, o modelo OLS calcula os valores de p usando uma variância subestimada. Isso pode nos levar a concluir incorretamente que os coeficientes de regressão são significativos quando na verdade não são significativos.
Os erros padrão produzidos também serão tendenciosos. Os erros padrão são cruciais no cálculo de testes significativos e intervalos de confiança. Se os erros padrão forem tendenciosos, isso significará que os testes estão incorretos e as estimativas do coeficiente de regressão estarão incorretas.

Como tratar a heterocedasticidade?

Se você detectar a presença de heterocedasticidade, existem várias maneiras de lidar com isso. Primeiramente, vamos considerar um exemplo onde temos 2 variáveis: População da Cidade e Número de Infecções do COVID-19.

Agora, neste exemplo, haverá uma enorme diferença no número de infecções em grandes cidades metropolitanas versus pequenas cidades de nível 3. A variável Número de Infecções será independente e População da Cidade será uma variável dependente.

Considere que ajuste um modelo de regressão a esses dados e observe Heterocedasticidade semelhante à imagem acima. Então agora sabemos que há Heterocedasticidade presente no modelo e ela precisa ser corrigida.

Agora o primeiro passo seria identificar a fonte da Heterocedasticidade. No nosso caso, é a variável com uma grande variância.

Pode haver várias maneiras de lidar com a heterocedasticidade, mas veremos três desses métodos.

Manipulando as Variáveis

Podemos fazer algumas modificações nas variáveis/características que temos para reduzir o impacto dessa grande variação nas previsões do modelo. Uma maneira de fazer isso modificando os recursos para taxas e porcentagens em vez de valores reais.

Isso faria com que os recursos transmitissem informações um pouco diferentes, mas vale a pena tentar. Também dependerá do problema e dos dados se esse tipo de abordagem pode ser implementado ou não.

Este método envolve a menor modificação com recursos e muitas vezes ajuda a resolver o problema e até mesmo melhorar o desempenho do modelo em alguns casos.

Portanto, no nosso caso, podemos alterar o recurso “Número de infecções” para “Taxa de infecções”. Isso ajudará a reduzir a variação, pois obviamente o número de infecções em cidades com grande população será grande.

Regressão Ponderada

A regressão ponderada é uma modificação da regressão normal em que os pontos de dados recebem determinados pesos de acordo com sua variância. Aqueles com grande variância recebem pesos pequenos e aqueles com menor variância recebem pesos maiores.

Então, quando esses pesos são elevados ao quadrado, o quadrado dos pesos pequenos subestima o efeito da alta variância.

Quando os pesos corretos são usados, a Heterocedasticidade é substituída pela Homocedasticidade. Mas como encontrar pesos corretos? Uma maneira rápida é usar o inverso dessa variável como o peso.

Então, no nosso caso, o peso será o Inverso da População da Cidade.

Transformações

Transformar os dados é o último recurso, pois ao fazer isso você perde a interpretabilidade do recurso.

O que isso significa é que você não pode mais explicar facilmente o que o recurso está mostrando.

Uma maneira pode ser usar transformações Box-Cox e transformações de log.

Antes de você ir

Pode haver muitas razões para a heterocedasticidade em seus dados. Também varia muito de um domínio para outro.

Portanto, é essencial ter o conhecimento disso também antes de iniciar os processos acima para remover a heterocedasticidade.

Neste blog, discutimos Homocedasticidade e Heteroscedasticidade e como ela pode ser usada para implementar vários algoritmos de aprendizado de máquina.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o Programa PG Executivo do IIIT-B e do upGrad em Machine Learning e IA , projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT -B Alumni status, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

O que significa regressão ponderada localmente no aprendizado de máquina?

Qual é o teste branco para heterocedasticidade?

Se você precisar que sua variável independente tenha um efeito interativo e não linear na variância, o uso de um teste branco é preferível para verificar a heterocedasticidade. No entanto, o teste branco, sendo um teste assintótico, é preferido apenas no caso de amostras grandes. O processo de heterocedasticidade pode ser uma função de uma ou mais de suas variáveis independentes usando o teste de White. É comparável ao teste de Breusch-Pagan, a única diferença é que o teste de White permite uma influência não linear e interativa da variável independente na variância do erro.

Qual é exatamente a hipótese nula para a heterocedasticidade?

A existência de um outlier nos dados causa heterocedasticidade. A heterocedasticidade também pode ser produzida quando as variáveis são omitidas do modelo. A heterocedasticidade implica apenas duas hipóteses: a hipótese nula e a hipótese alternativa. Ao aplicar os testes de White, Breusch-Pagan ou Cook-Weisberg para verificar a heterocedasticidade, a hipótese nula é verdadeira se as variâncias dos erros forem iguais. Uma hipótese alternativa ocorre quando as variâncias dos erros não são idênticas.