Regularização em Machine Learning: Como evitar o overfitting?
Publicados: 2020-02-17O aprendizado de máquina envolve equipar computadores para executar tarefas específicas sem instruções explícitas. Assim, os sistemas são programados para aprender e melhorar a partir da experiência automaticamente. Os cientistas de dados normalmente usam a regularização no aprendizado de máquina para ajustar seus modelos no processo de treinamento. Vamos entender esse conceito em detalhes.
Índice
Regularização Dodges Overfitting
A regularização no aprendizado de máquina permite evitar o overfitting do seu modelo de treinamento. O overfitting acontece quando seu modelo captura os dados arbitrários em seu conjunto de dados de treinamento. Esses pontos de dados que não têm as propriedades de seus dados tornam seu modelo 'ruidoso'. Esse ruído pode tornar seu modelo mais flexível, mas pode representar desafios de baixa precisão.
Considere uma sala de aula de 10 alunos com um número igual de meninas e meninos. A nota geral da turma no exame anual é 70. A nota média dos alunos do sexo feminino é 60 e a dos alunos do sexo masculino é 80. Com base nessas notas anteriores, queremos prever as notas futuras dos alunos. As previsões podem ser feitas das seguintes maneiras:
- Under Fit: A turma inteira marcará 70 pontos
- Optimum Fit: Este poderia ser um modelo simplista que prevê a pontuação de meninas como 60 e meninos como 80 (o mesmo da última vez)
- Over Fit: Este modelo pode usar um atributo não relacionado, digamos, o número do rolo, para prever que os alunos obterão exatamente as mesmas notas do ano passado
A regularização é uma forma de regressão que ajusta a função de erro adicionando outro termo de penalidade. Este termo adicional evita que os coeficientes tomem valores extremos, equilibrando assim a função excessivamente flutuante.
Qualquer especialista em aprendizado de máquina se esforçaria para tornar seus modelos precisos e livres de erros. E a chave para atingir esse objetivo está em dominar o trade-off entre viés e variância. Continue lendo para ter uma ideia clara do que isso significa.
Equilibrando viés e variância
O erro de teste esperado pode ser minimizado encontrando um método que atinja o equilíbrio correto de 'variância de viés'. Em outras palavras, o método de aprendizado estatístico escolhido deve otimizar o modelo, realizando simultaneamente baixa variância e baixo viés. Um modelo com alta variância é superajustado e alto viés resulta em um modelo subajustado.

A validação cruzada oferece outro meio de evitar o overfitting. Ele verifica se seu modelo está pegando os padrões corretos do conjunto de dados e estima o erro em seu conjunto de teste. Então, esse método basicamente valida a estabilidade do seu modelo. Além disso, ele decide os parâmetros que funcionam melhor para o seu modelo específico.
Aumentando a Interpretabilidade do Modelo
O objetivo não é apenas obter um erro zero para o conjunto de treinamento, mas também prever os valores-alvo corretos do conjunto de dados de teste. Portanto, exigimos uma função 'ajustada' que reduza a complexidade desse processo.
Explicando a Regularização em Aprendizado de Máquina
A regularização é uma forma de regressão restrita que funciona reduzindo as estimativas dos coeficientes para zero. Desta forma, limita a capacidade dos modelos de aprender com o ruído.
Vejamos esta equação de regressão linear:
Y= β0+β1X1+β2X2+…..+βpXp
Aqui, β denota as estimativas de coeficiente para diferentes preditores representados por (X). E Y é a relação aprendida.
Como essa função em si pode encontrar erros, adicionaremos uma função de erro para regularizar as estimativas aprendidas. Queremos minimizar o erro neste caso para que possamos chamá-lo de função de perda também. Veja como esta função de perda ou Soma Residual de Quadrados (RSS) se parece:
Portanto, os cientistas de dados usam a regularização para ajustar a função de previsão. As técnicas de regularização também são conhecidas como métodos de encolhimento ou decaimento de peso. Vamos entender alguns deles em detalhes.
Regularização de Cume
Em Ridge Regression, a função de perda é modificada com uma quantidade de encolhimento correspondente à soma dos valores quadrados de β. E o valor de λ decide o quanto o modelo seria penalizado.
As estimativas de coeficiente em Ridge Regression são chamadas de norma L2. Essa técnica de regularização viria em seu socorro quando as variáveis independentes em seus dados fossem altamente correlacionadas.

Regularização de laço
Na técnica Lasso, uma penalidade igual à soma dos valores absolutos de β (módulo de β) é adicionada à função de erro. É ainda multiplicado pelo parâmetro λ que controla a força da penalidade. Apenas os coeficientes elevados são penalizados neste método.
As estimativas de coeficiente produzidas por Lasso são referidas como norma L1. Este método é particularmente benéfico quando há um pequeno número de observações com um grande número de características.
Para simplificar as abordagens acima, considere uma constante, s, que existe para cada valor de λ. Agora, na regularização L2, resolvemos uma equação onde a soma dos quadrados dos coeficientes é menor ou igual a s. Já na regularização L1, a soma dos módulos dos coeficientes deve ser menor ou igual a s.
Leia: Aprendizado de máquina versus redes neurais
Ambos os métodos citados acima buscam garantir que o modelo de regressão não consuma atributos desnecessários. Por esta razão, Ridge Regression e Lasso também são conhecidas como funções de restrição.
RSS e preditores de funções de restrição
Com a ajuda das explicações anteriores, as funções de perda (RSS) para Ridge Regression e Lasso podem ser dadas por β1² + β2² ≤ se |β1| + |β2| ≤ s, respectivamente. β1² + β2² ≤ s formaria um círculo, e RSS seria o menor para todos os pontos que estão dentro dele. Quanto à função Lasso, o RSS seria o menor para todos os pontos situados dentro do losango dado por |β1| + |β2| ≤ S.
Ridge Regression reduz as estimativas de coeficiente para as variáveis preditoras menos essenciais, mas não as elimina. Assim, o modelo final pode conter todos os preditores devido a estimativas diferentes de zero. Por outro lado, Lasso pode forçar alguns coeficientes a serem exatamente zero, especialmente quando λ é grande.

Leia: Bibliotecas Python para Aprendizado de Máquina
Como a Regularização Alcança um Equilíbrio
Há alguma variação associada a um modelo padrão de mínimos quadrados. As técnicas de regularização reduzem a variância do modelo sem aumentar significativamente seu viés quadrado. E o valor do parâmetro de ajuste, λ, orquestra esse equilíbrio sem eliminar as propriedades críticas dos dados. A penalidade não tem efeito quando o valor de λ é zero, que é o caso de uma regressão ordinária de mínimos quadrados.
A variância só diminui à medida que o valor de λ aumenta. Mas isso acontece apenas até certo ponto, após o qual o viés pode começar a aumentar. Portanto, selecionar o valor desse fator de retração é uma das etapas mais críticas na regularização.
Conclusão
Neste artigo, aprendemos sobre regularização em aprendizado de máquina e suas vantagens e exploramos métodos como regressão de cume e laço. Por fim, entendemos como as técnicas de regularização ajudam a melhorar a precisão dos modelos de regressão. Se você está apenas começando na regularização, esses recursos esclarecerão seus fundamentos e o incentivarão a dar o primeiro passo!
Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.
Quais são suas opções de trabalho depois de aprender Machine Learning?
O aprendizado de máquina é uma das carreiras mais recentes e promissoras no campo da tecnologia. À medida que o aprendizado de máquina continua avançando e se expandindo, ele abre novas oportunidades de trabalho para indivíduos que desejam seguir carreira nesse campo da tecnologia. Estudantes e profissionais que desejam trabalhar como engenheiros de aprendizado de máquina podem esperar experiências de aprendizado gratificantes e emocionantes e, é claro, esperar conseguir empregos nas principais organizações que pagam bem. Desde cientistas de dados e engenheiros de aprendizado de máquina até linguistas computacionais e designers de aprendizado de máquina centrados no ser humano e muito mais, existem muitas funções interessantes que você pode assumir, dependendo de suas habilidades e experiência.
Quanto salário um engenheiro de aprendizado de máquina ganha por ano?
Na Índia, o salário médio ganho por um engenheiro de aprendizado de máquina de nível júnior pode variar de cerca de INR 6 a 8,2 lakhs por ano. Mas para profissionais com experiência de trabalho de nível médio, a remuneração pode variar em torno de INR 13 a 15 lakhs em média ou até mais. Agora, a renda média anual dos engenheiros de aprendizado de máquina dependerá de vários fatores, como experiência de trabalho relevante, conjunto de habilidades, experiência geral de trabalho, certificações e até localização, entre outros. Profissionais seniores de aprendizado de máquina podem ganhar cerca de INR 1 crore por ano.
Qual é o conjunto de habilidades necessário para aprendizado de máquina?
Uma compreensão básica e algum nível de conforto em assuntos específicos são benéficos se você deseja construir uma carreira de sucesso em aprendizado de máquina. Em primeiro lugar, você precisa ter uma compreensão de probabilidade e estatística. Criar modelos de aprendizado de máquina e prever resultados requer conhecimento de estatística e probabilidade. Em seguida, você deve ter familiaridade com linguagens de programação como Python e R, que são amplamente usadas em aprendizado de máquina. Algum conhecimento de modelagem de dados para análise de dados e fortes habilidades de design de software também são necessários para aprender o aprendizado de máquina.