Regressão na Mineração de Dados: Diferentes Tipos de Técnicas de Regressão [2022]

Publicados: 2021-01-01

O aprendizado supervisionado é um aprendizado no qual você treina o algoritmo de aprendizado de máquina usando dados já rotulados. Isso significa que a resposta correta já é conhecida para todos os dados de treinamento. Após o treinamento, ele recebe um novo conjunto de dados desconhecidos que o algoritmo de aprendizado supervisionado analisa e, em seguida, produz um resultado correto com base nos dados de treinamento rotulados.

O aprendizado não supervisionado é onde o algoritmo é treinado usando informações, para as quais o rótulo correto não é conhecido. Aqui a máquina basicamente tem que agrupar informações de acordo com os vários padrões, ou quaisquer correlações sem treinamento prévio em nenhum dado.

A regressão é uma forma de técnica de aprendizado de máquina supervisionada que tenta prever qualquer atributo de valor contínuo. Ele analisa a relação entre uma variável alvo (dependente) e sua variável preditora (independente). A regressão é uma ferramenta importante para análise de dados que pode ser usada para modelagem de séries temporais, previsão e outros.

A regressão envolve o processo de ajustar uma curva ou uma linha reta em vários pontos de dados. Isso é feito de forma que as distâncias entre a curva e os pontos de dados sejam mínimas.

Embora as regressões lineares e logísticas sejam os tipos mais populares, existem muitos outros tipos de regressão que podem ser aplicados dependendo de seu desempenho em um determinado conjunto de dados. Esses diferentes tipos variam devido ao número e tipo de todas as variáveis dependentes e também ao tipo de curva de regressão formada.

Confira: Diferença entre Data Science e Data Mining

Índice

Regressão linear

A Regressão Linear forma uma relação entre a variável alvo (dependente) e uma ou mais variáveis independentes usando uma linha reta de melhor ajuste.

Ela é representada pela equação:

Y = a + b*X + e ,

onde a é o intercepto, b é a inclinação da linha de regressão e e é o erro. X e Y são as variáveis preditoras e alvo, respectivamente. Quando X é composto por mais de uma variável (ou características) é denominado como regressão linear múltipla.

A linha de melhor ajuste é obtida usando o método dos mínimos quadrados. Este método minimiza a soma dos quadrados dos desvios de cada um dos pontos de dados para a linha de regressão. As distâncias negativas e positivas não são canceladas aqui, pois todos os desvios são elevados ao quadrado.

Regressão Polinomial

Na regressão polinomial, o poder da variável independente é maior que 1 na equação de regressão. Abaixo segue um exemplo:

Y = a + b*X^2

Nesta regressão em particular, a linha de melhor ajuste não é uma linha reta como na Regressão Linear. No entanto, é uma curva que é ajustada a todos os pontos de dados.

A implementação da regressão polinomial pode resultar em ajuste excessivo quando você é tentado a reduzir seus erros tornando a curva mais complexa. Portanto, sempre tente ajustar a curva generalizando-a para o problema.

Regressão Logística

A regressão logística é utilizada quando a variável dependente é de natureza binária (Verdadeiro ou Falso, 0 ou 1, sucesso ou fracasso). Aqui o valor alvo (Y) varia de 0 a 1 e é popularmente usado para problemas do tipo classificação. A Regressão Logística não exige que as variáveis dependentes e independentes tenham uma relação linear, como é o caso da Regressão Linear.

Leia : Ideias de Projetos de Mineração de Dados

Regressão do cume

Ridge Regression é uma técnica usada para analisar dados de regressão múltipla que apresentam o problema de multicolinearidade. A multicolinearidade é a existência de uma correlação quase linear entre quaisquer duas variáveis independentes.

Ocorre quando as estimativas de mínimos quadrados têm um viés baixo, mas têm alta variância, portanto são muito diferentes do valor verdadeiro. Assim, adicionando um grau de viés ao valor de regressão estimado, os erros padrão são bastante reduzidos pela implementação da regressão de crista.

Regressão do laço

A S S O O termo “ Shrinkage S É um tipo de regressão linear que usa encolhimento . Neste, todos os pontos de dados são reduzidos (ou reduzidos) em direção a um ponto central, também chamado de média. O procedimento de laço é mais adequado para modelos simples e esparsos que possuem comparativamente menos parâmetros. Esse tipo de regressão também é adequado para modelos que sofrem de multicolinearidade (como uma crista).

Obtenha a certificação em ciência de dados das melhores universidades do mundo. Junte-se aos nossos Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Conclusão

A análise de regressão basicamente permite comparar os efeitos de diferentes tipos de variáveis de recursos medidos em uma ampla variedade de escalas. Como a previsão de preços de casas com base na área total, localidade, idade, móveis, etc. Esses resultados beneficiam amplamente os pesquisadores de mercado ou analistas de dados para eliminar quaisquer recursos inúteis e avaliar o melhor conjunto de recursos para construir modelos preditivos precisos.

Se você está curioso para aprender sobre ciência de dados, confira o PG Diploma in Data Science do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1- on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

O que é regressão linear?

A regressão linear estabelece a relação entre a variável alvo ou variável dependente e uma ou mais de uma variável independente. Quando temos mais de um preditor em nossa equação, ela se torna regressão múltipla.

O método dos mínimos quadrados é considerado o melhor método para obter a linha de melhor ajuste, pois esse método minimiza a soma dos quadrados dos desvios de cada um dos pontos de dados para a linha de regressão.

O que são técnicas de regressão e por que elas são necessárias?

Estas são as técnicas para estimar ou prever relações entre variáveis. A relação é encontrada entre duas variáveis, uma é o alvo e a outra é a variável preditora (também conhecida como variáveis x e y).

Diferentes técnicas como linear, logística, stepwise, polinomial, lasso e ridge podem ser usadas para identificar essa relação. Isso é feito para gerar previsões usando coletas de dados e plotando gráficos entre elas.

Como a técnica de regressão linear difere da técnica de regressão logística?

A diferença entre essas duas técnicas de regressão está no tipo da variável dependente. Se a variável dependente for contínua, a regressão linear é usada, enquanto se a variável dependente for categórica, a regressão logística é usada.

Como o nome também sugere, uma linha linear ou reta é identificada na técnica linear. Já na técnica logística, uma curva S é identificada, pois a variável independente é um polinômio. Os resultados no caso de linear são contínuos enquanto, no caso da técnica logística, os resultados podem estar em categorias como Verdadeiro ou Falso, 0 ou 1, etc.