Regressão linear em aprendizado de máquina: tudo o que você precisa saber

Publicados: 2020-04-28

Diferentes tecnologias de aprendizado de máquina são usadas em várias caminhadas de nossas vidas diárias para encontrar soluções para problemas cotidianos de uma maneira apoiada por dados, análises e experiência. Esses algoritmos de aprendizado de máquina desempenham um papel muito importante não apenas na identificação de texto, imagens e vídeos, mas são fundamentais para melhorar as soluções médicas, segurança cibernética, marketing, atendimento ao cliente e muitos outros aspectos ou áreas que dizem respeito às nossas vidas comuns.

Existem basicamente dois tipos de algoritmos de aprendizado de máquina em que todos os algoritmos são divididos. Esses são algoritmos de aprendizado de máquina supervisionados e não supervisionados. Nosso foco neste blog será apenas em algoritmos de aprendizado de máquina supervisionados e, especialmente, em regressão linear. Vamos começar entendendo os algoritmos de aprendizado de máquina supervisionado.

Índice

O que são algoritmos de aprendizado supervisionado?

Esses algoritmos de aprendizado de máquina são aqueles que treinamos para prever uma saída bem estabelecida que depende dos dados inseridos pelo usuário. O algoritmo treina o modelo para entregar saídas em um determinado conjunto de dados. No início, o sistema tem acesso aos dados de entrada e saída. O trabalho do sistema é definir regras que vão mapear a entrada para a saída.

O treinamento do modelo continua até que o desempenho esteja em seu nível ideal. Após o treinamento, o sistema é capaz de atribuir objetos de saída que não encontrou durante o treinamento. No cenário ideal, esse processo é bastante preciso e não leva muito tempo. Existem dois tipos de algoritmos de aprendizado supervisionado , a saber, classificação e regressão.

Vamos discutir ambos brevemente, antes de pular direto para o nosso tópico principal de discussão.

1. Classificação

Esses são algoritmos de aprendizado de máquina supervisionados que têm um objetivo simples de reproduzir atribuições de classe. A técnica de aprendizado é frequentemente considerada para situações em que a separação de dados é necessária. Ele separa os dados em classes prevendo as respostas. Por exemplo, a previsão do tempo para um determinado dia, identificando um tipo específico de foto de um álbum e separando spam de e-mail.

2. Regressão

A técnica de aprendizagem é utilizada para servir ao objetivo de reproduzir valores de saída. Em outras palavras, é usado em situações em que precisamos ajustar os dados a um valor específico. Por exemplo, muitas vezes é usado para estimar o preço de diferentes itens. A regressão pode ser usada para prever mais coisas do que você pode imaginar.

Tipos de regressões

As regressões logísticas e lineares são os dois tipos mais importantes de regressão que existem no mundo moderno de aprendizado de máquina e ciência de dados. No entanto, existem outros também, mas eles são usados ​​com bastante moderação. Não há como negar o fato de que podemos realizar inúmeras regressões em um determinado conjunto de dados ou usar para diferentes situações.

Cada forma de regressão tem seus prós e contras e é adequada para condições específicas. Embora nos concentremos apenas na agressão linear, você precisa conhecer o histórico completo para se familiarizar com seu funcionamento.

É por isso que estamos levando a discussão passo a passo.

O que é análise de regressão?

A análise de regressão nada mais é do que uma metodologia de modelagem preditiva que visa investigar a relação que existe entre variáveis ​​independentes ou preditores e variáveis ​​dependentes ou alvos. Essa análise é usada em uma série de coisas diferentes, incluindo modelagem de séries temporais, previsão e outras.

Por exemplo, se você quiser estudar a relação entre acidentes rodoviários e condução casual, não há técnica melhor do que a análise de regressão para este trabalho. Ele desempenha um papel muito importante na análise e modelagem de dados. Isso é feito ajustando uma linha ou curva a diferentes pontos de dados de forma que possamos minimizar a diferença nas distâncias dos pontos de dados da linha ou da curva.

Qual é a necessidade de análise de regressão?

A análise de regressão é usada para prever a relação entre as variáveis, apenas se forem duas ou mais em número. Vamos entender como isso funciona com um exemplo simples. Suponha que você receba uma tarefa que exija que você faça uma estimativa do crescimento de vendas de uma empresa para um determinado período, levando em consideração as condições econômicas existentes.

Agora os dados da empresa dizem que as vendas cresceram cerca de duas vezes o crescimento da economia. Podemos usar esses dados para estimar o crescimento das vendas da empresa no futuro, obtendo insights de informações passadas e atuais.

O uso da análise de regressão pode oferecer vários benefícios ao trabalhar com dados ou fazer uma previsão no conjunto de dados. Ele pode ser usado para apontar para as relações significativas entre variáveis ​​independentes e dependentes. É usado para indicar o impacto das experiências de variáveis ​​dependentes de múltiplas variáveis ​​independentes.

Permite a comparação dos efeitos de diferentes variáveis ​​que pertencem a diferentes escalas de medição. Essas coisas ajudam bastante os cientistas de dados, pesquisadores e analistas de dados na construção de modelos preditivos com base no conjunto de variáveis ​​mais apropriado.

Leia: Ideias e tópicos de projetos de aprendizado de máquina

O que você precisa ter em mente para escolher o modelo de regressão correto?

Bem, as coisas geralmente são muito mais fáceis quando você tem apenas duas ou três técnicas para escolher. No entanto, se temos tantas opções à nossa disposição, a decisão torna-se muito mais esmagadora. Agora você não pode simplesmente escolher a regressão linear porque o resultado é contínuo. Ou vá para a regressão logística se o resultado for binário. Há mais coisas a considerar quando escolhemos um modelo de regressão para o nosso problema.

Como já mencionamos, existem mais modelos de regressão disponíveis do que podemos entender. Então, o que devemos ter em mente ao fazer a seleção? Existem algumas coisas que são importantes – dimensionalidade dos dados, tipo de variável dependente e independente e outras propriedades dos dados em questão. Aqui estão algumas coisas importantes a serem consideradas ao escolher o modelo de regressão correto:

A exploração de dados é a chave para construir modelos preditivos. Não é à toa que deve estar entre a primeira coisa que você deve fazer antes de fazer a seleção. Explore os dados para identificar o impacto e o relacionamento das variáveis.

Avalie diferentes modelos de regressão para previsão por meio de validação cruzada. Separe seu conjunto de dados em grupos de treinamento e validação. A diferença quadrática média entre os valores previstos e observados fornecerá uma visão da precisão da previsão.

Use Ridge, ElasticNet e outros métodos de regularização de regressão para escolher o modelo certo para conjuntos de dados que possuem variáveis ​​com alta multicolinearidade e dimensionalidade.

Para fazer uma comparação entre diferentes modelos de regressão e sua adequação, podemos analisar parâmetros como AIC, BIC, R-quadrado, termo de erro, entre outros. Há mais um critério, que é chamado de Cp de Mallow. Ele compara o modelo com diferentes submodelos para observar o viés.

Nunca use o método de seleção automática de modelo se o conjunto de dados com o qual você está trabalhando tiver várias variáveis ​​intrigantes. Se você fizer isso, estará se movendo para colocar essas variáveis ​​no modelo de uma só vez.

Seu objetivo também é importante para selecionar o modelo de regressão correto. Se você precisa de um modelo poderoso, simples ou estatisticamente significativo, dependerá do seu objetivo.

O que é regressão linear?

Vamos saber mais sobre o que é regressão linear. É uma das técnicas de aprendizado de máquina que se enquadram no aprendizado supervisionado. O aumento da demanda e uso de técnicas de aprendizado de máquina está por trás do repentino aumento no uso de regressão linear em diversas áreas. Você sabia que as camadas perceptron multicamadas são conhecidas por realizar regressão linear? Vamos agora lançar alguma luz sobre as suposições que a regressão linear é conhecida por fazer sobre os conjuntos de dados aos quais ela é aplicada.

1. Autocorrelação:

Essa suposição feita pela regressão linear indica pouca ou nenhuma autocorrelação nos dados. A autocorrelação ocorre quando os erros residuais são dependentes uns dos outros de uma forma ou de outra.

2. Multicolinearidade:

Essa suposição diz que a multicolinearidade de dados não existe ou está presente pouco. A multicolinearidade acontece quando recursos ou variáveis ​​independentes mostram alguma dependência.

3. Relação variável:

O modelo assume que existe uma relação linear entre as variáveis ​​de característica e de resposta.

Alguns exemplos em que você pode usar a regressão linear incluem a estimativa do preço de uma casa dependendo do número de quartos que ela possui, determinando quão bem uma planta crescerá dependendo da frequência com que é regada e assim por diante. Para todas essas instâncias, você já teria uma ideia sobre o tipo de relacionamento que existe entre as diferentes variáveis.

Quando você usa a análise de regressão linear, você apoia sua ideia ou hipótese com dados. Quando você desenvolve uma melhor compreensão da relação entre diferentes variáveis, está em melhor posição para fazer previsões poderosas. Se você ainda não sabe, deixe-nos dizer-lhe que a regressão linear é uma técnica de aprendizado de máquina supervisionada, bem como um modelo estatístico.

Em termos de aprendizado de máquina, o modelo de regressão é sua máquina, e o aprendizado está relacionado a esse modelo sendo treinado em um conjunto de dados, o que o ajuda a aprender a relação entre as variáveis ​​e permite que ele faça previsões baseadas em dados.

Como funciona a regressão linear?

Antes de executarmos a análise, vamos supor que temos dois tipos de equipes – aquelas que desempenham bem suas funções e aquelas que não. Existem várias razões pelas quais uma equipe não é boa no que está fazendo. Pode ser porque não tem o conjunto de habilidades certo ou não tem a experiência necessária para desempenhar certas funções no trabalho. Mas, você nunca pode ter certeza do que é.

Podemos usar a regressão linear para descobrir candidatos que tenham tudo o que é necessário para se adequarem melhor a uma determinada equipe envolvida em uma determinada linha de trabalho. Isso nos ajudará a selecionar candidatos com alta probabilidade de serem bons em seus trabalhos.

O objetivo que a análise de regressão serve é criar uma curva ou linha de tendência que seja adequada para os dados em questão. Isso nos ajuda a descobrir como um parâmetro (variáveis ​​independentes) está relacionado com o outro parâmetro (variáveis ​​dependentes).

Antes de mais nada, precisamos primeiro examinar mais de perto todos os atributos dos diferentes candidatos e descobrir se eles estão correlacionados de uma forma ou de outra. Se encontrarmos algumas correlações, podemos começar a fazer previsões com base nesses atributos.

A exploração do relacionamento nos dados é feita usando uma curva ou linha de tendência e plotando os dados. A curva ou linha nos mostrará se existe alguma correlação. Agora podemos usar a regressão linear para refutar ou aceitar relacionamentos. Quando o relacionamento for confirmado, podemos usar o algoritmo de regressão para aprender o relacionamento dele. Isso nos permitirá fazer as previsões corretas. Seremos capazes de prever com mais precisão se um candidato é adequado para o trabalho ou não.

Importância de treinar um modelo

O processo envolvido no treinamento de um modelo de regressão linear é semelhante em muitos aspectos à forma como outros modelos de aprendizado de máquina são treinados. Precisamos trabalhar em um conjunto de dados de treinamento e modelar o relacionamento de suas variáveis ​​de uma forma que não afete a capacidade do modelo de prever novas amostras de dados. O modelo é treinado para melhorar continuamente sua equação de previsão.

Isso é feito percorrendo iterativamente o conjunto de dados fornecido. Toda vez que você repetir essa ação, você atualiza simultaneamente o valor de inclinação e peso na direção que o gradiente ou função de custo indica. O estágio de conclusão do treinamento é alcançado quando um limite de erro é atingido ou quando não há redução de custo com as iterações de treinamento que se seguem.

Antes de começarmos a treinar o modelo, há algumas coisas que precisamos preparar. Precisamos definir o número de iterações necessárias, bem como a taxa de aprendizado. Além disso, também temos que definir valores padrão para nossos pesos. Além disso, registre o progresso que conseguimos alcançar a cada repetição.

O que é regularização?

Se falarmos sobre as variantes de regressão linear que são preferidas em relação a outras, teremos que mencionar aquelas que adicionaram regularização. A regularização envolve penalizar aqueles pesos em um modelo que possuem valores absolutos maiores que outros.

A regularização é feita para limitar o overfitting, que é o que um modelo geralmente faz, pois reproduz os relacionamentos de dados de treinamento muito de perto. Ele não permite que o modelo generalize amostras nunca vistas antes como deveria.

Quando usamos regressão linear?

O poder da regressão linear está em quão simples ela é. Isso significa que ele pode ser usado para encontrar respostas para quase todas as perguntas. Antes de usar um algoritmo de regressão linear, você deve garantir que seu conjunto de dados atenda às condições necessárias nas quais ele funciona.

A mais importante dessas condições é a existência de uma relação linear entre as variáveis ​​do seu conjunto de dados. Isso permite que eles sejam facilmente plotados. Você precisa ver que a diferença que existe entre os valores previstos e o valor alcançado em reais são constantes. Os valores previstos ainda devem ser independentes e a correlação entre os preditores deve ser muito próxima para o conforto.

Você pode simplesmente traçar seus dados ao longo de uma linha e, em seguida, estudar sua estrutura minuciosamente para ver se seu conjunto de dados atende às condições desejadas ou não.

Usos de regressão linear

A simplicidade com que a agressão linear facilita as interpretações em nível molecular é uma de suas maiores vantagens. A regressão linear pode ser aplicada a todos os conjuntos de dados em que as variáveis ​​têm uma relação linear.

As empresas podem usar o algoritmo de regressão linear em seus dados de vendas. Suponha que você seja uma empresa que planeja lançar um novo produto. Mas, você não tem certeza a que preço você deve vender este produto. Você pode verificar como seus clientes estão respondendo ao seu produto vendendo-o em alguns pontos de preço bem pensados. Isso permitirá que você generalize a relação entre as vendas e o preço do seu produto. Com a regressão linear, você poderá determinar um ponto de preço que os clientes têm mais probabilidade de aceitar.

Leia também: Salário de Machine Learning na Índia

A regressão linear também pode ser usada em diferentes estágios do fornecimento e produção de um produto. Esses modelos são amplamente utilizados nas áreas acadêmica, científica e médica. Por exemplo, os agricultores podem modelar um sistema que lhes permite usar as condições ambientais em seu benefício. Isso os ajudará a trabalhar com os elementos de tal maneira que causem o mínimo dano ao rendimento e lucro de suas colheitas.

Além destes, pode ser utilizado na área da saúde, arqueologia, trabalho, entre outras áreas. é como a interpretação em um modelo linear

Conclusão

A análise de regressão é uma ferramenta amplamente adotada que usa a matemática para separar variáveis ​​que podem ter um impacto direto ou indireto nos dados finais. É importante ter isso em mente enquanto a análise está em jogo! A regressão linear é um dos algoritmos mais comuns usados ​​por cientistas de dados para estabelecer relações lineares entre as variáveis ​​do conjunto de dados, e seu modelo matemático é necessário para análise preditiva.

Se você estiver interessado em aprender mais sobre aprendizado de máquina, confira o PG Diploma in Machine Learning & AI do IIIT-B e upGrad, projetado para profissionais que trabalham e oferece mais de 450 horas de treinamento rigoroso, mais de 30 estudos de caso e atribuições, IIIT- B Status de ex-aluno, mais de 5 projetos práticos práticos e assistência de trabalho com as principais empresas.

A regressão linear tem alguma limitação ou demérito?

A regressão linear é um método popular usado para entender a relação entre uma variável dependente e uma ou mais variáveis ​​independentes. Embora o modelo de regressão linear seja amplamente usado para desenvolver modelos de aprendizado de máquina, ele apresenta algumas limitações. Por exemplo, este algoritmo de regressão assume que todas as relações entre as variáveis ​​são lineares, o que muitas vezes pode ser enganoso. Então, ele sempre considera o valor médio da variável dependente enquanto examina suas relações com as variáveis ​​independentes. Em seguida, a regressão linear sempre assume que os dados são mutuamente exclusivos, ou seja, independentes dos valores dos outros, o que pode estar incorreto. Além disso, a regressão linear é geralmente sensível a outliers ou dados inesperados.

Quais são as razões para a popularidade da análise de regressão?

A análise de regressão é uma das técnicas estatísticas mais úteis e poderosas usadas no aprendizado de máquina. Existem várias razões que explicam sua popularidade. Em primeiro lugar, a análise de regressão vem com uma ampla gama de aplicações devido à sua enorme versatilidade. O modelo de análise de regressão é muito simples de implementar e interpretar, ou seja, você pode facilmente explicar como ele funciona e interpretar os resultados. Compreender a análise de regressão oferece um domínio sólido sobre os modelos estatísticos de aprendizado de máquina. Também ajuda a desenvolver modelos de aprendizado de máquina mais eficientes usando linguagens de programação como R e Python. Além disso, esta técnica oferece excelente integrabilidade com redes neurais artificiais para fazer previsões úteis.

Como as empresas podem aplicar a regressão linear a seu favor?

As empresas podem usar a regressão linear para examinar e gerar insights de dados úteis sobre o comportamento do consumidor que afeta a lucratividade. Também pode ajudar as empresas a fazer estimativas e avaliar tendências de mercado. Os profissionais de marketing podem empregar a regressão linear para avaliar a eficácia de suas estratégias de marketing envolvendo promoções e preços de produtos. As empresas financeiras e de seguros podem avaliar riscos de forma eficaz e formular decisões críticas de negócios. As empresas de cartão de crédito podem ter como objetivo minimizar sua carteira de risco com inadimplentes usando modelos de regressão linear.