Modelo de regresión lineal: ¿Qué es y cómo funciona?

Publicado: 2020-12-16

Tabla de contenido

Introducción

El análisis de regresión es una herramienta importante para modelar y analizar datos; es fundamental encontrar la relación entre dos o más variables. La regresión ayuda a colocar los puntos de datos dentro de una curva que ayuda a modelar y analizar los datos. La regresión permite medir y caracterizar las variables en diferentes escalas para la evaluación de modelos predictivos y conjuntos de datos.

Debe leer: Ideas de proyectos de regresión lineal

Modelo de regresión

El modelo involucra los valores del coeficiente que se utilizan en la representación de los datos. Incluye las propiedades estadísticas que se utilizan para estimar esos coeficientes; es una fusión de todas las desviaciones estándar, covarianza y correlaciones. Todos los datos deben estar disponibles.

El modelo de regresión es una condición lineal que consolida un arreglo particular de valores informativos (x) cuya respuesta es la salida anticipada para ese conjunto de valores informativos (y). Tanto los valores de información (x) como la salida son numéricos.

La ecuación lineal asigna un factor de escala a cada valor o segmento de información, llamado coeficiente y denotado por la letra griega mayúscula Beta (B). También se agrega un coeficiente adicional, lo que le da a la línea un nivel adicional de oportunidad (por ejemplo, recorrer todo un gráfico bidimensional) y esto se denomina comúnmente coeficiente de captura o de inclinación.

Por ejemplo, en una regresión básica (una x simple y una y simple), el tipo de modelo sería:

y = B0 + B1*x

En medidas superiores cuando tenemos más de una info (x), la línea se conoce como plano o hiperplano. La representación a lo largo de estas líneas es el tipo de condición y las cualidades específicas utilizadas para los coeficientes (por ejemplo, B0 y B1 en el modelo anterior).

No es inesperado discutir la naturaleza multifacética de un modelo de recaída como la regresión. Esto alude al número de coeficientes utilizados en el modelo.

En el momento en que un coeficiente llega a cero, elimina adecuadamente el impacto de la variable de información en el modelo y, posteriormente, del pronóstico producido con el modelo (0 * x = 0). Esto es pertinente si observa técnicas de regularización que cambian el cálculo de aprendizaje para reducir la naturaleza multifacética de los modelos de recaída al exprimir el tamaño máximo de los coeficientes, llevando algunos a cero.

La regresión se representa mejor con una línea recta en la que se utilizan una o más variables para establecer una relación.

La lógica detrás del modelo:

Como el modelo de regresión usa la ecuación y=mx+c

Donde y= variable independiente

m= pendiente

c = intersección para una línea dada

Para el cálculo de múltiples variables independientes, se implementarían modelos de regresión múltiple. Este es el proceso para crear un modelo de funcionamiento perfecto

  1. Bibliotecas de importación : existen parámetros esenciales que giran en torno a la implementación de modelos de aprendizaje automático. La primera biblioteca debe incluir sklearn, ya que es la biblioteca oficial de aprendizaje automático en python. Numpy se usa para convertir datos en matrices y para acceder a los archivos del conjunto de datos, se implementan Pandas.
  2. Cargar el dataset relativo- Se logra con la ayuda de una variable Panda previamente importada.
  3. Dividir las variables : especifique y defina el número de variables independientes o variables dependientes que se requieren para los elementos de la matriz.
  4. División de datos de prueba y entrenamiento : todo el conjunto de datos se divide en dominios de entrenamiento y prueba para permitir y facilitar los valores aleatorios tomados del conjunto de datos.
  5. Elija el modelo correcto: la elección adecuada requeriría un proceso de prueba y error en el que el mismo conjunto de datos estaría implícito con otros modelos.
  6. Predicción de salida : el modelo se ejecutaría en la variable dependiente respaldada por los valores de prueba de la variable independiente, los métodos incorporados para estos modelos hacen los cálculos cualitativos para cada valor presentado.

Esto inicia la implementación del modelo de regresión lineal. Las funciones de predicción lineal se implementan para el modelado de relaciones, como se mencionó anteriormente. La media condicional de la respuesta le da al modelo los predictores necesarios para mover la media condicional de la respuesta.

El objetivo de tal predicción y pronóstico es acomodar variables adicionales sin agregar un valor de respuesta adjunto; el modelo ajustado se implementaría para hacer la predicción necesaria para esa respuesta.

Los modelos de regresión lineal se utilizan más preferiblemente con el enfoque de mínimos cuadrados, donde la implementación puede requerir otras formas de minimizar las desviaciones y las funciones de costo, por ejemplo. Los modelos lineales generales incluyen una variable de respuesta que es de naturaleza vectorial y no directamente escalar. La linealidad condicional aún se presume positiva durante el proceso de modelado. Varían en gran escala, pero se describen mejor como distribución sesgada, que está relacionada con la distribución logarítmica normal.

Leer: Tipos de modelos de regresión en aprendizaje automático

Advertencias

Dado que las dos variables están relacionadas, esto no descarta la característica de que una provoque la otra.

Si se intenta una ecuación de regresión lineal para un conjunto de datos y funciona, no significa necesariamente que la ecuación se ajuste perfectamente, puede haber otras iteraciones con una perspectiva similar. Para asegurarse de que la técnica sea genuina, intente trazar una línea con los puntos de datos para encontrar la linealidad de la ecuación.

Resumir

Está comprobado que el método de regresión lineal proporciona un método mucho mejor, poderoso y estadístico que permite aumentar las posibilidades y encontrar la previsibilidad de eventos y relaciones entre dos o más variables de interés en el asunto.

Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

Mencione algunos problemas que uno puede enfrentar al usar un modelo de regresión lineal.

La regresión lineal ayuda a predecir la relación entre la media de la variable dependiente y los factores independientes. Esto se vuelve problemático porque a veces la única forma de resolver un problema es observar el valor extremo de la variable dependiente. La regresión cuantil, por otro lado, se puede utilizar para resolver este problema. Además, la regresión lineal supone que los datos presentados son independientes, lo que es incorrecto en el caso de problemas de agrupación.

¿Qué es un coeficiente de correlación lineal en una regresión?

El coeficiente de correlación es simplemente un aspecto del análisis de la relación entre las variables en la regresión lineal simple. De hecho, es uno de los métodos estadísticos de análisis más poderosos y ampliamente utilizados. El coeficiente de correlación producto-momento de Pearson, que es básicamente una estadística que nos informa qué tan cerca están conectadas dos variables, es el coeficiente de correlación más utilizado. El coeficiente de correlación lineal evalúa la fuerza de la asociación lineal entre dos variables. Una conexión lineal perfecta es aquella en la que un cambio en una variable provoca un cambio unitario idéntico en la otra variable.

¿Cómo es útil el análisis de regresión en cualquier negocio?

El análisis de regresión ayuda a una organización a comprender lo que representan sus puntos de datos y aplicarles enfoques analíticos comerciales para tomar mejores decisiones. Esta sofisticada herramienta estadística es utilizada por analistas de negocios y profesionales de datos para eliminar variables innecesarias y elegir las más relevantes. Las organizaciones utilizan la toma de decisiones basada en datos, lo que elimina las técnicas de la vieja escuela, como adivinar o asumir una hipótesis y, como resultado, aumenta el rendimiento laboral.