Regresión en minería de datos: diferentes tipos de técnicas de regresión [2022]
Publicado: 2021-01-01El aprendizaje supervisado es un aprendizaje en el que entrena el algoritmo de aprendizaje automático utilizando datos que ya están etiquetados. Esto significa que ya se conoce la respuesta correcta para todos los datos de entrenamiento. Después del entrenamiento, se le proporciona un nuevo conjunto de datos desconocidos que analiza el algoritmo de aprendizaje supervisado, y luego produce un resultado correcto basado en los datos de entrenamiento etiquetados.
El aprendizaje no supervisado es donde el algoritmo se entrena usando información, para la cual no se conoce la etiqueta correcta. Aquí, la máquina básicamente tiene que agrupar la información de acuerdo con los diversos patrones, o cualquier correlación sin entrenarse con ningún dato de antemano.
La regresión es una forma de técnica de aprendizaje automático supervisado que intenta predecir cualquier atributo de valor continuo. Analiza la relación entre una variable objetivo (dependiente) y su variable predictora (independiente). La regresión es una herramienta importante para el análisis de datos que se puede utilizar para el modelado de series temporales, pronósticos y otros.
La regresión implica el proceso de ajustar una curva o una línea recta en varios puntos de datos. Se hace de tal forma que las distancias entre la curva y los puntos de datos resulten ser las mínimas.
Aunque las regresiones lineales y logísticas son los tipos más populares, existen muchos otros tipos de regresión que se pueden aplicar según su desempeño en un conjunto de datos en particular. Estos diferentes tipos varían debido al número y tipo de todas las variables dependientes y también al tipo de curva de regresión formada.
Consulte: Diferencia entre ciencia de datos y minería de datos
Tabla de contenido
Regresión lineal
La regresión lineal forma una relación entre la variable objetivo (dependiente) y una o más variables independientes utilizando una línea recta de mejor ajuste.
Se representa por la ecuación:
Y = a + b*X + e ,
donde a es la intersección, b es la pendiente de la línea de regresión y e es el error. X e Y son las variables predictoras y objetivo respectivamente. Cuando X se compone de más de una variable (o características), se denomina regresión lineal múltiple.
La línea de mejor ajuste se logra utilizando el método de mínimos cuadrados. Este método minimiza la suma de los cuadrados de las desviaciones de cada uno de los puntos de datos a la línea de regresión. Las distancias negativas y positivas no se cancelan aquí ya que todas las desviaciones se elevan al cuadrado.
Regresión polinomial
En la regresión polinomial, la potencia de la variable independiente es mayor que 1 en la ecuación de regresión. A continuación se muestra un ejemplo:
Y = a + b*X^2
En esta regresión en particular, la línea de mejor ajuste no es una línea recta como en la regresión lineal. Sin embargo, es una curva que se ajusta a todos los puntos de datos.
La implementación de la regresión polinomial puede resultar en un ajuste excesivo cuando tenga la tentación de reducir sus errores haciendo que la curva sea más compleja. Por lo tanto, siempre intente ajustar la curva generalizándola al problema.
Regresión logística
La regresión logística se utiliza cuando la variable dependiente es de naturaleza binaria (Verdadero o Falso, 0 o 1, éxito o fracaso). Aquí el valor objetivo (Y) varía de 0 a 1 y se usa popularmente para problemas de tipo clasificación. La regresión logística no requiere que las variables dependientes e independientes tengan una relación lineal, como es el caso de la regresión lineal.

Leer : Ideas de proyectos de minería de datos
Regresión de cresta
Ridge Regression es una técnica utilizada para analizar datos de regresión múltiple que tienen el problema de la multicolinealidad. La multicolinealidad es la existencia de una correlación casi lineal entre dos variables independientes cualesquiera.
Ocurre cuando las estimaciones de mínimos cuadrados tienen un sesgo bajo, pero tienen una varianza alta, por lo que son muy diferentes del valor real. Por lo tanto, al agregar un grado de sesgo al valor de regresión estimado, los errores estándar se reducen en gran medida al implementar la regresión de cresta.
Regresión de lazo
A S S O El mínima .
Es un tipo de regresión lineal. que utiliza la contracción . En esto, todos los puntos de datos se reducen (o encogen) hacia un punto central, también llamado la media. El procedimiento de lazo es más adecuado para modelos simples y dispersos que tienen comparativamente menos parámetros. Este tipo de regresión también es adecuado para modelos que sufren de multicolinealidad (como una cresta).
Obtenga una certificación en ciencia de datos de las mejores universidades del mundo. Únase a nuestros programas Executive PG, programas de certificación avanzada o programas de maestría para acelerar su carrera.
Conclusión
El análisis de regresión básicamente le permite comparar los efectos de diferentes tipos de variables de características medidas en una amplia gama de escalas. Como la predicción de los precios de la vivienda en función del área total, la localidad, la edad, los muebles, etc. Estos resultados benefician en gran medida a los investigadores de mercado o analistas de datos para eliminar cualquier característica inútil y evaluar el mejor conjunto de características para construir modelos predictivos precisos.
Si tiene curiosidad por aprender sobre ciencia de datos, consulte el Diploma PG en ciencia de datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1- on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.
¿Qué es la regresión lineal?
La regresión lineal establece la relación entre la variable objetivo o variable dependiente y una o más de una variable independiente. Cuando tenemos más de un predictor en nuestra ecuación, se convierte en regresión múltiple.
El método de mínimos cuadrados se considera el mejor método para lograr la línea de mejor ajuste, ya que este método minimiza la suma de los cuadrados de las desviaciones de cada uno de los puntos de datos a la línea de regresión.
¿Qué son las técnicas de regresión y por qué son necesarias?
Estas son las técnicas para estimar o predecir relaciones entre variables. La relación se encuentra entre dos variables, una es el objetivo y la otra es la variable predictora (también conocidas como variables x e y).
Se pueden utilizar diferentes técnicas como lineal, logística, paso a paso, polinomial, lazo y cresta para identificar esta relación. Esto se hace para generar pronósticos utilizando recopilaciones de datos y trazando gráficos entre ellos.
¿En qué se diferencia la técnica de regresión lineal de la técnica de regresión logística?
La diferencia entre ambas técnicas de regresión radica en el tipo de variable dependiente. Si la variable dependiente es continua, se utiliza la regresión lineal, mientras que si la variable dependiente es categórica, se utiliza la regresión logística.
Como su nombre también sugiere, una línea lineal o recta se identifica en la técnica lineal. Mientras que, en la técnica logística, una curva en S se identifica como la variable independiente es un polinomio. Los resultados en el caso de lineal son continuos mientras que, en el caso de la técnica logística, los resultados pueden estar en categorías como Verdadero o Falso, 0 o 1, etc.