Regresión lineal en aprendizaje automático: todo lo que necesita saber

Publicado: 2020-04-28

Se utilizan diferentes tecnologías de aprendizaje automático en varios ámbitos de nuestra vida diaria para encontrar soluciones a los problemas cotidianos de una manera respaldada por datos, análisis y experiencia. Estos algoritmos de aprendizaje automático juegan un papel muy importante no solo en la identificación de texto, imágenes y videos, sino que también son fundamentales para mejorar las soluciones médicas, la ciberseguridad, el marketing, los servicios al cliente y muchos otros aspectos o áreas que preocupan en nuestra vida cotidiana.

Existen principalmente dos tipos de algoritmos de aprendizaje automático en los que se dividen todos los algoritmos. Estos son algoritmos de aprendizaje automático supervisados ​​y no supervisados. Nuestro enfoque en este blog solo se centrará en los algoritmos de aprendizaje automático supervisado y, especialmente, en la regresión lineal. Comencemos por comprender los algoritmos de aprendizaje automático supervisado.

Tabla de contenido

¿Qué son los algoritmos de aprendizaje supervisado?

Estos algoritmos de aprendizaje automático son los que entrenamos para predecir un resultado bien establecido que depende de los datos que ingresa el usuario. El algoritmo entrena el modelo para entregar resultados en un conjunto de datos dado. Al principio, el sistema tiene acceso a los datos de entrada y salida. El trabajo del sistema es definir reglas que van a mapear la entrada a la salida.

El entrenamiento del modelo continúa hasta que el rendimiento está en su nivel óptimo. Después del entrenamiento, el sistema puede asignar objetos de salida que no encontró mientras estaba siendo entrenado. En el escenario ideal, este proceso es bastante preciso y no lleva mucho tiempo. Hay dos tipos de algoritmos de aprendizaje supervisado , a saber, clasificación y regresión.

Discutiremos ambos brevemente, antes de saltar directamente a nuestro tema principal de discusión.

1. Clasificación

Estos son algoritmos de aprendizaje automático supervisados ​​que tienen el objetivo simple de reproducir las tareas de clase. La técnica de aprendizaje a menudo se considera para situaciones en las que se requiere la separación de datos. Separa los datos en clases mediante la predicción de respuestas. Por ejemplo, el pronóstico del tiempo para un día determinado, identificar un tipo específico de foto de un álbum y separar el correo no deseado del correo electrónico.

2. Regresión

La técnica de aprendizaje se utiliza para cumplir el objetivo de reproducir los valores de salida. En otras palabras, se usa en situaciones en las que necesitamos ajustar los datos a un valor específico. Por ejemplo, a menudo se usa para estimar el precio de diferentes artículos. La regresión se puede utilizar para predecir más cosas de las que puedas imaginar.

Tipos de regresiones

Las regresiones logísticas y lineales son los dos tipos de regresión más importantes que existen en el mundo moderno del aprendizaje automático y la ciencia de datos. Sin embargo, también hay otros, pero se usan con bastante moderación. No se puede negar el hecho de que podemos realizar numerosas regresiones en un conjunto de datos dado o usarlo para diferentes situaciones.

Cada forma de regresión tiene sus pros y sus contras y es adecuada para condiciones específicas. Si bien nos centraremos solo en la agresión lineal, debe conocer los antecedentes completos para familiarizarse con su funcionamiento.

Es la razón por la que estamos llevando la discusión paso a paso.

¿Qué es el análisis de regresión?

El análisis de regresión no es más que una metodología de modelado predictivo que tiene como objetivo investigar la relación que existe entre las variables independientes o predictores y las variables dependientes u objetivos. Este análisis se utiliza en una gran cantidad de cosas diferentes, incluido el modelado de series temporales, pronósticos y otros.

Por ejemplo, si desea estudiar la relación entre los accidentes de tráfico y la conducción casual, no hay mejor técnica que el análisis de regresión para este trabajo. Desempeña un papel muy importante tanto en el análisis como en el modelado de datos. Esto se hace ajustando una línea o curva a diferentes puntos de datos de manera que podamos minimizar la diferencia en las distancias de los puntos de datos desde la línea o la curva.

¿Cuál es la necesidad del análisis de regresión?

El análisis de regresión se utiliza para predecir la relación entre variables, solo si son dos o más en número. Entendamos cómo funciona esto con un ejemplo simple. Suponga que se le asigna una tarea que requiere que presente una estimación del crecimiento de las ventas de una empresa para un período determinado, teniendo en cuenta las condiciones económicas existentes.

Ahora los datos de la empresa te dicen que las ventas crecieron alrededor de dos veces el crecimiento de la economía. Podemos utilizar estos datos para estimar el crecimiento de las ventas de la empresa en el futuro tomando conocimientos de la información pasada y actual.

El uso del análisis de regresión puede ofrecerle una serie de beneficios al trabajar con datos o hacer una predicción sobre el conjunto de datos. Se puede utilizar para señalar las relaciones significativas entre las variables independientes y dependientes. Se utiliza para indicar el impacto de las experiencias de variables dependientes de múltiples variables independientes.

Permite la comparación de los efectos de distintas variables que pertenecen a distintas escalas de medida. Estas cosas contribuyen en gran medida a ayudar a los científicos de datos, investigadores y analistas de datos a construir modelos predictivos basados ​​en el conjunto de variables más adecuado.

Leer: Ideas y temas de proyectos de aprendizaje automático

¿Qué debe tener en cuenta para elegir el modelo de regresión adecuado?

Bueno, las cosas suelen ser mucho más fáciles cuando solo tienes dos o tres técnicas para elegir. Sin embargo, si tenemos tantas opciones a nuestra disposición, entonces la decisión se vuelve mucho más abrumadora. Ahora no puede simplemente elegir la regresión lineal porque el resultado es continuo. O opte por la regresión logística si el resultado es binario. Hay más cosas a considerar cuando elegimos un modelo de regresión para nuestro problema.

Como ya hemos mencionado, hay más modelos de regresión disponibles de los que podemos entender. Entonces, ¿qué es lo que debemos tener en cuenta al hacer la selección? Hay algunas cosas que son importantes: la dimensionalidad de los datos, el tipo de variable dependiente e independiente y otras propiedades de los datos en cuestión. Aquí hay algunas cosas importantes a considerar al elegir el modelo de regresión correcto:

La exploración de datos es la clave para construir modelos predictivos. No es de extrañar que debe estar entre las primeras cosas que debe hacer antes de hacer la selección. Explore los datos para identificar el impacto y la relación de las variables.

Evalúe diferentes modelos de regresión para la predicción a través de la validación cruzada. Separe su conjunto de datos en grupos de entrenamiento y validación. La diferencia cuadrática media entre los valores predichos y observados proporcionará una idea de la precisión de la predicción.

Utilice Ridge, ElasticNet y otros métodos de regularización de regresión para elegir el modelo correcto para conjuntos de datos que tienen variables con alta multicolinealidad y dimensionalidad.

Para hacer una comparación entre diferentes modelos de regresión y su idoneidad, podemos analizar parámetros, como AIC, BIC, R-square, término de error y otros. Hay un criterio más, que se llama Cp de Mallow. Compara el modelo con diferentes submodelos para buscar sesgos.

Nunca use el método de selección automática de modelos si el conjunto de datos con el que está trabajando tiene una serie de variables desconcertantes. Si lo hace, estaría avanzando hacia poner todas esas variables en el modelo a la vez.

Su objetivo también es importante para seleccionar el modelo de regresión correcto. Si necesita un modelo poderoso, uno simple o estadísticamente significativo, dependerá de su objetivo.

¿Qué es la regresión lineal?

Conozcamos más sobre qué es la regresión lineal. Es una de las técnicas de aprendizaje automático que se incluyen en el aprendizaje supervisado. El aumento de la demanda y el uso de técnicas de aprendizaje automático está detrás del aumento repentino del uso de la regresión lineal en varias áreas. ¿Sabía que se sabe que las capas de perceptrón multicapa realizan una regresión lineal? Ahora arrojemos algo de luz sobre las suposiciones que se sabe que hace la regresión lineal sobre los conjuntos de datos a los que se aplica.

1. Autocorrelación:

Esta suposición hecha por regresión lineal indica poca o ninguna autocorrelación en los datos. La autocorrelación tiene lugar cuando los errores residuales dependen unos de otros de una forma u otra.

2. Multicolinealidad:

Esta suposición dice que la multicolinealidad de datos no existe en absoluto o está presente escasamente. La multicolinealidad ocurre cuando las características o variables independientes muestran alguna dependencia.

3. Relación de variables:

El modelo asume que existe una relación lineal entre las características y las variables de respuesta.

Algunos casos en los que puede usar la regresión lineal incluyen la estimación del precio de una casa según la cantidad de habitaciones que tiene, determinar qué tan bien crecerá una planta según la frecuencia con la que se riega, etc. Para todos estos casos, ya tendrías una idea sobre el tipo de relación que existe entre diferentes variables.

Cuando utiliza el análisis de regresión lineal, respalda su idea o hipótesis con datos. Cuando desarrolla una mejor comprensión de la relación entre diferentes variables, está en una mejor posición para hacer predicciones poderosas. Si aún no lo sabe, permítanos decirle que la regresión lineal es una técnica de aprendizaje automático supervisado, así como un modelo estadístico.

En términos de aprendizaje automático, el modelo de regresión es su máquina, y el aprendizaje se relaciona con este modelo que se entrena en un conjunto de datos, lo que lo ayuda a aprender la relación entre las variables y le permite hacer predicciones respaldadas por datos.

¿Cómo funciona la regresión lineal?

Antes de ejecutar el análisis, supongamos que tenemos dos tipos de equipos: los que realizan bien su trabajo y los que no. Hay varias razones por las que un equipo no es bueno en lo que hace. Podría deberse a que no tiene el conjunto de habilidades adecuado o no tiene la experiencia necesaria para realizar ciertas tareas en el trabajo. Pero, nunca se puede estar seguro de lo que es.

Podemos usar la regresión lineal para encontrar candidatos que tengan todo lo que se requiere para encajar mejor en un equipo en particular que está involucrado en una línea de trabajo en particular. Esto nos ayudará a seleccionar candidatos que probablemente sean buenos en sus trabajos.

El objetivo al que sirve el análisis de regresión es crear una curva o línea de tendencia que sea adecuada para los datos en cuestión. Esto nos ayuda a descubrir cómo un parámetro (variables independientes) se relaciona con el otro parámetro (variables dependientes).

Antes que nada, primero debemos observar más de cerca todos los atributos de los diferentes candidatos y descubrir si están correlacionados de una forma u otra. Si encontramos algunas correlaciones, podemos continuar y comenzar a hacer predicciones basadas en estos atributos.

La exploración de relaciones en los datos se realiza utilizando una curva o línea de tendencia y trazando los datos. La curva o línea nos indicará si existe alguna correlación. Ahora podemos usar la regresión lineal para refutar o aceptar relaciones. Cuando se confirma la relación, podemos usar el algoritmo de regresión para conocer su relación. Esto nos permitirá hacer las predicciones correctas. Podremos predecir con mayor precisión si un candidato es adecuado para el trabajo o no.

Importancia de entrenar a un modelo

El proceso involucrado en el entrenamiento de un modelo de regresión lineal es similar en muchos aspectos a cómo se entrenan otros modelos de aprendizaje automático. Necesitamos trabajar en un conjunto de datos de entrenamiento y modelar la relación de sus variables de una manera que no afecte la capacidad del modelo para predecir nuevas muestras de datos. El modelo está entrenado para mejorar su ecuación de predicción continuamente.

Se realiza mediante un bucle iterativo a través del conjunto de datos dado. Cada vez que repite esta acción, actualiza simultáneamente el valor de sesgo y ponderación en la dirección que indica la función de gradiente o costo. La etapa de finalización del entrenamiento se alcanza cuando se toca un umbral de error o cuando no hay reducción en el costo con las iteraciones de entrenamiento que siguen.

Antes de comenzar a entrenar el modelo, hay algunas cosas que debemos preparar. Necesitamos establecer el número de iteraciones requeridas, así como la tasa de aprendizaje. Aparte de esto, también tenemos que establecer valores predeterminados para nuestros pesos. Además, registre el progreso que somos capaces de lograr con cada repetición.

¿Qué es la regularización?

Si hablamos de las variantes de regresión lineal que se prefieren a otras, entonces tendremos que mencionar aquellas que tienen regularización añadida. La regularización implica penalizar aquellos pesos en un modelo que tienen valores absolutos más grandes que otros.

La regularización se realiza para limitar el sobreajuste, que es lo que suele hacer un modelo, ya que reproduce las relaciones de datos de entrenamiento con demasiada precisión. No permite que el modelo generalice muestras nunca antes vistas como se supone que debe hacerlo.

¿Cuándo usamos la regresión lineal?

El poder de la regresión lineal radica en lo simple que es. Significa que se puede utilizar para encontrar respuestas a casi todas las preguntas. Antes de usar un algoritmo de regresión lineal, debe asegurarse de que su conjunto de datos cumpla con las condiciones requeridas en las que funciona.

La más importante de estas condiciones es la existencia de una relación lineal entre las variables de su conjunto de datos. Esto les permite trazarse fácilmente. Debe ver que la diferencia que existe entre los valores pronosticados y el valor real alcanzado son constantes. Los valores pronosticados aún deben ser independientes y la correlación entre los predictores debe ser demasiado cercana para su comodidad.

Simplemente puede trazar sus datos a lo largo de una línea y luego estudiar su estructura a fondo para ver si su conjunto de datos cumple con las condiciones deseadas o no.

Usos de la regresión lineal

La sencillez con la que la agresión lineal facilita las interpretaciones a nivel molecular es una de sus mayores ventajas. La regresión lineal se puede aplicar a todos aquellos conjuntos de datos donde las variables tienen una relación lineal.

Las empresas pueden utilizar el algoritmo de regresión lineal en sus datos de ventas. Suponga que es una empresa que planea lanzar un nuevo producto. Pero, no está realmente seguro a qué precio debe vender este producto. Puede verificar cómo sus clientes están respondiendo a su producto vendiéndolo a algunos puntos de precio bien pensados. Esto le permitirá generalizar la relación entre las ventas de su producto y el precio. Con la regresión lineal, podrá determinar un punto de precio que es más probable que los clientes acepten.

Lea también: Salario de aprendizaje automático en India

La regresión lineal también se puede utilizar en diferentes etapas del abastecimiento y la producción de un producto. Estos modelos son ampliamente utilizados en campos académicos, científicos y médicos. Por ejemplo, los agricultores pueden modelar un sistema que les permita utilizar las condiciones ambientales en su beneficio. Esto les ayudará a trabajar con los elementos de tal manera que causen el mínimo daño al rendimiento y la ganancia de sus cultivos.

Además de estos, se puede utilizar en el cuidado de la salud, la arqueología y el trabajo, entre otras áreas. es como la interpretación en un modelo lineal

Conclusión

El análisis de regresión es una herramienta ampliamente adoptada que utiliza las matemáticas para clasificar las variables que pueden tener un impacto directo o indirecto en los datos finales. ¡Es importante tenerlo en cuenta mientras se realiza el análisis! La regresión lineal es uno de los algoritmos más comunes utilizados por los científicos de datos para establecer relaciones lineales entre las variables del conjunto de datos, y su modelo matemático es necesario para el análisis predictivo.

Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿La regresión lineal tiene limitaciones o deméritos?

La regresión lineal es un método popular utilizado para comprender la relación entre una variable dependiente y una o más variables independientes. Aunque el modelo de regresión lineal se usa ampliamente para desarrollar modelos de aprendizaje automático, tiene ciertas limitaciones. Por ejemplo, este algoritmo de regresión asume que todas las relaciones entre variables son lineales, lo que a menudo puede ser engañoso. Luego, siempre considera el valor medio de la variable dependiente mientras examina sus relaciones con las variables independientes. A continuación, la regresión lineal siempre asume que los datos son mutuamente excluyentes, es decir, independientes de los valores de los demás, lo que puede ser incorrecto. Además, la regresión lineal generalmente es sensible a valores atípicos o datos inesperados.

¿Cuáles son las razones de la popularidad del análisis de regresión?

El análisis de regresión es una de las técnicas estadísticas más útiles y poderosas utilizadas en el aprendizaje automático. Hay varias razones que explican su popularidad. En primer lugar, el análisis de regresión viene con una amplia gama de aplicaciones debido a su tremenda versatilidad. El modelo de análisis de regresión es muy sencillo de implementar e interpretar, es decir, se puede explicar fácilmente cómo funciona e interpretar los resultados. Comprender el análisis de regresión ofrece un control sólido sobre los modelos estadísticos de aprendizaje automático. También lo ayuda a desarrollar modelos de aprendizaje automático más eficientes utilizando lenguajes de programación como R y Python. Además, esta técnica ofrece una excelente integrabilidad con redes neuronales artificiales para realizar predicciones útiles.

¿Cómo pueden las empresas aplicar la regresión lineal en su beneficio?

Las empresas pueden usar la regresión lineal para examinar y generar información útil sobre el comportamiento del consumidor que afecta la rentabilidad. También puede ayudar a las empresas a realizar estimaciones y evaluar las tendencias del mercado. Los especialistas en marketing pueden emplear la regresión lineal para evaluar la efectividad de sus estrategias de marketing que involucran promociones y precios de productos. Las compañías financieras y de seguros pueden evaluar el riesgo de manera efectiva y formular decisiones comerciales críticas. Las compañías de tarjetas de crédito pueden tratar de minimizar su cartera de riesgo con morosos utilizando modelos de regresión lineal.