Regresión versus clasificación en aprendizaje automático: diferencia entre regresión y clasificación
Publicado: 2020-11-12Tabla de contenido
Introducción
Al resolver problemas de ciencia de datos, tener el enfoque correcto es de vital importancia y, a menudo, puede significar la diferencia entre confundirse y encontrar la solución correcta. Al principio, los científicos de datos a menudo tienden a confundirse entre los dos, incapaces de descifrar los pequeños detalles técnicos que son importantes para atacar el problema con el enfoque correcto.
Incluso con científicos de datos experimentados y experimentados, las diferencias pueden confundirse fácilmente y esto hace que sea difícil aplicar el enfoque correcto. En este discurso, profundizaremos en las diferencias y similitudes con los dos importantes algoritmos de ciencia de datos: clasificación y regresión.
Ambos enfoques deberían ser herramientas esenciales en el arsenal de cualquier científico de datos para resolver problemas comerciales. Por lo tanto, una comprensión crucial es vital para seleccionar los modelos correctos, hacer los ajustes adecuados e implementar la solución correcta que impulsará su negocio.
Leer: Ideas de proyectos de aprendizaje automático
Regresión vs Clasificación
En primer lugar, la importante similitud: tanto la regresión como la clasificación se clasifican en enfoques de aprendizaje automático supervisado. ¿Qué es un enfoque de aprendizaje automático supervisado? Es un conjunto de algoritmos de aprendizaje automático que entrenan el modelo utilizando conjuntos de datos del mundo real (llamados conjuntos de datos de entrenamiento) para hacer predicciones.
Los datos que se utilizan para entrenar el modelo deben estar bien etiquetados y limpios; el modelo aprenderá de los datos de entrenamiento la relación entre las variables independientes y la variable predictora. Está en contraste con el enfoque de aprendizaje automático no supervisado, que le pide al modelo que identifique patrones dentro de los datos por sí mismo, y así encontrar la función de mapeo al examinar patrones inherentes dentro del conjunto de datos.

Un enfoque de aprendizaje automático supervisado intenta resolver la función de mapeo, y = f(x), donde x se refiere a las variables de entrada e y es la función de mapeo. Al resolver la función de mapeo, se puede transferir rápida y convenientemente al conjunto de datos del mundo real.
Tanto las funciones de clasificación como las de regresión pueden hacer esto, así como cualquier otro enfoque de aprendizaje automático supervisado. Pero la diferencia significativa y los enfoques de regresión son que, mientras que en una regresión, la variable de salida 'y' es numérica y continua (puede ser un valor entero o de coma flotante) , en el algoritmo de clasificación, la variable de salida 'y' es discreta y categórico.
Entonces, si está prediciendo variables como el salario, la esperanza de vida, la probabilidad de abandono, estas variables serán numéricas y continuas.
Por ejemplo , suponga que una institución financiera está interesada en perfilar a sus solicitantes de préstamos para medir la probabilidad de incumplimiento. El científico de datos puede abordar el problema de dos maneras principales: puede asignar una probabilidad (que será un rango de números continuos de coma flotante entre 0 y 1) a cada solicitante de préstamo, o simplemente proporciona un conjunto de resultados binarios. correspondiente a PASA/FALLA.
Ambos enfoques tomarán el mismo conjunto de variables de entrada, como el historial crediticio del solicitante, información salarial, demográfica, edad, condiciones macroeconómicas, etc. Pero la diferencia entre los dos enfoques es que mientras el primero califica a cada solicitante, lo que puede ser útil para hacer cálculos relativistas, como cuánto más probable es un individuo frente a otro.
La salida también se puede utilizar para otros análisis. Sin embargo, en el último caso, el algoritmo clasifica todo el conjunto de datos de perfiles individuales en Sí o No, lo que luego se puede usar para juzgar si es seguro dar crédito. Tenga en cuenta que tanto las clases de sí como las de no pueden tener una variación considerable dentro de la subclase.

Pero aquí con el enfoque de clasificación, no estamos interesados en averiguar la variación dentro de cada subgrupo. La clasificación se puede utilizar para otros fines, como clasificar si el correo electrónico entrante es correo no deseado o no.
Por otro lado, la predicción del clima (el clima puede tomar un rango de valores continuos), generalmente requerirá un enfoque de regresión. Si, en cambio, solo estuviéramos interesados en predecir si llovería o no llovería, entonces el mismo conjunto de datos meteorológicos podría colocarse de manera más apropiada en el sistema de clasificación. Así, como podemos ver, el caso de uso determinará qué algoritmo será más adecuado para usar.
Los algoritmos de regresión consisten en regresión lineal, regresión multivariante, modelos de vectores de soporte y árbol de regresión, entre otros. El enfoque de clasificación utiliza árboles de decisión, Naive Bayes, Regresión logística, entre otros.
Al comprender la diferencia entre estos enfoques y algoritmos, podrá seleccionar y aplicar mejor el correcto a los casos de uso específicos de su negocio, lo que lo ayudará a llegar rápidamente a la solución correcta.
Tipos de algoritmos de clasificación y regresión
Profundicemos y comprendamos cada uno de estos tipos de algoritmos que se utilizan en regresión y clasificación.
Regresión lineal : en la regresión lineal, la relación entre dos variables se estima trazando una línea recta de mejor ajuste. Se necesitarán otras medidas para medir la fuerza de la línea de mejor ajuste trazada, como la fuerza de ajuste, la varianza, la desviación estándar, el valor r-cuadrado, entre otras. Obtenga más información sobre los modelos de regresión en Machine Learning.
Regresión polinomial : en los modelos de regresión polinomial, las relaciones se miden entre 'varias' variables de entrada y el predictor o variable de 'salida'. Más información sobre los modelos de regresión.
Algoritmo del árbol de decisión: en el algoritmo del árbol de decisión, el conjunto de datos se clasifica con la ayuda de un árbol de decisión, donde cada nodo del árbol es un caso de prueba y cada rama que surge en cada nodo del árbol corresponde a un valor posible. del atributo.
Leer: ¿Cómo crear un árbol de decisión perfecto?

Algoritmo de bosque aleatorio: el bosque aleatorio, como su nombre indica, se construye sumando varios algoritmos de árboles de decisión. Luego, el modelo agrega la salida de los diferentes árboles de decisión y genera la predicción final, que se produce por votación mayoritaria de los árboles de decisión individuales.
El resultado final proporcionado por el árbol de decisión es más preciso que el proporcionado por cualquiera de los árboles de decisión individuales. Los bosques aleatorios a menudo tienden a sufrir problemas de sobreajuste, pero se pueden ajustar con validación cruzada y otros métodos.
K vecino más cercano : K vecino más cercano es un algoritmo de clasificación robusto que funciona según el principio de que las cosas similares permanecen muy cerca unas de otras. Cuando la nueva variable se coloca en el algoritmo de predicción, intenta asignarla a un grupo en función de su proximidad a los conjuntos de datos. Obtenga más información sobre KNN.
Conclusión
Como científico de datos, debe tener una comprensión fundamental y esencial de los diferentes enfoques de clasificación y regresión, las técnicas involucradas lo ayudarán como científico de datos a aplicar el conjunto correcto de herramientas, para llegar a una solución adecuada que beneficiará tu negocio.
Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.