Regularización en Machine Learning: ¿Cómo evitar el sobreajuste?
Publicado: 2020-02-17El aprendizaje automático implica equipar computadoras para realizar tareas específicas sin instrucciones explícitas. Entonces, los sistemas están programados para aprender y mejorar de la experiencia automáticamente. Los científicos de datos suelen utilizar la regularización en el aprendizaje automático para ajustar sus modelos en el proceso de formación. Entendamos este concepto en detalle.
Tabla de contenido
Regularización Dodges Overfitting
La regularización en el aprendizaje automático le permite evitar el sobreajuste de su modelo de entrenamiento. El sobreajuste ocurre cuando su modelo captura los datos arbitrarios en su conjunto de datos de entrenamiento. Dichos puntos de datos que no tienen las propiedades de sus datos hacen que su modelo sea 'ruidoso'. Este ruido puede hacer que su modelo sea más flexible, pero puede plantear desafíos de baja precisión.
Considere un salón de clases de 10 estudiantes con el mismo número de niñas y niños. La calificación general de la clase en el examen anual es 70. La calificación promedio de las alumnas es 60 y la de los estudiantes masculinos es 80. Basándonos en estas calificaciones pasadas, queremos predecir las calificaciones futuras de los estudiantes. Las predicciones se pueden hacer de las siguientes maneras:
- Under Fit: toda la clase obtendrá 70 puntos
- Ajuste óptimo: este podría ser un modelo simplista que predice la puntuación de las niñas como 60 y los niños como 80 (igual que la última vez)
- Ajuste excesivo: este modelo puede usar un atributo no relacionado, por ejemplo, el número de lista, para predecir que los estudiantes obtendrán exactamente las mismas calificaciones que el año pasado.
La regularización es una forma de regresión que ajusta la función de error agregando otro término de penalización. Este término adicional evita que los coeficientes tomen valores extremos, equilibrando así la función excesivamente fluctuante.
Cualquier experto en aprendizaje automático se esforzaría por hacer que sus modelos sean precisos y sin errores. Y la clave para lograr este objetivo radica en dominar el equilibrio entre el sesgo y la varianza. Siga leyendo para obtener una imagen clara de lo que esto significa.
Equilibrio de sesgo y varianza
El error de prueba esperado se puede minimizar encontrando un método que logre el equilibrio correcto de 'sesgo-varianza'. En otras palabras, el método de aprendizaje estadístico elegido debería optimizar el modelo al realizar simultáneamente una baja varianza y un sesgo bajo. Un modelo con una varianza alta está sobreajustado, y un sesgo alto da como resultado un modelo infraajustado.

La validación cruzada ofrece otro medio para evitar el sobreajuste. Comprueba si su modelo está captando los patrones correctos del conjunto de datos y estima el error sobre su conjunto de prueba. Entonces, este método básicamente valida la estabilidad de su modelo. Además, decide los parámetros que funcionan mejor para su modelo en particular.
Incrementando la Interpretabilidad del Modelo
El objetivo no es solo obtener un error cero para el conjunto de entrenamiento, sino también predecir los valores objetivo correctos del conjunto de datos de prueba. Por lo tanto, requerimos una función 'sintonizada' que reduzca la complejidad de este proceso.
Explicación de la regularización en el aprendizaje automático
La regularización es una forma de regresión restringida que funciona reduciendo las estimaciones del coeficiente a cero. De esta manera, limita la capacidad de los modelos para aprender del ruido.
Veamos esta ecuación de regresión lineal:
Y= β0+β1X1+β2X2+…..+βpXp
Aquí, β denota las estimaciones de coeficientes para diferentes predictores representados por (X). Y Y es la relación aprendida.
Dado que esta función en sí misma puede encontrar errores, agregaremos una función de error para regularizar las estimaciones aprendidas. Queremos minimizar el error en este caso para que también podamos llamarlo función de pérdida. Así es como se ve esta función de pérdida o Suma Residual de Cuadrados (RSS):
Por lo tanto, los científicos de datos usan la regularización para ajustar la función de predicción. Las técnicas de regularización también se conocen como métodos de contracción o pérdida de peso. Vamos a entender algunos de ellos en detalle.
Regularización de crestas
En Ridge Regression, la función de pérdida se modifica con una cantidad de contracción correspondiente a la suma de los valores cuadrados de β. Y el valor de λ decide cuánto sería penalizado el modelo.
Las estimaciones de coeficientes en Ridge Regression se denominan norma L2. Esta técnica de regularización vendría a su rescate cuando las variables independientes en sus datos estén altamente correlacionadas.
Regularización de lazo
En la técnica de Lasso, se agrega a la función de error una penalización equivalente a la suma de los valores absolutos de β (módulo de β). Se multiplica además con el parámetro λ que controla la fuerza de la penalización. Sólo los coeficientes altos son penalizados en este método.

Las estimaciones de coeficientes producidas por Lasso se conocen como la norma L1. Este método es particularmente beneficioso cuando hay un pequeño número de observaciones con un gran número de características.
Para simplificar los enfoques anteriores, considere una constante, s, que existe para cada valor de λ. Ahora, en la regularización L2, resolvemos una ecuación donde la suma de los cuadrados de los coeficientes es menor o igual que s. Mientras que en la regularización L1, la suma de los módulos de los coeficientes debe ser menor o igual a s.
Leer: Aprendizaje automático frente a redes neuronales
Ambos métodos mencionados anteriormente buscan garantizar que el modelo de regresión no consuma atributos innecesarios. Por esta razón, Ridge Regression y Lasso también se conocen como funciones de restricción.
RSS y predictores de funciones de restricción
Con la ayuda de las explicaciones anteriores, las funciones de pérdida (RSS) para Ridge Regression y Lasso pueden estar dadas por β1² + β2² ≤ s y |β1| + |β2| ≤ s, respectivamente. β1² + β2² ≤ s formaría un círculo, y RSS sería el más pequeño para todos los puntos que se encuentran dentro de él. En cuanto a la función Lasso, el RSS sería el más bajo para todos los puntos que se encuentran dentro del diamante dado por |β1| + |β2| ≤ s.
Ridge Regression reduce las estimaciones de coeficientes para las variables predictoras menos esenciales, pero no las elimina. Por lo tanto, el modelo final puede contener todos los predictores debido a las estimaciones distintas de cero. Por otro lado, Lasso puede forzar que algunos coeficientes sean exactamente cero, especialmente cuando λ es grande.

Leer: Bibliotecas de Python para aprendizaje automático
Cómo la regularización logra un equilibrio
Hay alguna variación asociada con un modelo estándar de mínimos cuadrados. Las técnicas de regularización reducen la varianza del modelo sin aumentar significativamente su sesgo al cuadrado. Y el valor del parámetro de ajuste, λ, orquesta este equilibrio sin eliminar las propiedades críticas de los datos. La penalización no tiene efecto cuando el valor de λ es cero, que es el caso de una regresión ordinaria de mínimos cuadrados.
La varianza solo disminuye a medida que aumenta el valor de λ. Pero esto sucede solo hasta cierto punto, después del cual el sesgo puede comenzar a aumentar. Por lo tanto, seleccionar el valor de este factor de contracción es uno de los pasos más críticos en la regularización.
Conclusión
En este artículo, aprendimos sobre la regularización en el aprendizaje automático y sus ventajas, y exploramos métodos como la regresión de cresta y el lazo. Finalmente, entendimos cómo las técnicas de regularización ayudan a mejorar la precisión de los modelos de regresión. Si recién está comenzando con la regularización, estos recursos aclararán sus conceptos básicos y lo alentarán a dar el primer paso.
Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e inteligencia artificial de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.
¿Cuáles son sus opciones de trabajo después de aprender Machine Learning?
El aprendizaje automático es una de las carreras profesionales más recientes y prometedoras en el campo de la tecnología. A medida que el aprendizaje automático continúa avanzando y expandiéndose, abre nuevas oportunidades laborales para las personas que aspiran a labrarse una carrera en este campo de la tecnología. Los estudiantes y profesionales que quieran trabajar como ingenieros de aprendizaje automático pueden esperar experiencias de aprendizaje gratificantes y emocionantes y, por supuesto, conseguir trabajos con las mejores organizaciones que pagan bien. Desde científicos de datos e ingenieros de aprendizaje automático hasta lingüistas computacionales y diseñadores de aprendizaje automático centrado en el ser humano, y más, hay muchos puestos de trabajo interesantes que puede asumir según sus habilidades y experiencia.
¿Cuánto salario gana un ingeniero de aprendizaje automático por año?
En India, el salario promedio que gana un ingeniero de aprendizaje automático de nivel junior puede oscilar entre 6 y 8,2 lakhs de INR al año. Pero para los profesionales con experiencia laboral de nivel medio, la compensación puede oscilar entre 13 y 15 lakhs de INR en promedio o incluso más. Ahora, el ingreso anual promedio de los ingenieros de aprendizaje automático dependerá de una multitud de factores, como la experiencia laboral relevante, el conjunto de habilidades, la experiencia laboral general, las certificaciones e incluso la ubicación, entre otros. Los profesionales senior de aprendizaje automático pueden ganar alrededor de INR 1 crore al año.
¿Cuál es el conjunto de habilidades necesario para el aprendizaje automático?
Una comprensión básica y cierto nivel de comodidad en temas específicos son beneficiosos si aspira a construir una carrera exitosa en el aprendizaje automático. En primer lugar, debe comprender las probabilidades y las estadísticas. La creación de modelos de aprendizaje automático y la predicción de resultados requiere conocimientos de estadística y probabilidad. A continuación, debe familiarizarse con lenguajes de programación como Python y R, que se utilizan ampliamente en el aprendizaje automático. También se necesitan algunos conocimientos de modelado de datos para el análisis de datos y sólidas habilidades de diseño de software para aprender el aprendizaje automático.