Regularización en Deep Learning: todo lo que necesitas saber
Publicado: 2020-11-16Uno de los mayores problemas que enfrentan los científicos de datos o los ingenieros de aprendizaje automático es la complejidad involucrada en la creación de algoritmos que funcionan bien en los datos de entrenamiento, así como en las nuevas entradas. Se utilizan muchas técnicas en el aprendizaje automático para minimizar o eliminar por completo el error de prueba. Esto se hace, en algunas ocasiones, sin importar demasiado el aumento del error de entrenamiento. Todas estas técnicas juntas se conocen comúnmente como regularización.
En términos más simples, la regularización son cambios realizados en un algoritmo de aprendizaje para minimizar su error de generalización sin centrarse demasiado en reducir su error de entrenamiento. Hay varias técnicas de regularización disponibles, cada una de las cuales trabaja en un aspecto diferente de un algoritmo de aprendizaje o red neuronal, y cada una conduce a un resultado diferente.
Existen técnicas de regularización que imponen restricciones adicionales a un modelo de aprendizaje, como restricciones en los valores de los parámetros. Hay quienes ponen restricciones en los valores de los parámetros. Si la técnica de regularización se elige con cuidado, puede conducir a un mejor rendimiento en el modelo de datos de prueba.
Tabla de contenido
¿Por qué necesitamos la regularización de la red neuronal?
Las redes neuronales profundas son modelos de aprendizaje complejos que están expuestos al sobreajuste, debido a su naturaleza flexible de memorizar patrones de conjuntos de entrenamiento individuales en lugar de adoptar un enfoque generalizado hacia datos irreconocibles. Por eso es tan importante la regularización de las redes neuronales. Le ayuda a mantener el modelo de aprendizaje fácil de entender para permitir que la red neuronal generalice los datos que no puede reconocer.
Entendamos esto con un ejemplo. Supongamos que tenemos un conjunto de datos que incluye valores de entrada y salida. Supongamos también que existe una verdadera relación entre estos valores. Ahora bien, uno de los objetivos del aprendizaje profundo es establecer una relación aproximada entre los valores de entrada y salida. Entonces, para cada conjunto de datos, existen dos modelos que pueden ayudarnos a definir esta relación: el modelo simple y el modelo complejo.
En el modelo simple, existe una línea recta que solo incluye dos parámetros que definen la relación en cuestión. Una representación gráfica de este modelo contará con una línea recta que pasa cerca del centro del conjunto de datos en cuestión, asegurando que haya muy poca distancia entre la línea y los puntos por debajo y por encima de ella.

Lea también: Ideas de proyectos de aprendizaje automático
Por otro lado, el modelo complejo tiene varios parámetros, dependiendo del conjunto de datos. Sigue la ecuación polinomial, que le permite pasar por todos los puntos de datos de entrenamiento. Con el aumento gradual de la complejidad, el error de entrenamiento alcanzará el valor cero y el modelo memorizará los patrones individuales del conjunto de datos. A diferencia de los modelos simples que no son muy diferentes entre sí incluso cuando se entrenan en diferentes conjuntos de datos, no se puede decir lo mismo de los modelos complejos.
¿Qué son el sesgo y la varianza?
En términos simples, el sesgo es una medida de la distancia que existe entre la línea de población real y el promedio de los modelos que se entrenan en diferentes conjuntos de datos. El sesgo tiene un papel muy importante a la hora de decidir si vamos a tener o no un buen intervalo de predicción. Lo hace calculando qué tan cerca ha llegado la función promedio a la relación verdadera.
Lea también: Salario de ingeniero de aprendizaje automático en India
La varianza cuantifica la variación estimada para una función promedio. La varianza determina cuánta desviación muestra un modelo que se está modelando en un conjunto de datos específico cuando se entrena en diferentes conjuntos de datos a lo largo de todo su viaje de predicción. Ya sea que un algoritmo tenga un sesgo alto o una varianza alta, podemos hacer varias modificaciones para que funcione mejor.
¿Cómo podemos lidiar con un alto sesgo?
- Entrénalo por períodos de tiempo más largos.
- Use una red más grande con unidades o capas ocultas
- Pruebe una mejor arquitectura de red neuronal o algoritmos de optimización avanzados
¿Cómo podemos lidiar con la alta varianza (sobreajuste)?
- regularización
- Adición de datos
- Encuentre una mejor arquitectura de red neuronal
Con los algoritmos de aprendizaje profundo existentes, somos libres de continuar entrenando redes neuronales más grandes para minimizar el sesgo sin tener ninguna influencia en la varianza. De manera similar, podemos continuar agregando datos para minimizar la varianza sin tener ningún impacto en el valor del sesgo. Además, si estamos lidiando con un alto sesgo y una alta varianza, podemos reducir esos valores utilizando la técnica correcta de regularización de aprendizaje profundo.

Como se discutió, un aumento en la complejidad del modelo da como resultado un aumento en el valor de la varianza y una disminución en el del sesgo. Con la técnica de regularización correcta, puede trabajar para reducir tanto el error de prueba como el de entrenamiento y, por lo tanto, permitir un equilibrio ideal entre la varianza y el sesgo.
Técnicas de Regularización
Estas son tres de las técnicas de regularización más comunes:
1. Aumento de conjuntos de datos
¿Cuál es la forma más fácil de generalizar? La respuesta es bastante simple, pero su implementación no lo es. Solo necesita entrenar ese modelo en un conjunto de datos lager. Sin embargo, esto no es viable en la mayoría de las situaciones, ya que la mayoría de las veces tratamos con datos limitados. La mejor solución posible que se puede realizar para varios problemas de aprendizaje automático es crear datos sintéticos o falsos para agregar a su conjunto de datos existente. Entonces, si está tratando con datos de imágenes, las formas más fáciles de crear datos sintéticos incluyen el escalado, la traducción de píxeles de la imagen y la rotación.
2. Parada temprana
Un escenario de entrenamiento muy común que conduce al sobreajuste es cuando un modelo se entrena en un conjunto de datos relativamente más grande. En esta situación, el entrenamiento del modelo durante un mayor período de tiempo no daría como resultado una mayor capacidad de generalización; en cambio, conduciría a un sobreajuste.
Después de cierto punto en el proceso de entrenamiento y después de una reducción significativa en el error de entrenamiento, llega un momento en que el error de validación comienza a aumentar. Esto significa que ha comenzado el sobreajuste. Mediante el uso de la técnica de parada anticipada, detenemos el entrenamiento de los modelos y mantenemos los parámetros tal como están tan pronto como vemos un aumento en el error de validación.

3. L1 y L2
L1 y L2 realizan la técnica de regularización de Weight Penalty que se utiliza bastante para entrenar modelos. Funciona con la suposición de que hace que los modelos con pesos más grandes sean más complejos que aquellos con pesos más pequeños. El papel de las sanciones en todo esto es asegurar que los pesos sean cero o muy pequeños. La única excepción es cuando hay grandes gradientes para contrarrestar. La penalización de peso también se conoce como disminución de peso, lo que significa la disminución de pesos a una unidad más pequeña o cero.
Norma L1: Permite que algunos pesos sean grandes y lleva algunos a cero. Penaliza el valor real de un peso.
Norma L2: Impulsa todos los pesos hacia valores más pequeños. Penaliza el valor del cuadrado de un peso.
Conclusión
En esta publicación, aprendiste sobre la regularización de redes neuronales en el aprendizaje profundo y sus técnicas. Seguramente esperamos que esto haya aclarado la mayoría de sus consultas sobre el tema.
Si está interesado en saber más sobre el aprendizaje profundo y la inteligencia artificial, consulte nuestro programa PG Diploma in Machine Learning and AI, que está diseñado para profesionales que trabajan y proporciona más de 30 estudios de casos y asignaciones, más de 25 sesiones de tutoría de la industria, más de 5 manos prácticas -en proyectos finales, más de 450 horas de capacitación rigurosa y asistencia para la colocación laboral con las mejores empresas.
¿Cuál es la ventaja de L1 sobre la regularización de L2?
Dado que la regularización L1 reduce los coeficientes beta o los hace más pequeños a casi cero, es esencial para terminar con características sin importancia. La regularización L2, por otro lado, reduce los pesos uniformemente y solo se aplica cuando la multicolinealidad está presente en los datos mismos. Por lo tanto, la regularización L1 se puede utilizar para la selección de características, lo que le da una ventaja sobre la regularización L2.
¿Cuáles son los beneficios y desafíos del aumento de datos?
Los beneficios incluyen mejorar la precisión de los modelos de predicción mediante la adición de más datos de entrenamiento, evitando que los datos se vuelvan escasos para mejores modelos y aumentando la capacidad de los modelos para generalizar una salida. También reduce el costo de recopilar datos y luego etiquetarlos. Los desafíos incluyen el desarrollo de nuevas investigaciones para crear datos sintéticos con aplicaciones avanzadas para dominios de aumento de datos. Además, si los conjuntos de datos reales contienen sesgos, los datos aumentados también los contendrán.
¿Cómo manejamos el alto sesgo y la alta varianza?
Lidiar con un alto sesgo significa entrenar conjuntos de datos durante períodos de tiempo más largos. Para eso, se debe usar una red más grande con capas ocultas. Además, se deberían aplicar mejores redes neuronales. Para manejar una alta varianza, se debe iniciar la regularización, se deben agregar datos adicionales y, de manera similar, se debe enmarcar una mejor arquitectura de red neuronal.