¿Qué es el sobreajuste y el desajuste en el aprendizaje automático? [Todo lo que necesitas aprender]

Publicado: 2020-02-18

El aprendizaje automático no es el tema más fácil de dominar. Overfitting y Underfitting son algunos de los muchos términos que son comunes en la comunidad de Machine Learning. La comprensión de estos conceptos sentará las bases para su futuro aprendizaje.

Aprenderemos sobre estos conceptos profundamente en este artículo. También discutiremos la idea básica de estos errores, por qué ocurren y cómo puede corregirlos. También aprenderá un poco sobre los modelos de datos y su relación con estos errores.

Entonces, sin andarnos por las ramas, profundicemos en:

Tabla de contenido

¿Qué es un modelo de datos?

Antes de que comencemos a discutir lo que es Overfitting y Underfitting, primero entendamos qué es un modelo. Un modelo de datos es un sistema para hacer predicciones con la entrada. Se puede decir que un modelo es una teoría para resolver un problema. Por ejemplo, si desea predecir el crecimiento de varias empresas, puede tomar sus ganancias como entrada y generar resultados basados en la relación entre sus ganancias y el crecimiento. El resultado de este ejemplo sería el crecimiento previsto de las empresas.

Entonces, la entrada es el beneficio actual de las empresas, mientras que sus proyecciones de crecimiento son la salida. La relación entre estos dos es el modelo. Los modelos son necesarios para generar productos.

El modelo comprende la relación entre la entrada y la salida a través de un conjunto de datos de entrenamiento. Llamamos características de entrada y etiquetas de salida. Por lo tanto, es posible que también vea estos nombres en el artículo. Durante el entrenamiento del modelo, le dará las características y las etiquetas y dejará que descubra la relación entre ellas. Una vez que haya completado el entrenamiento, puede probar el modelo dándole solo un conjunto de características, cuyas predicciones correctas están disponibles para usted.

Después de que haya generado sus predicciones, las compararía con las predicciones correctas que tiene y vería qué tan preciso fue el modelo. Los modelos son de muchas formas.

Entrenamiento y prueba de datos

Puede darle a su modelo de datos características perfectas cuando es un principiante, pero eso no es lo que sucede en el mundo real. Los datos en el mundo real están llenos de ruido e información inútil. No importa cuál sea la fuente de sus datos, encontrará algunas variables presentes en ellos, que no se ajustan a la tendencia.

En nuestro ejemplo de las proyecciones de crecimiento de las empresas, sabe que su crecimiento no dependería completamente de sus ganancias. Habría muchos factores en juego. Durante el entrenamiento de su modelo, debe agregar algo de ruido para que sea realista. Una vez que haya creado sus datos, tendrá que dividirlos en dos conjuntos para entrenamiento y prueba.

Usaría los datos de entrenamiento para ayudar al modelo a aprender la relación entre las características y las etiquetas. Y usaría los datos de prueba para evaluar su desempeño.

Hay muchas formas de modelos presentes en el mundo de los datos. Elegir uno puede ser un poco desalentador, pero con un poco de práctica, se vuelve más fácil. Un modelo estándar es una regresión polinomial. Es una forma de regresión lineal donde las entradas se elevan a una variedad de potencias. Es una especie de regresión lineal, pero no forma una línea recta. Obtenga más información sobre la implementación de la regresión lineal.

Un polinomio se define por su orden. El orden de un polinomio es la mayor potencia de x en su ecuación. Y el orden del polinomio también muestra su grado. Por ejemplo, una ecuación de línea recta tiene 1 grado.

Importancia de corregir el sobreajuste y el desajuste en el aprendizaje automático

El sobreajuste y el ajuste insuficiente ocurren cuando se trata del grado polinomial de su modelo. Como mencionamos anteriormente, el grado del polinomio depende de la mayor potencia de x en su ecuación. Este valor indica qué tan flexible es su modelo. Si tu modelo tiene un grado alto, tendría mucha más libertad. Con un alto grado, un modelo puede cubrir muchos objetos de datos.

Por otro lado, un modelo con menos grados de los requeridos no podría cubrir suficientes objetos de datos. Ambas situaciones pueden conducir a resultados sucios que no son útiles.

El anterior problema de grado superior al necesario era el Overfitting. Y el segundo problema de menos del grado requerido fue la inadecuación. Como puede ver, ambos pueden ser perjudiciales para su modelo y dañar sus resultados.

Si no solucionó estos problemas, su modelo no le brindará resultados precisos y tendrá etiquetas inútiles para usar.

Ahora que conocemos su concepto básico, analicemos cada uno de ellos en detalle:

¿Qué es el sobreajuste?

Cuando un algoritmo de aprendizaje automático comienza a registrar ruido dentro de los datos, lo llamamos sobreajuste. En palabras más simples, cuando el algoritmo comienza a prestar demasiada atención a los pequeños detalles. En el aprendizaje automático, el resultado es predecir el resultado probable y, debido al sobreajuste, puede dificultar mucho su precisión. Sabemos que suena como algo bueno, pero no lo es.

Un ejemplo severo de sobreajuste en el aprendizaje automático puede ser un gráfico donde todos los puntos se conectan linealmente. Queremos capturar la tendencia, pero el gráfico no hace eso.

Un modelo que no puede hacer buenas predicciones pero aprende todo lo posible de los datos es inútil, ya que conduce a resultados inexactos.

¿Qué hacer cuando notas Overfitting?

Podemos solucionar este problema simplemente disminuyendo la cantidad de datos que usa el algoritmo y no sobrecargando el sistema. La alta varianza (Sobreajuste) empeora las cosas. Algunas de las técnicas convencionales utilizadas para solucionar el Overfitting son las siguientes:

Disminución de las iteraciones

Al reducir la cantidad de repeticiones que se ejecutan antes de que ocurra el sobreajuste, podemos evitar que suceda. Puede encontrar la cantidad exacta de iteraciones mediante el método de prueba y error.

regularización

Restringe las estimaciones de los coeficientes, que están cerca de 0. En palabras más simples, podemos decir que le dice al algoritmo que use un modelo más indulgente en lugar de uno rígido. Obtenga más información sobre la regularización y cómo evitar el sobreajuste.

Poda (estándar)

La forma más fácil y común de evitar el sobreajuste es la poda. Se deshace de cualquier nodo que agregue poco o ningún poder predictivo.

Validación cruzada quíntuple

El uso de la validación cruzada es uno de los métodos menos complicados para verificar el sobreajuste.

¿Qué es Underfitting?

Como sugiere el nombre, Underfitting es cuando el modelo no se ajusta lo suficiente como para brindarle resultados. Un modelo de datos inadecuado no sabe cómo apuntar a suficientes objetos de datos. Con un grado menor, el gráfico termina perdiendo la mayoría de las características presentes.

En otras palabras, el modelo es 'demasiado simple' para generar resultados si no es adecuado. Sin embargo, resolver este problema es bastante más cómodo y no requiere tanto esfuerzo como anteriormente lo requería Overfitting.

¿Qué hacer cuando notas Underfitting?

Si tu modelo no es apto, deberías darle más funciones. Con más características, tendrá un espacio de hipótesis más grande. Puede usar ese espacio para generar resultados precisos. Detectar el ajuste insuficiente es más cómodo en comparación con el ajuste excesivo, por lo que no tendrá ningún problema para identificar este error. Sin embargo, solo debe aumentar las funciones y no todos los datos cuando se trata de un modelo inadecuado. Expandir los datos da como resultado más errores en este caso.

Leer: Ideas interesantes para proyectos de aprendizaje automático

Golpea el punto dulce

En el aprendizaje automático, le gustaría que su modelo de datos se mantuviera entre ajuste insuficiente y ajuste excesivo. No debe cubrir demasiados puntos de datos ni muy pocos. A medida que entrene más su modelo, podrá mejorarlo aún más y corregir sus errores. Los errores de su modelo comenzarán a caer en números con el conjunto de entrenamiento y el conjunto de prueba.

Una excelente manera de alcanzar el punto óptimo entre el sobreajuste y el ajuste insuficiente es dejar de entrenar su modelo antes de que sus errores comiencen a aumentar. Es una solución general, que puede usar además de los métodos que hemos mencionado anteriormente en este artículo.

Conclusión

Todos los profesionales de datos se enfrentan al problema del sobreajuste y el desajuste. Entrenar un modelo de datos no es fácil y se necesita mucha práctica para familiarizarse con ellos. Sin embargo, con la experiencia, comenzará a identificar los problemas desde el principio y evitará por completo las causas de los errores.

Es vital estar familiarizado con tales errores si desea convertirse en un experto en aprendizaje automático. Si está interesado en obtener más información sobre el aprendizaje automático y la ciencia de datos, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones. , estado de exalumno de IIIT-B, más de 5 proyectos prácticos finales y asistencia laboral con las mejores empresas.

Prepárese para una carrera del futuro

DIPLOMA PG EN MACHINE LEARNING E INTELIGENCIA ARTIFICIAL

Aprende más