Validación cruzada en Machine Learning: 4 tipos de validación cruzada

Publicado: 2020-11-30

Tabla de contenido

Introducción

El desarrollo de modelos es un paso crucial en el ciclo de vida de un proyecto de ciencia de datos en el que intentaremos entrenar nuestro conjunto de datos con diferentes tipos de modelos de aprendizaje automático, ya sea de algoritmos supervisados o no supervisados, basados en el problema comercial.

Como somos conscientes de que tenemos muchos modelos que se pueden usar para resolver un problema comercial, debemos asegurarnos de que cualquier modelo que seleccionemos al final de esta fase funcione bien en los datos ocultos. Por lo tanto, no podemos simplemente ir con las métricas de evaluación para seleccionar nuestro modelo de mejor rendimiento.

Necesitamos algo más aparte de la métrica que pueda ayudarnos a decidir sobre nuestro modelo final de aprendizaje automático que podemos implementar en producción.

El proceso de determinar si los resultados matemáticos que calculan las relaciones entre variables son aceptables como descripciones de los datos se conoce como Validación . Por lo general, se realiza una estimación de error para el modelo después de entrenar el modelo en el conjunto de datos del tren, mejor conocido como evaluación de residuos.

En este proceso, medimos el error de entrenamiento calculando la diferencia entre la respuesta prevista y la respuesta original. Pero no se puede confiar en esta métrica porque funciona bien solo con los datos de entrenamiento. Es posible que el modelo se ajuste por debajo o por encima de los datos.

Entonces, el problema con esta técnica de evaluación o cualquier otra métrica de evaluación es que no brinda una indicación de qué tan bien funcionará el modelo en un conjunto de datos no visto. La técnica que ayuda a saber esto de nuestro modelo se conoce como Cross-Validation .

En este artículo, conoceremos más sobre los diferentes tipos de técnicas de validación cruzada, los pros y los contras de cada técnica. Comencemos con la definición de validación cruzada.

Validación cruzada

La validación cruzada es una técnica de remuestreo que ayuda a que nuestro modelo esté seguro de su eficiencia y precisión en los datos ocultos. Es un método para evaluar modelos de Machine Learning entrenando varios otros modelos de Machine Learning en subconjuntos del conjunto de datos de entrada disponible y evaluándolos en el subconjunto del conjunto de datos.

Tenemos diferentes tipos de técnicas de validación cruzada, pero veamos la funcionalidad básica de la validación cruzada: el primer paso es dividir el conjunto de datos limpio en K particiones de igual tamaño.

Luego, debemos tratar el Fold-1 como un pliegue de prueba mientras que el otro K-1 se dobla como un tren y calcular la puntuación del pliegue de prueba.
Necesitamos repetir el paso 2 para todos los pliegues tomando otro pliegue como prueba mientras permanecemos como un tren.
El último paso sería tomar el promedio de puntajes de todos los pliegues.

Leer: Proyectos de aprendizaje automático para principiantes

Tipos de validación cruzada

1. Método de retención

Esta técnica funciona eliminando una parte del conjunto de datos de entrenamiento y enviándolo a un modelo que fue entrenado con el resto del conjunto de datos para obtener las predicciones. Luego calculamos la estimación del error que indica cómo está funcionando nuestro modelo en conjuntos de datos no vistos. Esto se conoce como el método de retención.

ventajas

Este método es totalmente independiente de los datos.
Este método solo necesita ejecutarse una vez, por lo que tiene costos computacionales más bajos.

Contras

El rendimiento está sujeto a una mayor variación dado el menor tamaño de los datos.

2. Validación cruzada de K-Fold

En un mundo basado en datos, nunca hay suficientes datos para entrenar su modelo, además de eso, eliminar una parte para la validación plantea un problema mayor de subajuste y corremos el riesgo de perder patrones y tendencias importantes en nuestro conjunto de datos, que a su vez aumenta el sesgo. Entonces, idealmente, necesitamos un método que proporcione una gran cantidad de datos para entrenar el modelo y deje una gran cantidad de datos para los conjuntos de validación.

En la validación cruzada K-Fold, los datos se dividen en k subconjuntos o podemos tomarlo como un método de retención repetido k veces, de modo que cada vez, uno de los k subconjuntos se usa como conjunto de validación y el otro k-1 subconjuntos como el conjunto de entrenamiento. El error se promedia sobre todos los k intentos para obtener la eficiencia total de nuestro modelo.

Podemos ver que cada punto de datos estará en un conjunto de validación exactamente una vez y estará en un conjunto de entrenamiento k-1 tiempo. Esto nos ayuda a reducir el sesgo, ya que usamos la mayoría de los datos para el ajuste y reduce la varianza, ya que la mayoría de los datos también se usan en el conjunto de validación.

ventajas

Esto ayudará a superar el problema del poder computacional.
Es posible que los modelos no se vean muy afectados si hay un valor atípico en los datos.
Nos ayuda a superar el problema de la variabilidad.

Contras

Los conjuntos de datos desequilibrados afectarán nuestro modelo.

3. Validación cruzada estratificada de K-Fold

La técnica K Fold Cross Validation no funcionará como se esperaba para un conjunto de datos desequilibrados. Cuando tenemos un conjunto de datos desequilibrado, necesitamos un ligero cambio en la técnica de validación cruzada de K Fold, de modo que cada pliegue contenga aproximadamente los mismos estratos de muestras de cada clase de salida que el completo. Esta variación de usar un estrato en K Fold Cross Validation se conoce como Stratified K Fold Cross Validation.

ventajas

Puede mejorar diferentes modelos mediante el ajuste de hiperparámetros.
Nos ayuda a comparar modelos.
Ayuda a reducir tanto el sesgo como la varianza.

4. Validación cruzada de Leave-P-Out

En este enfoque, dejamos p puntos de datos fuera de los datos de entrenamiento de un total de n puntos de datos, luego se usan np muestras para entrenar el modelo y p puntos se usan como conjunto de validación. Esto se repite para todas las combinaciones y luego se promedia el error.

ventajas

Tiene cero aleatoriedad
El sesgo será menor

Contras

Este método es exhaustivo y computacionalmente inviable.

Lea también: Carrera en aprendizaje automático

Conclusión

En este artículo, aprendimos sobre la importancia de la validación de un modelo de aprendizaje automático en el ciclo de vida del proyecto de ciencia de datos, conocimos qué es la validación y la validación cruzada, exploramos los diferentes tipos de técnicas de validación cruzada, conocimos algunos ventajas y desventajas de estas técnicas.

Si está interesado en obtener más información sobre el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, IIIT- B Estado de exalumno, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿Cuál es la necesidad de validación cruzada en el aprendizaje automático?

La validación cruzada es una técnica de aprendizaje automático en la que los datos de entrenamiento se dividen en dos partes: un conjunto de entrenamiento y un conjunto de prueba. El conjunto de entrenamiento se usa para construir el modelo, y el conjunto de prueba se usa para evaluar qué tan bien se desempeña el modelo cuando está en producción. La razón para hacer esto es que existe el riesgo de que el modelo que ha creado no funcione bien en el mundo real. Si no realiza una validación cruzada de su modelo, existe el riesgo de que haya creado un modelo que funcione muy bien en los datos de entrenamiento, pero que no funcione bien en los datos del mundo real.

¿Qué es la validación cruzada k-fold?

En el aprendizaje automático y la minería de datos, la validación cruzada de k veces, a veces llamada validación cruzada de dejar uno fuera, es una forma de validación cruzada en la que los datos de entrenamiento se dividen en k subconjuntos aproximadamente iguales, con cada uno de los k- 1 subconjuntos utilizados como datos de prueba a su vez y el subconjunto restante utilizado como datos de entrenamiento. K es a menudo 10 o 5. La validación cruzada de K-fold es particularmente útil en la selección de modelos, ya que reduce la varianza de las estimaciones del error de generalización.

¿Cuáles son las ventajas de la validación cruzada?

La validación cruzada es una forma de validación en la que el conjunto de datos se divide en un conjunto de entrenamiento y un conjunto de prueba (o conjunto de validación cruzada). Este conjunto se utiliza luego para probar la precisión de su modelo. En otras palabras, le brinda una metodología para medir qué tan bueno es su modelo basado en una muestra de sus datos. Por ejemplo, se usa para estimar el error del modelo que es inducido por la discrepancia entre la entrada de entrenamiento y la entrada de prueba.