Embolsado frente a impulso en el aprendizaje automático: diferencia entre embolsado y potenciado

Publicado: 2020-11-12

Debido a la proliferación de aplicaciones de aprendizaje automático y un aumento en el poder de cómputo, los científicos de datos han implementado algoritmos inherentemente a los conjuntos de datos. La clave para la cual se implementa un algoritmo es la forma en que se producen el sesgo y la varianza. Por lo general, se prefieren los modelos con un sesgo bajo.

Las organizaciones utilizan técnicas de aprendizaje automático supervisado, como árboles de decisión, para tomar mejores decisiones y generar más ganancias. Diferentes árboles de decisión, cuando se combinan, crean métodos de conjunto y brindan resultados predictivos.

El objetivo principal de usar un modelo de conjunto es agrupar un conjunto de alumnos débiles y formar un alumno fuerte. La forma de hacerlo se define en las dos técnicas: Bagging y Boosting que funcionan de manera diferente y se usan indistintamente para obtener mejores resultados con alta precisión y exactitud y menos errores. Con los métodos de conjunto, se reúnen múltiples modelos para producir un modelo poderoso.

Esta publicación de blog presentará varios conceptos de aprendizaje conjunto. En primer lugar, comprender el método de conjunto abrirá caminos hacia métodos relacionados con el aprendizaje y el diseño de soluciones adaptadas. Además, discutiremos los conceptos extendidos de embolsado y potenciado para dar una idea clara a los lectores acerca de cómo estos dos métodos difieren, sus aplicaciones básicas y los resultados predictivos obtenidos de ambos.

Únase a los cursos en línea de aprendizaje automático de las mejores universidades del mundo: maestrías, programas ejecutivos de posgrado y programa de certificado avanzado en ML e IA para acelerar su carrera.

Tabla de contenido

¿Qué es un método de conjunto?

El conjunto es un método utilizado en el algoritmo de aprendizaje automático. En este método, se entrena a múltiples modelos o 'aprendices débiles' para rectificar el mismo problema y se integran para obtener los resultados deseados. Los modelos débiles combinados correctamente dan modelos precisos.

En primer lugar, se necesitan los modelos básicos para configurar un método de aprendizaje conjunto que se agrupará posteriormente. En los algoritmos de embolsado y potenciado, se utiliza un algoritmo de aprendizaje de base única. La razón detrás de esto es que tendremos a mano aprendices débiles homogéneos, que serán entrenados de diferentes maneras.

El modelo de conjunto hecho de esta manera eventualmente se llamará modelo homogéneo. Pero la historia no termina aquí. Hay algunos métodos en los que también se implican diferentes tipos de algoritmos básicos de aprendizaje con estudiantes débiles heterogéneos que crean un "modelo de conjunto heterogéneo". Pero en este blog, solo trataremos con el modelo de conjunto anterior y discutiremos los dos métodos de conjunto más populares adjuntos.

El embolsado es un modelo homogéneo de alumnos débiles que aprenden unos de otros de forma independiente en paralelo y los combina para determinar el promedio del modelo.
Boosting es también un modelo homogéneo de alumnos débiles, pero funciona de manera diferente a Bagging. En este modelo, los alumnos aprenden de forma secuencial y adaptativa para mejorar las predicciones del modelo de un algoritmo de aprendizaje.

Eso fue embolsado y potenciado de un vistazo. Veamos ambos en detalle. Algunos de los factores que causan errores en el aprendizaje son el ruido, el sesgo y la varianza. El método de conjunto se aplica para reducir estos factores, lo que resulta en la estabilidad y precisión del resultado.

Lea también: Ideas de proyectos de aprendizaje automático

Harpillera

Bagging es un acrónimo de 'Bootstrap Aggregation' y se usa para disminuir la varianza en el modelo de predicción. El embolsado es un método paralelo que se adapta a diferentes alumnos considerados de forma independiente entre sí, lo que hace posible entrenarlos simultáneamente.

El embolsado genera datos adicionales para el entrenamiento a partir del conjunto de datos. Esto se logra mediante un muestreo aleatorio con reemplazo del conjunto de datos original. El muestreo con reemplazo puede repetir algunas observaciones en cada nuevo conjunto de datos de entrenamiento. Cada elemento en Bagging tiene la misma probabilidad de aparecer en un nuevo conjunto de datos.

Estos conjuntos de datos múltiples se utilizan para entrenar múltiples modelos en paralelo. Se calcula el promedio de todas las predicciones de diferentes modelos de conjuntos. El voto mayoritario obtenido del mecanismo de votación se considera cuando se realiza la clasificación. El embolsado disminuye la varianza y ajusta la predicción a un resultado esperado.

Ejemplo de embolsado:

El modelo Random Forest utiliza Bagging, donde están presentes modelos de árboles de decisión con mayor varianza. Hace una selección aleatoria de características para hacer crecer árboles. Varios árboles aleatorios forman un bosque aleatorio.

impulsar

El impulso es un método de conjunto secuencial que ajusta iterativamente el peso de la observación según la última clasificación. Si una observación se clasifica incorrectamente, aumenta el peso de esa observación. El término 'Impulsar' en un lenguaje sencillo, se refiere a algoritmos que convierten a un alumno débil en uno más fuerte. Disminuye el error de sesgo y crea modelos predictivos sólidos.

Se detectan los puntos de datos mal pronosticados en cada iteración y se aumentan sus pesos. El algoritmo Boosting asigna pesos a cada modelo resultante durante el entrenamiento. A un alumno con buenos resultados de predicción de datos de entrenamiento se le asignará una mayor ponderación. Al evaluar a un nuevo alumno, Boosting realiza un seguimiento de los errores del alumno.

Ejemplo de refuerzo:

El AdaBoost utiliza técnicas de Boosting, donde se requiere un 50% menos de error para mantener el modelo. Aquí, Boosting puede mantener o descartar a un solo alumno. De lo contrario, se repite la iteración hasta lograr un mejor alumno.

Similitudes y diferencias entre embolsado y potenciado

El embolsado y el impulso, siendo ambos los métodos de uso popular, tienen una similitud universal de ser clasificados como métodos de conjunto. Aquí destacaremos más similitudes entre ellos, seguidas de las diferencias que tienen entre sí. Comencemos primero con las similitudes, ya que comprenderlas facilitará la comprensión de las diferencias.

Embolsado y refuerzo: similitudes

El embolsado y el impulso son métodos de conjunto centrados en obtener N alumnos de un solo alumno.
El embolsado y el impulso realizan muestreos aleatorios y generan varios conjuntos de datos de entrenamiento
El embolsado y el impulso llegan a la decisión final haciendo un promedio de N estudiantes o tomando el rango de votación hecho por la mayoría de ellos.
El embolsado y el impulso reducen la varianza y brindan una mayor estabilidad con errores mínimos.

Leer: Explicación de los modelos de aprendizaje automático

Embolsado y refuerzo: diferencias

Como ya dijimos,

El embolsado es un método para fusionar el mismo tipo de predicciones. Impulsar es un método para fusionar diferentes tipos de predicciones.

El embolsado reduce la varianza, no el sesgo, y resuelve los problemas de sobreajuste en un modelo. El impulso disminuye el sesgo, no la varianza.

En Bagging, cada modelo recibe el mismo peso. En Boosting, los modelos se pesan en función de su rendimiento.

Los modelos se construyen de forma independiente en Bagging. Los nuevos modelos se ven afectados por el rendimiento de un modelo construido previamente en Boosting.

En Bagging, los subconjuntos de datos de entrenamiento se dibujan aleatoriamente con un reemplazo para el conjunto de datos de entrenamiento. En Boosting, cada nuevo subconjunto comprende los elementos que fueron mal clasificados por modelos anteriores.

El embolsado generalmente se aplica cuando el clasificador es inestable y tiene una varianza alta. El impulso generalmente se aplica cuando el clasificador es estable y simple y tiene un alto sesgo.

Embolsado y potenciado: un resumen concluyente

Ahora que hemos descrito a fondo los conceptos de Bagging y Boosting, hemos llegado al final del artículo y podemos concluir cómo ambos son igualmente importantes en Data Science y dónde se aplicará en un modelo depende de los conjuntos de datos dados, su simulación y las circunstancias dadas. Así, por un lado, en un modelo Random Forest se utiliza el Bagging, y el modelo AdaBoost implica el algoritmo Boosting.

El rendimiento de un modelo de aprendizaje automático se calcula comparando su precisión de entrenamiento con la precisión de validación, que se logra dividiendo los datos en dos conjuntos: el conjunto de entrenamiento y el conjunto de validación. El conjunto de entrenamiento se usa para entrenar el modelo y el conjunto de validación se usa para la evaluación.

Puede consultar el Programa Executive PG de IIT Delhi en Machine Learning en asociación con upGrad . IIT Delhi es una de las instituciones más prestigiosas de la India. Con más de 500+ profesores internos que son los mejores en las materias.

¿Por qué es mejor embolsar que impulsar?

A partir del conjunto de datos, el embolsado crea datos adicionales para el entrenamiento. Para lograr esto, se utiliza el muestreo aleatorio y la sustitución del conjunto de datos original. En cada nuevo conjunto de datos de entrenamiento, el muestreo con reemplazo puede repetir ciertas observaciones. Cada elemento de Bagging tiene la misma posibilidad de emerger en un nuevo conjunto de datos. Se entrenan varios modelos en paralelo utilizando estos conjuntos de datos múltiples. Es el promedio de todos los pronósticos de varios modelos de conjuntos. Para determinar la clasificación se tiene en cuenta el voto mayoritario obtenido a través del proceso de votación. El embolsado reduce la variación y ajusta la predicción al resultado deseado.

¿Cuáles son las principales diferencias embolsado y potenciado?

El embolsado es una técnica para reducir la varianza de la predicción mediante la producción de datos adicionales para el entrenamiento a partir de un conjunto de datos mediante la combinación de repeticiones con combinaciones para crear conjuntos múltiples de los datos originales. El impulso es una estrategia iterativa para ajustar el peso de una observación en función de la clasificación anterior. Intenta aumentar el peso de una observación si fue categorizada erróneamente. Boosting crea buenos modelos predictivos en general.

¿Cuáles son las similitudes entre embolsar y aumentar?

El embolsado y el impulso son estrategias de conjunto que tienen como objetivo producir N alumnos a partir de un solo alumno. Muestrean al azar y crean muchos conjuntos de datos de entrenamiento. Llegan a su decisión final promediando los votos de N alumnos o seleccionando el rango de votación de la mayoría de ellos. Reducen la varianza y aumentan la estabilidad mientras reducen los errores.