Pros y contras de la regresión del árbol de decisiones en el aprendizaje automático

Publicado: 2020-12-24

Uno de los algoritmos de aprendizaje automático más populares, la regresión del árbol de decisiones, lo utilizan tanto los competidores como los profesionales de la ciencia de datos. Estos son modelos predictivos que calculan un valor objetivo basado en un conjunto de reglas binarias.

Se utiliza para construir modelos de regresión y clasificación en forma de estructura de árbol. Los conjuntos de datos se dividen en subconjuntos más pequeños en un árbol de decisión, mientras que un árbol de decisión asociado se construye de manera incremental y simultánea.

Se utiliza un árbol de decisión para llegar a una estimación basada en la realización de una serie de preguntas sobre el conjunto de datos. Al hacer estas preguntas de verdadero/falso, el modelo puede reducir los valores posibles y hacer una predicción. El orden y el contenido de la pregunta los decide el propio modelo.

Tabla de contenido

¿Cuáles son los términos del árbol de decisión?

Un árbol de decisión tiene ramas, nodos, hojas, etc. Un nodo raíz es un nodo inicial que representa toda la muestra o población, y puede dividirse en otros nodos o conjuntos homogéneos. Un nodo de decisión consta de dos o más nodos que representan valores separados del atributo probado.

Un nodo hoja/terminal no se divide en otros nodos y representa una decisión. Una rama o subárbol es una subsección de un árbol completo. La división es el proceso de dividir un nodo en dos o más subnodos. Lo opuesto a la división se denomina poda, es decir, la eliminación de subnodos de un nodo de decisión. Un nodo principal es un nodo que se divide en subnodos, y el subnodo es el nodo secundario.

Relacionado: Guía del algoritmo del árbol de decisión

¿Como funciona?

El algoritmo del árbol de decisiones utiliza un punto de datos y recorre todo el árbol haciendo preguntas de verdadero/falso. Comenzando desde el nodo raíz, se hacen preguntas y se crean ramas separadas para cada respuesta, y esto continúa hasta que se alcanza el nodo hoja. La partición recursiva se utiliza para construir el árbol.

Un árbol de decisiones es un modelo de aprendizaje automático supervisado y, por lo tanto, aprende a asignar datos a los resultados en la fase de entrenamiento de la construcción del modelo. Esto se hace ajustando el modelo con datos históricos que deben ser relevantes para el problema, junto con su verdadero valor que el modelo debe aprender a predecir con precisión. Esto ayuda al modelo a aprender las relaciones entre los datos y la variable de destino.

Después de esta fase, el árbol de decisiones puede construir un árbol similar calculando las preguntas y su orden, lo que le ayudará a hacer la estimación más precisa. Por lo tanto, la predicción depende de los datos de entrenamiento que se introducen en el modelo.

¿Cómo se decide la división?

La decisión de dividir es diferente para los árboles de clasificación y regresión, y la precisión de la predicción del árbol depende en gran medida de ello. El error cuadrático medio (MSE) generalmente se usa para decidir si dividir un nodo en dos o más subnodos en una regresión de árbol de decisión . En el caso de un árbol binario, el algoritmo elige un valor y divide los datos en dos subconjuntos, calcula el MSE para cada subconjunto y, como resultado, elige el valor de MSE más pequeño.

Implementación de la regresión del árbol de decisión

La estructura básica para implementar un algoritmo de regresión de árbol de decisión se proporciona en los siguientes pasos.

Importación de bibliotecas

El primer paso para desarrollar cualquier modelo de aprendizaje automático es importar todas las bibliotecas necesarias para el desarrollo.

Cargando los datos

Después de importar bibliotecas, el siguiente paso es cargar el conjunto de datos. Los datos se pueden descargar o utilizar desde las carpetas locales del usuario.

Dividir el conjunto de datos

Una vez que se cargan los datos, deben dividirse en un conjunto de entrenamiento y un conjunto de prueba y crear las variables x e y. Los valores también necesitan ser reformados para convertir los datos en el formato requerido.

Entrenando al modelo

Aquí, el modelo de regresión del árbol de datos se entrena utilizando el conjunto de entrenamiento creado en el paso anterior.

Predecir los resultados

Aquí, los resultados del conjunto de prueba se predicen utilizando el modelo entrenado en el conjunto de entrenamiento.

Evaluación del modelo

El rendimiento del modelo se comprueba comparando los valores reales y los valores predichos en el paso final. La precisión del modelo se puede inferir comparando estos valores. Visualizar los resultados mediante la creación de un gráfico de los valores también ayuda a medir la precisión del modelo.

Leer: ¿Cómo crear un árbol de decisión perfecto?

ventajas

El modelo de árbol de decisiones se puede utilizar tanto para problemas de clasificación como de regresión, y es fácil de interpretar, comprender y visualizar.
La salida de un árbol de decisión también se puede entender fácilmente.
En comparación con otros algoritmos, la preparación de datos durante el procesamiento previo en un árbol de decisión requiere menos esfuerzo y no requiere la normalización de los datos.
La implementación también se puede hacer sin escalar los datos.
Un árbol de decisión es una de las formas más rápidas de identificar las relaciones entre las variables y la variable más significativa.
También se pueden crear nuevas características para una mejor predicción de la variable objetivo.
Los árboles de decisión no están muy influenciados por valores atípicos o faltantes, y pueden manejar variables numéricas y categóricas.
Dado que es un método no paramétrico, no tiene suposiciones sobre las distribuciones espaciales y la estructura del clasificador.

Desventajas

El sobreajuste es una de las dificultades prácticas de los modelos de árboles de decisión. Ocurre cuando el algoritmo de aprendizaje continúa desarrollando hipótesis que reducen el error del conjunto de entrenamiento pero a costa de aumentar el error del conjunto de prueba. Pero este problema se puede resolver mediante la poda y el establecimiento de restricciones en los parámetros del modelo.
Los árboles de decisión no se pueden usar bien con variables numéricas continuas.
Un pequeño cambio en los datos tiende a causar una gran diferencia en la estructura del árbol, lo que genera inestabilidad.
Los cálculos involucrados también pueden volverse complejos en comparación con otros algoritmos, y lleva más tiempo entrenar el modelo.
También es relativamente costoso ya que la cantidad de tiempo que lleva y los niveles de complejidad son mayores.

Conclusión

El algoritmo de regresión del árbol de decisiones se explicó a lo largo de este artículo describiendo cómo se construye el árbol junto con breves definiciones de varios términos relacionados con él. También se incluye una breve descripción de cómo funciona el árbol de decisión y cómo se toma la decisión de dividir cualquier nodo.

También se explicó cómo se puede implementar una regresión de árbol de decisión básica a través de una secuencia de pasos. Por último, se proporcionaron las ventajas y desventajas de un algoritmo de árbol de decisión.

Si está interesado en obtener más información sobre árboles de decisión, aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones. , estado de exalumno de IIIT-B, más de 5 proyectos prácticos finales y asistencia laboral con las mejores empresas.

¿Qué es la regresión en el aprendizaje automático?

La regresión se utiliza para predecir variables continuas. Es cuando tenemos que predecir un número. Por ejemplo, si desea predecir los precios de las casas en una ciudad, en función de características como el tamaño de la casa y el área de la ciudad, se usaría la regresión. Los problemas de regresión son muy fáciles de resolver usando regresión lineal. En pocas palabras, la regresión es el acto de estimar un valor de salida desconocido en función de un valor de entrada.

¿Qué son los árboles de decisión?

Un árbol de decisiones es un diagrama que muestra todas las decisiones posibles y los posibles resultados. Los árboles de decisión a menudo se utilizan para examinar cómo las decisiones influyen en los resultados futuros. Por ejemplo, un árbol de decisiones puede ayudar a una empresa a analizar si debe comprar almacenes adicionales o construir un nuevo centro de distribución. En general, los árboles de decisión se utilizan en la investigación de operaciones y en la ciencia administrativa. Los árboles de decisión son un concepto común y popular en la toma de decisiones y la planificación de programas. Se pueden utilizar para elegir entre cursos de acción cuando algunos de los posibles cursos son mutuamente excluyentes y cuando el resultado de cada curso de acción depende del estado del mundo.

¿Cuáles son las ventajas y desventajas de los árboles de decisión?

El modelo de árboles de decisión se puede utilizar para cualquier clase de problemas, ya sea para clasificación o predicción numérica. Puede extenderse a cualquier clase de problemas. Se puede utilizar tanto para la clasificación supervisada como para la no supervisada. Puede manejar una mezcla de características numéricas y categóricas. Da resultados estables. Sin embargo, es difícil entender la razón detrás de la predicción. Debe entenderse que el modelo no está aprendiendo la mejor división en cada nodo del árbol sino que está aprendiendo la distribución de probabilidad de clase dentro de cada nodo. Este requisito hace que el modelo sea computacionalmente intensivo y evita que maneje grandes cantidades de datos.