Clasificación del árbol de decisión: todo lo que necesita saber
Publicado: 2020-05-29Tabla de contenido
Introducción
Se podrían llevar muchas analogías de la naturaleza a nuestras vidas reales; los árboles resultan ser uno de los más influyentes. Los árboles han tenido su impacto en un área considerable del aprendizaje automático. Cubren tanto la clasificación esencial como la regresión. Al analizar cualquier decisión, se podría emplear un clasificador de árboles de decisión para representar el proceso de toma de decisiones.
Entonces, básicamente, un árbol de decisión es parte del aprendizaje automático supervisado donde el procesamiento de datos ocurre dividiendo los datos continuamente, teniendo en cuenta un parámetro particular.
¿De qué están hechos los árboles de decisión?
La respuesta a la pregunta es sencilla. Los árboles de decisión están hechos de tres cosas esenciales, la analogía de cada uno de ellos podría dibujarse en un árbol de la vida real. Los tres se enumeran a continuación:
- Nodos: Este es el lugar donde ocurre la prueba del valor. En un nodo, se pasa el valor de un atributo específico y se comprueba y prueba con los valores para tomar una decisión.
- Bordes/Ramas: Esta porción corresponde al resultado de cualquier resultado de prueba. Los bordes/ramas también son responsables de unir dos nodos u hojas diferentes.
- Nodos hoja: estos son los nodos que normalmente se encuentran en las terminales. Los nodos hoja son responsables de predecir el resultado.
Clasificación del árbol de decisión
Los árboles de decisión se pueden clasificar en términos generales en dos categorías, a saber, árboles de clasificación y árboles de regresión.
1. Árboles de clasificación
Los árboles de clasificación son aquellos tipos de árboles de decisión que se basan en responder a las preguntas "Sí" o "No" y utilizar esta información para llegar a una decisión. Entonces, un árbol, que determina si una persona es apta o no apta haciendo un montón de preguntas relacionadas y usando las respuestas para llegar a una solución viable, es un tipo de árbol de clasificación.
Estos tipos de árboles generalmente se construyen empleando un proceso que se denomina partición recursiva binaria. El método de partición recursiva binaria consiste en dividir los datos en módulos o particiones independientes, y luego estas particiones se empalman aún más en cada rama del clasificador del árbol de decisión .

2. Árboles de regresión
Ahora, un tipo de árbol de decisión de regresión es diferente del tipo de árbol de decisión de clasificación en un aspecto. Los datos que se han introducido en los dos árboles son muy diferentes. Los árboles de clasificación manejan los datos, que son discretos, mientras que los árboles de decisión de regresión manejan el tipo de datos continuo. Un buen ejemplo de árboles de regresión sería el precio de la vivienda o cuánto tiempo permanecerá típicamente un paciente en el hospital.
Más información: Regresión lineal en aprendizaje automático
¿Cómo se crean los árboles de decisión?
Los árboles de decisión se crean tomando el conjunto de datos en los que se debe entrenar el modelo (los árboles de decisión son parte del aprendizaje automático supervisado). Este conjunto de datos de entrenamiento se dividirá continuamente en subconjuntos de datos más pequeños. Este proceso se complementa con la creación de un árbol de asociación que se crea de forma incremental en paralelo en el proceso de desglose de los datos. Una vez que la máquina ha terminado de aprender, concluye la creación de un árbol de decisiones basado en el conjunto de datos de entrenamiento que se ha proporcionado, y este árbol se devuelve al usuario.
La idea central detrás del uso de un árbol de decisión es separar los datos en dos regiones principales, la región con la población densa (clúster) o el área, que son regiones vacías (o escasas).
La clasificación del árbol de decisión funciona sobre un principio elemental de división. Conquista donde cualquier nuevo ejemplo que se haya introducido en el árbol, después de pasar por una serie de pruebas, se organizaría y se le daría una etiqueta de clase. El algoritmo de divide y vencerás se analiza en detalle a continuación:
Divide y conquistaras
Es evidente que el clasificador del árbol de decisión se basa y construye haciendo uso de una heurística conocida como partición recursiva, también conocida como el algoritmo divide y vencerás. Desglosa los datos en conjuntos más pequeños y continúa haciéndolo. Hasta que haya determinado que los datos dentro de cada subconjunto son homogéneos, o si el usuario ha definido otro criterio de parada, eso pondría fin a este algoritmo.

¿Cómo funciona el clasificador del árbol de decisión ?
- El algoritmo divide y vencerás se utiliza para crear un clasificador de árboles de decisión . Al hacer uso del algoritmo, siempre comenzamos en la raíz del árbol y también dividimos el conjunto de datos para reducir la incertidumbre en la decisión final.
- Sucede que es un proceso iterativo. Entonces, repetimos este proceso en cada nodo. Este proceso se repite hasta el momento en que no tenemos los nodos de la pureza que deseamos.
- Generalmente, para evitar el sobreajuste establecemos un límite de pureza a alcanzar. Esto significa que el resultado final podría no ser 100 % puro.
Conceptos básicos del algoritmo divide y vencerás:

- Primero viene la elección o selección de una prueba para el nodo raíz. Luego comienza el proceso de creación de sucursales. Las ramas se diseñan teniendo en cuenta cada posible resultado del juicio que se ha definido.
- Luego viene la división de las instancias de datos en subconjuntos más pequeños. Cada rama tendría su propio empalme, que está conectado al nodo.
- Luego, este proceso debe repetirse para cada sucursal utilizando solo las instancias que llegan a la sucursal en cuestión.
- Este proceso recursivo debe detenerse si todas las instancias pertenecen a la misma clase.
Ventajas de utilizar la clasificación del árbol de decisión
- No requiere una enorme cantidad de dinero para construir.
- Es un proceso rápido de clasificación de registros que son nuevos o desconocidos.
- Se puede interpretar muy fácilmente, especialmente si el árbol es de tamaño pequeño.
- La precisión de la predicción utilizando el clasificador de árboles de decisión es comparable a otros métodos de predicción o clasificación.
- También tiene la capacidad de excluir las características que no son importantes. Este proceso de eliminación de características irrelevantes se realiza automáticamente.
Leer: ¿Cómo crear un árbol de decisión perfecto?
Desventajas de usar el clasificador de árboles de decisión
- Sobreajustar el conjunto de datos es muy fácil en este caso.
- El límite de la decisión tiene una restricción. Solo puede ser paralelo a los ejes, que contiene los atributos.
- Los modelos basados en árboles de decisión a menudo tienen divisiones sesgadas que tienen una gran cantidad de niveles.
- Cualquier pequeño cambio realizado en el conjunto de datos puede tener un impacto significativo en la lógica que rige la decisión.
- Los árboles de lager son difíciles de entender porque a veces pueden parecer muy contradictorios.
Lea también: Árboles de decisión en aprendizaje automático
Aprenda cursos de ciencia de datos de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.
Conclusión
Los árboles de decisión son útiles cuando nos enfrentamos a problemas que no se pueden manejar con soluciones lineales. A partir de las observaciones, se ha notado que los modelos basados en árboles pueden mapear fácilmente la no linealidad de las entradas y eliminar efectivamente el problema en cuestión. Los métodos sofisticados como la generación aleatoria de bosques y el aumento de gradiente se basan en el propio clasificador del árbol de decisión .
Los árboles de decisión son una herramienta potente que se puede utilizar en muchas áreas de la vida real, como la ingeniería biomédica, la astronomía, el control de sistemas, los medicamentos, la física, etc. Esto hace que la clasificación del árbol de decisión sea una herramienta crítica e indispensable del aprendizaje automático.
¿Los árboles de decisión tienden a sobreajustarse?
Los árboles de decisión fragmentan los datos complejos en formas más simples. Una clasificación de árbol de decisiones intenta dividir los datos hasta que ya no se pueden dividir más. Luego se crea un cuadro claro de todos los contenidos posibles, lo que ayuda en un análisis posterior. Si bien un árbol extenso con numerosos empalmes nos brinda un camino directo, también puede generar un problema al probar los datos. Este empalme excesivo conduce a un sobreajuste, en el que muchas divisiones hacen que el árbol crezca enormemente. En tales casos, la capacidad predictiva del árbol de decisión se ve comprometida y, por lo tanto, se vuelve poco sólido. La poda es una técnica utilizada para tratar el sobreajuste, donde se eliminan los subconjuntos excesivos.
¿Los árboles de decisión necesitan normalización?
Los árboles de decisión son el algoritmo de aprendizaje automático más común utilizado para la clasificación y regresión de datos. Este mecanismo supervisado divide los datos por subconjunto en varios grupos hasta que llegan al nodo hoja, donde ya no se pueden dividir. Dado que estos datos se dividirán en categorías según los atributos proporcionados, se dividirán de manera uniforme. Transmite que tanto los datos que pasaron por la normalización como los que no, tendrían el mismo número de divisiones. Por lo tanto, la normalización no es un requisito previo para los modelos de árboles basados en decisiones.
¿Cómo empalmar árboles de decisión?
Los árboles de decisión son un mecanismo confiable para clasificar datos y predecir soluciones. El empalme en un árbol de decisión requiere precisión; un pequeño error puede comprometer la integridad del árbol de decisión. El empalme en un árbol de decisión se produce mediante la partición recursiva. La división de datos comienza con la creación de subconjuntos de datos a través de los atributos que se le asignan. Los datos se dividen recursivamente en repetición hasta que los datos empalmados en cada nodo se consideran obsoletos para predecir soluciones. El subconjunto también puede ser similar al valor de la variable objetivo. El empalme tiene que ser metódico y repetitivo para una buena precisión.