Guía del algoritmo del árbol de decisiones: aplicaciones, pros y contras y ejemplo
Publicado: 2020-12-10Hay varios tipos de algoritmos de Machine Learning, y cada uno de ellos tiene aplicaciones únicas. En este artículo, veremos uno de los algoritmos de ML más populares y útiles, el algoritmo del árbol de decisión. Hemos discutido un ejemplo del árbol de decisión en R para ayudarlo a familiarizarse con su uso. Empecemos.
Tabla de contenido
¿Qué es un algoritmo de árbol de decisión?
Un árbol de decisiones es un tipo de algoritmo de aprendizaje automático supervisado que tiene un nodo raíz y nodos hoja. Cada nodo representa una característica y los enlaces entre los nodos muestran la decisión. Cada hoja representa un resultado.
Supón que quieres ir al mercado a comprar verduras. Tienes dos opciones: o vas, o no vas. Si no vas, no obtendrás las verduras, pero si lo haces, tendrás que llegar al mercado, lo que lleva a otra sección de elección. Un árbol de decisión funciona así.
Aplicaciones de árboles de decisión
Estas son algunas aplicaciones de los árboles de decisión:
Márketing:
Las empresas pueden utilizar árboles de decisión para mejorar la precisión de sus campañas promocionales al observar el desempeño de los productos y servicios de sus competidores. Los árboles de decisión pueden ayudar en la segmentación de la audiencia y ayudar a las empresas a producir anuncios mejor orientados que tengan tasas de conversión más altas.
Retención de Clientes:
Las empresas utilizan árboles de decisión para la retención de clientes mediante el análisis de sus comportamientos y el lanzamiento de nuevas ofertas o productos que se adapten a esos comportamientos. Mediante el uso de modelos de árboles de decisión, las empresas también pueden determinar los niveles de satisfacción de sus clientes.
Diagnóstico de Enfermedades y Dolencias:
Los árboles de decisión pueden ayudar a los médicos y profesionales médicos a identificar a los pacientes que corren un mayor riesgo de desarrollar enfermedades graves (o prevenibles), como diabetes o demencia. La capacidad de los árboles de decisión para reducir las posibilidades de acuerdo con variables específicas es muy útil en tales casos.
Detección de Fraudes:
Las empresas pueden prevenir el fraude utilizando árboles de decisión para identificar el comportamiento fraudulento de antemano. Puede ahorrar a las empresas una gran cantidad de recursos, incluidos tiempo y dinero.
Ventajas y desventajas de los árboles de decisión
Ventajas del algoritmo del árbol de decisión:
Las siguientes son las principales ventajas de usar un árbol de decisión en R:
- Comprender los resultados es más fácil que otros modelos. Puede hacer que el equipo técnico programe su modelo de árbol de decisión para que funcione más rápido y pueda aplicarlo a nuevas instancias. Sus cálculos tienen pruebas de inclusión según una instancia, que es un modelo cualitativo o cuantitativo.
- Es no paramétrico. Las variables independientes presentes en nuestro problema no tienen que seguir ninguna distribución de probabilidad específica por este motivo. Puede tener variables colineales. Ya sea que discriminen o no, no tiene un impacto en su árbol de decisiones porque no tiene que elegir esas variables.
- Son capaces de trabajar con valores faltantes. CHAID coloca todos los valores que faltan en una categoría, que puede fusionar con otra o mantener separados de los demás.
- Los valores individuales extremos (como los valores atípicos) no tienen mucho efecto en los árboles de decisión. Puede aislarlos en pequeños nodos para que no afecten a toda la clasificación.
- Le da una gran representación visual de un proceso de toma de decisiones. Cada rama de un árbol de decisiones representa los factores que pueden afectar sus decisiones, y puede ver una imagen más grande. Puede utilizar árboles de decisión para mejorar la comunicación en su equipo.
- Los árboles CART pueden manejar todos los tipos de variables directamente, incluidas las variables cualitativas, continuas y discretas.
Desventajas del algoritmo del árbol de decisión
- No analiza todas las variables independientes simultáneamente. En cambio, los evalúa secuencialmente. Debido a esto, el árbol nunca revisa la división de un nodo en ningún nivel, lo que puede causar sesgos en las elecciones del árbol.
- Modificar incluso una sola variable puede afectar a todo el árbol si está cerca de la parte superior. Hay maneras de resolver este problema. Por ejemplo, puede construir el árbol en varias muestras y agregarlas según una media (o voto); esto se llama remuestreo. Sin embargo, conduce a otro conjunto de problemas, ya que reduce la legibilidad del modelo haciéndolo más complejo. Entonces, a través del remuestreo, puede deshacerse de las mejores cualidades de los árboles de decisión. Por qué es un problema? Supongamos que una variable tiene todas las cualidades de un grupo en particular, pero también tiene la cualidad según la cual se divide el árbol. En este caso, el árbol lo colocaría en la clase incorrecta solo porque tiene esa importante cualidad.
- Todos los nodos de un nivel específico en un árbol de decisión dependen de los nodos en sus niveles anteriores. En otras palabras, cómo define los nodos en el nivel 'n +1' depende completamente de su definición para los nodos en el nivel 'n'. Si su definición en el nivel 'n' es incorrecta, todos los niveles posteriores y los nodos presentes en esos niveles también serían incorrectos.
Aprender: regresión lineal en aprendizaje automático

Árbol de decisión en R (Ejemplo)
Necesitará rpart para construir un árbol de decisiones en R. Usamos rpart para la clasificación. En R, construye un árbol de decisión sobre la base de un algoritmo de partición recursivo que genera una decisión y, junto con ella, árboles de regresión. Tiene dos pasos:
- Primero, identificará una variable que divida los datos en dos grupos separados de la mejor manera posible.
- En segundo lugar, repetirá el proceso del paso anterior en cada subgrupo hasta que esos grupos alcancen un tamaño particular o si ya no puede realizar mejoras en esos subgrupos.
Tenemos los siguientes datos como ejemplo:
En los datos anteriores, tienes el tiempo y la aceleración de una bicicleta. Tenemos que predecir su aceleración en función del tiempo. Lo haremos haciendo lo siguiente:
1biblioteca(parte)
Luego carga los datos:
1datos(bicicleta)
Ahora, crearemos un diagrama de dispersión:
1plot(aceleración~tiempos,datos=bicicleta)
Una vez que hayamos hecho eso, crearemos el árbol:
1mct <- rpart(accel ~ veces, datos=bicicleta)
Nuestro paso final es trazar el gráfico:
1 Parcela (mct)
Leer: ¿Cómo crear un árbol de decisión perfecto?
Pensamientos finales
Ahora tenemos un modelo que funciona perfectamente del árbol de decisiones en R. Puede encontrar más tutoriales similares en nuestro blog.
Si está interesado en obtener más información sobre árboles de decisión, aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones. , estado de exalumno de IIIT-B, más de 5 proyectos prácticos finales y asistencia laboral con las mejores empresas.
¿Cuál es la característica más significativa en un algoritmo de árbol de decisión?
Los algoritmos de árboles de decisión son una herramienta valiosa para el análisis de decisiones y riesgos y, a menudo, se expresan como un gráfico o una lista de reglas. La sencillez de uso de los algoritmos de árboles de decisión es una de sus características más esenciales. Son fácilmente comprensibles y relevantes ya que son visuales. Incluso si los usuarios no están familiarizados con la construcción de algoritmos de árboles de decisión, pueden aplicarlos con éxito. Los algoritmos de árboles de decisión se emplean con mayor frecuencia para anticipar eventos futuros en función de la experiencia previa y ayudar en la toma de decisiones racional. Otro campo importante de los algoritmos de árboles de decisión es la minería de datos, donde los árboles de decisión se utilizan como una herramienta de clasificación y modelado, como se analiza más adelante.
¿Qué tan importante es un algoritmo de árbol de decisión?
Un algoritmo de árbol de decisiones tiene la importante ventaja de forzar el análisis de todos los resultados concebibles de una decisión y rastrear cada camino hacia una conclusión. Genera un estudio detallado de las implicaciones a lo largo de cada rama e indica los nodos de decisión que requieren más investigación. Además, a cada dificultad, ruta de decisión y resultado se le asigna un valor único mediante algoritmos de árboles de decisión. Este método destaca las rutas de decisión importantes, reduce la incertidumbre, elimina la ambigüedad y aclara las implicaciones financieras de los cursos de acción alternativos. Cuando la información objetiva no está disponible, los usuarios pueden usar algoritmos de árbol de decisión para poner las opciones en perspectiva entre sí para comparaciones simples usando probabilidades para las circunstancias.
¿En qué técnica se basa el algoritmo del árbol de decisión?
El algoritmo del árbol de decisión se basa en la técnica del árbol de decisión, que se puede utilizar para problemas de clasificación y regresión. El nombre implica el uso de una estructura de árbol similar a un diagrama de flujo para mostrar las predicciones resultantes de una sucesión de divisiones basadas en características. Comienza con un nodo raíz y concluye con una decisión hoja. Un árbol de decisión se compone de tres tipos de nodos, es decir, cuadrados que comúnmente representan nodos de decisión, nodos de azar que generalmente se representan en círculos y triángulos que simbolizan nodos finales.
