Decision Tree Entrevista Preguntas y respuestas [Para principiantes y experimentados]

Publicado: 2020-09-22

En el mundo del aprendizaje automático, los árboles de decisión son uno de ellos, si no el más respetable, algoritmo. Los árboles de decisión también son poderosos. Los árboles de decisión se utilizan para predecir los valores continuos (regresión) o predecir clases (realizar clasificación o clasificar) de las instancias proporcionadas al algoritmo.

Los árboles de decisión son similares a un diagrama de flujo en su estructura. El nodo de cualquier árbol de decisión representa una prueba realizada en el atributo. Todas y cada una de las ramas del árbol de decisión son representativas de los resultados del examen realizado en cada nodo. El nodo de cada hoja (que también se conoce como nodos terminales) contiene la etiqueta de la clase.

Eso fue sobre la estructura del árbol; sin embargo, el aumento de la popularidad de los árboles de decisión no se debe a la forma en que se crean. La transparencia del árbol le otorga una posición propia en el mundo dominado por potentes y útiles algoritmos. De hecho, puede hacer todo a mano para un árbol de decisión pequeño y puede predecir cómo se formaría el árbol de decisión. Para árboles de mayor tamaño, este ejercicio se vuelve bastante tedioso.

Sin embargo, eso no significa que no podrá comprender qué está haciendo el árbol en cada nodo. La capacidad de comprender lo que sucede detrás de escena o debajo del capó realmente diferencia los árboles de decisión con cualquier otro algoritmo de aprendizaje automático que exista.

Como hemos visto cuán vitales son los árboles de decisión, es inherente que los árboles de decisión también sean críticos para cualquier profesional de aprendizaje automático o científico de datos. Para ayudarlo a comprender este concepto y, al mismo tiempo, ayudarlo a obtener ese toque extra en su estilo de entrevista, hemos hecho una lista completa de preguntas de entrevistas de árboles de decisión y preguntas y respuestas de entrevistas de árboles de decisiones. Estas preguntas deberían ayudarlo a sobresalir en cualquier entrevista. Intente resolver cada una de estas preguntas primero antes de leer las soluciones para aprovechar al máximo estas preguntas.

Tabla de contenido

Preguntas y respuestas de la entrevista del árbol de decisión

Q1. Verá dos declaraciones enumeradas a continuación. Deberá leer ambos cuidadosamente y luego elegir una de las opciones de las dos opciones de las declaraciones. La pregunta contextual es: elija las afirmaciones que sean verdaderas sobre el embolsado de árboles.

Los árboles individuales no dependen en absoluto unos de otros para un árbol de embolsado.
Para mejorar el rendimiento general del modelo, el agregado se toma de los estudiantes débiles. Este método se conoce como embolsado de árboles.
Sólo la afirmación número uno es VERDADERA.
Sólo la afirmación número dos es VERDADERA.
Ambas afirmaciones uno y dos son VERDADERAS.
Ninguna de las opciones que se mencionan anteriormente.

Respuesta La respuesta correcta a esta pregunta es C porque, para un árbol de ensacado, ambas afirmaciones son verdaderas. En árboles de embolsado o agregación bootstrap, el objetivo principal de aplicar este algoritmo es reducir la cantidad de varianza presente en el árbol de decisión. El mecanismo para crear un árbol de embolsado es que, con el reemplazo, se toman varios subconjuntos de la muestra presente para entrenar los datos.

Ahora, cada uno de estos subconjuntos de datos más pequeños se usa para entrenar un árbol de decisión separado. Dado que la información que se introduce en cada árbol resulta ser única, la probabilidad de que un árbol tenga algún impacto en el otro se vuelve muy baja. El resultado final que dan todos estos árboles se recopila y luego se procesa para proporcionar la salida. Por lo tanto, la segunda afirmación también resulta ser cierta.

Q2. Verá dos declaraciones enumeradas a continuación. Deberá leer ambos cuidadosamente y luego elegir una de las opciones de las dos opciones de las declaraciones. La pregunta contextual es: elija las afirmaciones que sean verdaderas sobre el fomento de los árboles.

Los alumnos débiles en un árbol impulsor son independientes entre sí.
El rendimiento de los alumnos débiles se recopila y agrega para mejorar el rendimiento general del árbol potenciado.
Sólo la afirmación número uno es VERDADERA.
Sólo la afirmación número dos es VERDADERA.
Ambas afirmaciones uno y dos son VERDADERAS.
Ninguna de las opciones que se mencionan anteriormente.

Respuesta Si tuviera que entender cómo se hace el impulso de los árboles, comprenderá y podrá diferenciar la afirmación correcta de la afirmación que es falsa. Por lo tanto, se crea un árbol potenciado cuando muchos alumnos débiles se conectan en serie. Cada árbol presente en esta secuencia tiene un único objetivo: reducir el error que cometió su antecesor.

Si los árboles están conectados de esa manera, todos los árboles no pueden ser independientes entre sí, lo que hace que la primera afirmación sea falsa. En cuanto a la segunda afirmación, es cierta principalmente porque, en un árbol potenciado, ese es el método que se aplica para mejorar el rendimiento general del modelo. La opción correcta será la B, es decir, sólo la afirmación número dos es VERDADERA y la afirmación número uno es FALSA.

Q3. Verá cuatro declaraciones enumeradas a continuación. Tendrá que leerlos todos cuidadosamente y luego elegir una de las opciones de las opciones que siguen a las cuatro declaraciones. La pregunta contextual es: elija las afirmaciones que sean verdaderas sobre los bosques de Radom y el método de conjunto de aumento de gradiente.

Tanto los métodos de bosque aleatorio como los de conjunto de aumento de gradiente se pueden utilizar para realizar la clasificación.
Los bosques aleatorios se pueden usar para realizar tareas de clasificación, mientras que el método de aumento de gradiente solo puede realizar regresiones.
El aumento de gradiente se puede usar para realizar tareas de clasificación, mientras que el método Random Forest solo puede realizar regresión.
Tanto el bosque aleatorio como el método de conjunto de aumento de gradiente se pueden usar para realizar la regresión.
Sólo la afirmación número uno es VERDADERA.
Sólo la afirmación número dos es VERDADERA.
Ambas afirmaciones uno y dos son VERDADERAS.
Solo la declaración número tres es VERDADERA
Solo la declaración número cuatro es VERDADERA
Solo la declaración número uno y cuatro es VERDADERA

Respuesta La respuesta a esta pregunta es sencilla. Ambos métodos de conjunto son en realidad muy capaces de realizar tareas de clasificación y regresión. Entonces, la respuesta a esta pregunta sería F porque solo las declaraciones número uno y cuatro son VERDADERAS.

P4 Verá cuatro afirmaciones enumeradas a continuación. Tendrá que leerlos todos cuidadosamente y luego elegir una de las opciones de las opciones que siguen a las cuatro declaraciones. La pregunta contextual es, considere un bosque de árboles al azar. Entonces, ¿qué será cierto sobre cada uno o cualquiera de los árboles en el bosque aleatorio?

Cada árbol que constituye el bosque aleatorio se basa en el subconjunto de todas las características.
Cada uno de los bosques aleatorios se basa en todas las características.
Cada uno de los árboles de un bosque aleatorio se basa en un subconjunto de todas las observaciones presentes.
Cada uno de los árboles de un bosque aleatorio se basa en el conjunto de observación completo.
Sólo la afirmación número uno es VERDADERA.
Sólo la afirmación número dos es VERDADERA.
Ambas afirmaciones uno y dos son VERDADERAS.
Solo la declaración número tres es VERDADERA
Solo la declaración número cuatro es VERDADERA
Ambas afirmaciones número uno y cuatro son VERDADERAS
Tanto la afirmación número uno como la número tres son VERDADERAS.
Tanto la afirmación número dos como la número tres son VERDADERAS.
Tanto la afirmación número dos como la número cuatro son VERDADERAS.

Respuesta La generación de bosques aleatorios se basa en el concepto de embolsado. Para construir un bosque aleatorio, se toma un pequeño subconjunto tanto de las observaciones como de las características. Los valores que se obtienen después de eliminar los subconjuntos se introducen en árboles de decisión singulares. Luego, todos los valores de todos esos árboles de decisión se recopilan para tomar la decisión final. Eso significa que las únicas declaraciones que son correctas serían uno y tres. Entonces, la opción correcta sería G.

P5 Verá cuatro afirmaciones enumeradas a continuación. Tendrá que leerlos todos cuidadosamente y luego elegir una de las opciones de las opciones que siguen a las cuatro declaraciones. La pregunta contextual es, seleccione las declaraciones correctas sobre el hiperparámetro conocido como "max_ depth" del algoritmo de aumento de gradiente.

Elegir un valor más bajo de este hiperparámetro es mejor si la precisión del conjunto de validación es similar.
Elegir un valor más alto de este hiperparámetro es mejor si la precisión del conjunto de validación es similar.
Si vamos a aumentar el valor de este hiperparámetro, entonces aumentan las posibilidades de que este modelo realmente sobreajuste los datos.
Si vamos a aumentar el valor de este hiperparámetro, entonces aumentan las posibilidades de que este modelo realmente se ajuste mal a los datos.
Sólo la afirmación número uno es VERDADERA.
Sólo la afirmación número dos es VERDADERA.
Ambas afirmaciones uno y dos son VERDADERAS.
Solo la declaración número tres es VERDADERA
Solo la declaración número cuatro es VERDADERA
Ambas afirmaciones número uno y cuatro son VERDADERAS
Tanto la afirmación número uno como la número tres son VERDADERAS.
Tanto la afirmación número dos como la número tres son VERDADERAS.
Tanto la afirmación número dos como la número cuatro son VERDADERAS.

Respuesta El hiperparámetro max_ depth controla la profundidad hasta que el aumento de gradiente modele los datos presentados frente a él. Si continúa aumentando el valor de este hiperparámetro, entonces el modelo seguramente se sobreajustará. Entonces, la declaración número tres es correcta. Si tenemos las mismas puntuaciones en los datos de validación, generalmente preferimos el modelo con menor profundidad. Por lo tanto, las declaraciones número uno y tres son correctas y, por lo tanto, la respuesta a las preguntas de esta entrevista del árbol de decisión es g.

P6. Verá cuatro declaraciones enumeradas a continuación. Tendrá que leerlos todos cuidadosamente y luego elegir una de las opciones de las opciones que siguen a las cuatro declaraciones. La pregunta contextual es cuál de los siguientes métodos no tiene una tasa de aprendizaje como uno de sus hiperparámetros ajustables.

Árboles adicionales.
AdaBoost
Bosque aleatorio
Aumento de gradiente.
Sólo la afirmación número uno es VERDADERA.
Sólo la afirmación número dos es VERDADERA.
Ambas afirmaciones uno y dos son VERDADERAS.
Solo la declaración número tres es VERDADERA
Solo la declaración número cuatro es VERDADERA
Ambas afirmaciones número uno y cuatro son VERDADERAS
Tanto la afirmación número uno como la número tres son VERDADERAS.
Tanto la afirmación número dos como la número tres son VERDADERAS.
Tanto la afirmación número dos como la número cuatro son VERDADERAS.

Respuesta Solo Extra Trees y Random forest no tienen una tasa de aprendizaje como uno de sus hiperparámetros ajustables. Entonces, la respuesta sería g porque las afirmaciones número uno y tres son VERDADERAS.

P7. Elija la opción, que es cierto.

Solo en el algoritmo de random forest se pueden manejar valores reales haciéndolos discretos.
Solo en el algoritmo de aumento de gradiente, los valores reales pueden manejarse haciéndolos discretos.
Tanto en el bosque aleatorio como en el aumento de gradiente, los valores reales se pueden manejar haciéndolos discretos.
Ninguna de las opciones que se mencionan anteriormente.

Respuesta Ambos algoritmos son capaces. Ambos pueden manejar fácilmente las características que tienen valores reales en ellas. Entonces, la respuesta a las preguntas y respuestas de esta entrevista del árbol de decisión es C.

P8. Elija una opción de la lista a continuación. La pregunta es, elija el algoritmo que no sea un algoritmo de aprendizaje conjunto.

Aumento de gradiente
AdaBoost
Árboles adicionales
Bosque aleatorio
Árboles de decisión

Respuesta Esta pregunta es sencilla. Solo uno de estos algoritmos no es un algoritmo de aprendizaje conjunto. Una regla general a tener en cuenta es que cualquier método de aprendizaje conjunto implicaría el uso de más de un árbol de decisión. Dado que en la opción E, solo existe el árbol de decisión singular, no se trata de un algoritmo de aprendizaje conjunto. Entonces, la respuesta a esta pregunta sería E (árboles de decisión).

P9. Verá dos declaraciones enumeradas a continuación. Deberá leer ambos cuidadosamente y luego elegir una de las opciones de las dos opciones de las declaraciones. La pregunta contextual es cuál de las siguientes sería cierta en el paradigma del aprendizaje conjunto.

El conteo de árboles en el conjunto debe ser lo más alto posible.
Aún podrá interpretar lo que sucede incluso después de implementar el algoritmo de Random Forest.
Sólo la afirmación número uno es VERDADERA.
Sólo la afirmación número dos es VERDADERA.
Ambas afirmaciones uno y dos son VERDADERAS.
Ninguna de las opciones que se mencionan anteriormente.

Respuesta Dado que cualquier método de aprendizaje de conjunto se basa en acoplar una cantidad colosal de árboles de decisión (que por sí solo es un aprendiz muy débil), siempre será beneficioso tener más árboles para hacer su método de conjunto. Sin embargo, el algoritmo de Random Forest es como una caja negra. No sabrás lo que está pasando dentro del modelo. Por lo tanto, está obligado a perder toda la interpretabilidad después de aplicar el algoritmo de bosque aleatorio. Entonces, la respuesta correcta a esta pregunta sería A porque solo la afirmación que es verdadera es la afirmación número uno.

P10. Responda solo en VERDADERO o FALSO. ¿El algoritmo de embolsado funciona mejor para los modelos que tienen una varianza alta y un sesgo bajo?

Respuesta Cierto. De hecho, el embolsado es más favorable para ser utilizado en modelos de alta varianza y bajo sesgo.

P11. . Verá dos declaraciones enumeradas a continuación. Deberá leer ambos cuidadosamente y luego elegir una de las opciones de las dos opciones de las declaraciones. La pregunta contextual es, elija las ideas correctas para los árboles de aumento de gradiente.

En cada etapa de impulso, el algoritmo introduce otro árbol para garantizar que se compensen todos los problemas del modelo actual.
Podemos aplicar un algoritmo de descenso de gradiente para minimizar la función de pérdida.
Sólo la afirmación número uno es VERDADERA.
Sólo la afirmación número dos es VERDADERA.
Ambas afirmaciones uno y dos son VERDADERAS.
Ninguna de las opciones que se mencionan anteriormente.

Respuesta La respuesta a esta pregunta es C, lo que significa que ambas opciones son VERDADERAS. Para la primera declaración, así es como funciona el algoritmo de impulso. Los nuevos árboles introducidos en el modelo son solo para aumentar el rendimiento del algoritmo existente. Sí, el algoritmo de descenso de gradiente es la función que se aplica para reducir la función de pérdida.

P12. En el algoritmo de aumento de gradiente, ¿cuáles de las siguientes afirmaciones sobre la tasa de aprendizaje son correctas?

La tasa de aprendizaje que establezca debe ser lo más alta posible.
La tasa de aprendizaje que establezca no debe ser tan alta como sea posible, sino tan baja como pueda.
La tasa de aprendizaje debe ser baja pero no muy baja.
La tasa de aprendizaje que está configurando debe ser alta pero no muy alta.

Respuesta La tasa de aprendizaje debe ser baja, pero no muy baja, por lo que la respuesta a las preguntas y respuestas de esta entrevista del árbol de decisiones sería la opción C.

Consulte: Preguntas de la entrevista sobre aprendizaje automático

¿Qué sigue?

Si está interesado en obtener más información sobre el árbol de decisiones, el aprendizaje automático, consulte el Diploma PG en aprendizaje automático e IA de IIIT-B y upGrad, que está diseñado para profesionales que trabajan y ofrece más de 450 horas de capacitación rigurosa, más de 30 estudios de casos y asignaciones, estado de exalumno de IIIT-B, más de 5 proyectos prácticos finales prácticos y asistencia laboral con las mejores empresas.

¿Cómo se puede mejorar el árbol de decisión?

Un árbol de decisión es una herramienta para crear una ayuda visual simple en la que los puntos de decisión o autónomos condicionales se representan como nodos y los diversos resultados posibles como hojas. En palabras simples, un árbol de decisiones es un modelo del proceso de toma de decisiones. Puede mejorar el árbol de decisiones asegurándose de que los criterios de detención sean siempre explícitos. Cuando el criterio de parada no es explícito, deja a uno preguntándose si es necesaria una mayor exploración, y también deja dudas sobre si se debe detener o no. El árbol de decisiones también debe construirse de tal manera que sea fácil de seguir y no confunda al lector.

¿Por qué la precisión del árbol de decisión es tan baja?

La precisión del árbol de decisión es menor de lo que hubiéramos esperado. Esto puede suceder debido a las siguientes razones: Datos incorrectos: es muy importante utilizar los datos correctos para los algoritmos de aprendizaje automático. Los datos erróneos pueden conducir a resultados erróneos. Aleatoriedad: a veces, el sistema es tan complejo que es imposible predecir lo que sucederá en el futuro. En este caso, la precisión del árbol de decisión también disminuirá. Sobreajuste: es posible que el árbol de decisiones no pueda capturar la singularidad de los datos, por lo que puede considerarse una generalización. Si se utilizan los mismos datos para ajustar el árbol, puede sobreajustarse a los datos.

¿Cómo se poda un árbol de decisión?

Un árbol de decisión se poda utilizando un algoritmo de rama y límite. Un algoritmo de rama y límite encuentra la solución óptima para el árbol de decisión iterando a través de los nodos del árbol y limitando el valor de la función objetivo en cada iteración. La función objetivo es el valor del árbol de decisión para el negocio. En cada nodo, el algoritmo elimina una rama del árbol o poda una rama en un nuevo nodo. La mejor parte es que una rama se puede podar incluso si conduce a una solución no óptima.