20 preguntas de la entrevista de minería de datos

Publicado: 2020-02-10

Significa que habrá mucho alcance laboral en IA y ML, y dado que la minería de datos es una parte integral de ambos, debe construir una base sólida en minería de datos. La minería de datos se refiere a la técnica utilizada para convertir datos sin procesar en información significativa que puede ser utilizada por empresas y organizaciones. Algunos de los aspectos fundamentales de la minería de datos incluyen la gestión de datos y bases de datos, el procesamiento previo de datos, la validación de datos, la actualización en línea y el descubrimiento de patrones valiosos ocultos en conjuntos de datos complejos. Esencialmente, la minería de datos se centra en el análisis automático de grandes volúmenes de datos para extraer de ellos las tendencias y los conocimientos ocultos. Esta es precisamente la razón por la que debe estar listo para responder cualquier pregunta de minería de datos que el entrevistador le plantee si desea conseguir el trabajo de sus sueños en AI/ML.

Aprenda el curso de certificación de ciencia de datos de las mejores universidades del mundo. Obtenga programas Executive PG, programas de certificados avanzados o programas de maestría para acelerar su carrera.

En esta publicación, hemos compilado una lista de las preguntas de entrevista de minería de datos más frecuentes. Cubre todos los niveles de preguntas y conceptos de entrevistas de minería de datos (tanto niveles básicos como avanzados) que todo aspirante a IA/ML debe conocer.

Así que, sin más dilación, ¡vamos directo al grano!

Nombrar las diferentes técnicas de Minería de Datos y explicar el alcance de la Minería de Datos.

Las diferentes técnicas de Minería de Datos son:

Predicción : descubre la relación entre instancias independientes y dependientes. Por ejemplo, al considerar los datos de ventas, si desea predecir la ganancia futura, la venta actúa como una instancia independiente, mientras que la ganancia es la instancia dependiente. En consecuencia, según los datos históricos de ventas y beneficios, el beneficio asociado es el valor previsto.
Árboles de decisión : la raíz de un árbol de decisión funciona como una condición/pregunta que tiene múltiples respuestas. Cada respuesta conduce a datos específicos que ayudan a determinar la decisión final basada en los datos.
Patrones secuenciales : se refiere al análisis de patrones utilizado para descubrir patrones idénticos en datos de transacciones o eventos regulares. Por ejemplo, los datos históricos de los clientes ayudan a una marca a identificar los patrones en las transacciones que ocurrieron en el último año.
Análisis de agrupamiento : en esta técnica, se forma automáticamente un grupo de objetos que tienen características similares. El método de agrupamiento define las clases y luego coloca los objetos adecuados en cada clase.
Análisis de clasificación : en este método basado en ML, cada elemento de un conjunto particular se clasifica en grupos predefinidos. Utiliza técnicas avanzadas como programación lineal, redes neuronales, árboles de decisión, etc.
Aprendizaje de reglas de asociación : este método crea un patrón basado en la relación de los artículos en una sola transacción.

El alcance de la minería de datos es:

Predecir tendencias y comportamientos : la minería de datos automatiza el proceso de identificación de información predictiva en grandes conjuntos de datos/bases de datos.
Descubra patrones previamente desconocidos : las herramientas de minería de datos barren y analizan una amplia y diversa gama de bases de datos para identificar las tendencias previamente ocultas. Esto no es más que un proceso de descubrimiento de patrones.

¿Cuáles son los tipos de minería de datos?

La minería de datos se puede clasificar en los siguientes tipos:

Integración
Selección
Limpieza de datos
Evaluación de patrones
Transformación de datos
Representación del conocimiento

¿Qué es la depuración de datos?

La depuración de datos es un procedimiento crucial en los sistemas de gestión de bases de datos. Ayuda a mantener datos relevantes en una base de datos. Se refiere al proceso de limpieza de datos basura al eliminar o eliminar los valores NULL innecesarios de filas y columnas. Siempre que necesite cargar nuevos datos en la base de datos, primero, es esencial purgar los datos irrelevantes.

Con la Purga de datos frecuente de la base de datos, puede deshacerse de los datos basura que ocupan una cantidad sustancial de memoria de la base de datos, lo que ralentiza el rendimiento de la base de datos.

¿Cuál es la diferencia fundamental entre Data Warehousing y Data Mining?

El almacenamiento de datos es la técnica utilizada para extraer datos de fuentes dispares. Luego se limpia y almacena para uso futuro. Por otro lado, la minería de datos es el proceso de explorar los datos extraídos mediante consultas y luego analizar los resultados o resultados. Es esencial en los informes, la planificación de estrategias y la visualización de información valiosa dentro de los datos.

Explicar las diferentes etapas de la minería de datos.

Hay tres etapas principales de la minería de datos:

Exploración: esta etapa se centra principalmente en recopilar datos de múltiples fuentes y prepararlos para otras actividades, como la limpieza y la transformación. Una vez que los datos se limpian y transforman, se pueden analizar para obtener información.

Construcción y validación de modelos: esta etapa implica validar los datos aplicando diferentes modelos y comparando los resultados para obtener el mejor rendimiento. Este paso también se denomina identificación de patrones. Es un proceso que requiere mucho tiempo ya que el usuario tiene que identificar manualmente qué patrón es el más adecuado para realizar predicciones sencillas.

Implementación: una vez que se identifica el patrón más adecuado para la predicción, se aplica al conjunto de datos para obtener predicciones o resultados estimados.

¿Para qué sirven las consultas de minería de datos?

Las consultas de minería de datos ayudan a facilitar la aplicación del modelo a los nuevos datos, ya sea para obtener resultados únicos o múltiples. Las consultas pueden recuperar casos que se ajustan a un patrón particular de manera más efectiva. Extraen la memoria estadística de los datos de entrenamiento y ayudan a obtener el patrón exacto junto con la regla del caso típico que representa un patrón en el modelo. Además, las consultas pueden extraer fórmulas de regresión y otros cálculos para explicar patrones. También pueden recuperar los detalles sobre los casos individuales utilizados en un modelo.

¿Qué son los datos “Discretos” y “Continuos” en Minería de Datos?

En minería de datos, los datos discretos son los datos que son finitos y tienen un significado adjunto. El género es un ejemplo clásico de datos discretos. Los datos continuos, por otro lado, son los datos que continúan cambiando de una manera bien estructurada. La edad es un ejemplo perfecto de datos continuos.

¿Qué es OLAP? ¿En qué se diferencia de OLTP?

OLAP (Procesamiento analítico en línea) es una tecnología utilizada en muchas aplicaciones de Business Intelligence que involucran cálculos analíticos complejos. Aparte de los cálculos complejos, OLAP se utiliza para el análisis de tendencias y el modelado de datos avanzado. El objetivo principal de utilizar los sistemas OLAP es minimizar el tiempo de respuesta a las consultas y, al mismo tiempo, aumentar la eficacia de los informes. La base de datos OLAP almacena datos históricos agregados en un esquema multidimensional. Al ser una base de datos multidimensional, OLAP permite al usuario comprender cómo llegan los datos a través de diferentes fuentes.

OLTP significa Transacción y procesamiento en línea. Es intrínsecamente diferente de OLAP, ya que se usa en aplicaciones que involucran transacciones masivas y grandes volúmenes de datos. Estas aplicaciones se encuentran principalmente en el sector BFSI. La arquitectura OLTP es una arquitectura cliente-servidor que puede admitir transacciones entre redes.

Nombre los diferentes modelos de almacenamiento que están disponibles en OLAP.

Los diferentes modelos de almacenamiento disponibles en OLAP son:

MOLAP (Procesamiento analítico en línea multidimensional): este es un tipo de almacenamiento de datos en el que los datos se almacenan en cubos multidimensionales en lugar de bases de datos relacionales estándar. Es esta característica la que hace que el rendimiento de las consultas sea excelente.
ROLAP (procesamiento analítico en línea relacional): en este almacenamiento de datos, los datos se almacenan en bases de datos relacionales y, por lo tanto, es capaz de manejar un gran volumen de datos.
HOLAP (procesamiento analítico en línea híbrido): esta es una combinación de MOLAP y ROLAP. HOLAP usa el modelo MOLAP para extraer información resumida del cubo, mientras que para las capacidades de desglose, usa el modelo ROLAP.

¿Qué es "Cubo"?

En minería de datos, el término "cubo" se refiere a un espacio de almacenamiento de datos donde se almacenan los datos. El almacenamiento de datos en un cubo ayuda a acelerar el proceso de análisis de datos. Esencialmente, los cubos son la representación lógica de datos multidimensionales. Mientras que el borde del cubo tiene los miembros de dimensión, el cuerpo del cubo contiene los valores de datos.

Supongamos que una empresa almacena los datos de sus empleados (registros) en un cubo. Cuando desea evaluar el desempeño de los empleados en forma semanal o mensual, entonces la semana/mes se convierte en las dimensiones del cubo.

¿Qué es la agregación y generalización de datos?

La agregación de datos es el proceso en el que los datos se combinan o agregan para crear un cubo para el análisis de datos. La generalización es el proceso de reemplazar los datos de bajo nivel con conceptos de alto nivel para que los datos puedan generalizarse y producir conocimientos significativos.

Explicar los algoritmos de árbol de decisión y serie temporal.

En el algoritmo del árbol de decisión, cada nodo es un nodo hoja o un nodo de decisión. Cada vez que ingresa un objeto en el algoritmo, produce una decisión. Se crea un árbol de decisión utilizando las regularidades de los datos. Se llega a todas las rutas que conectan el nodo raíz con el nodo hoja usando 'Y', 'O' o 'AMBOS'. Es importante tener en cuenta que el árbol de decisiones no se ve afectado por la preparación automática de datos.

El algoritmo de serie temporal se usa para tipos de datos cuyos valores cambian continuamente según el tiempo (por ejemplo, la edad de una persona). Cuando entrenó el algoritmo y lo ajustó para predecir el conjunto de datos, puede realizar un seguimiento exitoso de los datos continuos y hacer predicciones precisas. El algoritmo de serie temporal crea un modelo específico que puede predecir las tendencias futuras de los datos en función del conjunto de datos original.

¿Qué es la agrupación?

En minería de datos, el agrupamiento es el proceso utilizado para agrupar objetos abstractos en clases que contienen objetos similares. Aquí, un grupo de objetos de datos se trata como un grupo. Por lo tanto, durante el proceso de análisis, la partición de datos ocurre en grupos que luego se etiquetan en función de datos idénticos. El análisis de conglomerados es fundamental para la minería de datos porque es altamente escalable y dimensional, y también puede manejar diferentes atributos, interpretabilidad y datos desordenados.

La agrupación de datos se utiliza en varias aplicaciones, incluido el procesamiento de imágenes, el reconocimiento de patrones, la detección de fraudes y la investigación de mercado.

¿Cuáles son los problemas comunes que se enfrentan durante la minería de datos?

Durante el proceso de minería de datos, puede encontrar los siguientes problemas:

Manejo de la incertidumbre
Tratar con valores faltantes
Tratar con datos ruidosos
Eficiencia de los algoritmos
Incorporación del conocimiento del dominio
Tamaño y complejidad de los datos.
Selección de datos
Inconsistencia entre los datos y el conocimiento descubierto.

Especifique la sintaxis para: Especificación de medidas de interés, Especificación de presentación y visualización de patrones y Especificación de datos relevantes para la tarea.

La sintaxis para la especificación de medidas de interés es:

con <interest_measure_name> umbral = valor_umbral

La sintaxis para la especificación de presentación y visualización de patrones es:

mostrar como <result_form>

La sintaxis para la especificación de datos relevantes para la tarea es:

usar la base de datos nombre_de_la_base de datos

usar almacén de datos nombre_de_almacén_de_datos

en relevancia para att_or_dim_list

from relación(es)/cubo(s) [donde condición] order by order_list

agrupar por grouping_list

¿Nombre los diferentes niveles de análisis en Minería de Datos?

Los distintos niveles de análisis en Minería de Datos son:

Inducción de reglas
Visualización de datos
Algoritmos genéticos
Red neuronal artificial
Método del vecino más cercano

¿Qué es STING?

STING significa Cuadrícula de información estadística. Es un método de agrupamiento multirresolución basado en cuadrículas en el que todos los objetos están contenidos en celdas rectangulares. Si bien las celdas se mantienen en varios niveles de resolución, estos niveles se organizan aún más en una estructura jerárquica.

¿Qué es ETL? Nombre algunas de las mejores herramientas ETL.

ETL significa Extraer, Transformar y Cargar. Es un software que puede leer los datos de la fuente de datos especificada y extraer un subconjunto de datos deseado. Después de esto, transforma los datos usando reglas y tablas de búsqueda y los convierte a la forma deseada. Finalmente, utiliza la función de carga para cargar los datos resultantes en la base de datos de destino.

Las mejores herramientas ETL son:

Oráculo
Ab Initio
Etapa de Datos
Informática
Unión de datos
Constructor de almacenes

¿Qué son los metadatos?

En palabras simples, los metadatos son los datos resumidos que conducen al conjunto de datos más grande. Los metadatos contienen información importante como el número de columnas utilizadas, el orden de los campos, los tipos de datos de los campos, ancho fijo y ancho limitado, etc.

¿Cuáles son las ventajas de la minería de datos?

La minería de datos tiene cuatro ventajas principales:

Ayuda a dar sentido a los datos sin procesar y a explorar, identificar y comprender los patrones ocultos dentro de los datos.
Ayuda a automatizar el proceso de búsqueda de información predictiva en grandes bases de datos, lo que ayuda a identificar rápidamente los patrones previamente ocultos.
Ayuda a filtrar y validar los datos y comprender de dónde provienen.
Promueve una toma de decisiones más rápida y mejor, lo que ayuda a las empresas a tomar las medidas necesarias para aumentar los ingresos y reducir los costos operativos.

Estas son las razones por las que la minería de datos se ha convertido en una parte integral de numerosas industrias, incluidas las de marketing, publicidad, TI/ITES, inteligencia comercial e incluso inteligencia gubernamental.

Esperamos que estas preguntas de la entrevista sobre minería de datos y sus respuestas lo ayuden a romper el hielo con la minería de datos. Aunque estas son solo algunas preguntas de nivel básico que debe saber, lo ayudarán a entrar en el flujo y profundizar en el tema.

Si tiene curiosidad por aprender sobre ciencia de datos, consulte el Programa ejecutivo PG en ciencia de datos de IIIT-B y upGrad, creado para profesionales que trabajan y ofrece más de 10 estudios de casos y proyectos, talleres prácticos, tutoría con expertos de la industria, 1 -on-1 con mentores de la industria, más de 400 horas de aprendizaje y asistencia laboral con las mejores empresas.

¿Cuáles son las desventajas de usar un algoritmo de árbol de decisión?

Incluso un cambio menor en los datos puede causar un cambio significativo en la estructura del árbol de decisión, lo que genera inestabilidad. En comparación con otros algoritmos, el cálculo de un árbol de decisión puede ser bastante complejo en ocasiones. El entrenamiento del árbol de decisiones es relativamente costoso debido a la complejidad y el tiempo requerido. La técnica del árbol de decisión falla cuando se trata de aplicar la regresión y predecir valores continuos.

¿Cuál es la diferencia entre el agrupamiento y la clasificación de minería de datos?

El agrupamiento es una técnica de aprendizaje no supervisado, mientras que la clasificación es una forma de aprendizaje supervisado. La agrupación en clústeres es el proceso de agrupar puntos de datos en clústeres en función de sus puntos en común. La clasificación implica etiquetar los datos de entrada con una de las etiquetas de clase de la variable de salida. La agrupación en clústeres divide el conjunto de datos en subgrupos, lo que permite agrupar ejemplos con una funcionalidad similar. No se basa en datos etiquetados ni en un conjunto de entrenamiento para trabajar. La clasificación, por otro lado, clasifica los nuevos datos en función de las observaciones del conjunto de entrenamiento.

¿Hay alguna desventaja de la minería de datos?

Muchos problemas de privacidad surgen cuando se utiliza la minería de datos. A pesar de que la minería de datos ha abierto el camino para la recopilación de datos simples a su manera. Cuando se trata de precisión, todavía tiene ciertos límites. Los datos obtenidos pueden ser incorrectos, generando problemas en la toma de decisiones. El procedimiento de recopilación de datos para la minería de datos utiliza mucha tecnología. Cada dato creado requiere su propio almacenamiento y mantenimiento. El costo de implementación podría dispararse como resultado de esto.