35 preguntas y respuestas de la entrevista de Big Data que debe saber 2022: para principiantes y experimentados

Publicado: 2021-01-05

¿Asistir a una entrevista de big data y preguntarse cuáles son todas las preguntas y discusiones por las que pasará? Antes de asistir a una entrevista de big data, es mejor tener una idea del tipo de preguntas de la entrevista de big data para que pueda preparar mentalmente las respuestas.

Para ayudarlo, he creado la guía de preguntas y respuestas de la entrevista de big data para comprender la profundidad y la intención real de las preguntas de la entrevista de big data.

No creerás cómo este Programa Cambió la Carrera de los Estudiantes

Estamos en la era del Big Data y la analítica. Dado que los datos impulsan todo lo que nos rodea, ha habido un aumento repentino en la demanda de profesionales de datos capacitados. Las organizaciones siempre están buscando personas capacitadas que puedan ayudarlas a dar sentido a sus montones de datos.

preguntas de la entrevista de big data

La palabra clave aquí es 'mejorado' y, por lo tanto, las entrevistas de Big Data no son realmente pan comido. Hay algunas preguntas esenciales de la entrevista de Big Data que debe saber antes de asistir a una. Estos le ayudarán a encontrar su camino a través.

Las preguntas se han organizado en un orden que lo ayudará a retomar lo básico y alcanzar un nivel algo avanzado.

Preguntas y respuestas de la entrevista de Big Data

1. Defina Big Data y explique los Vs de Big Data.

Esta es una de las preguntas de entrevista de Big Data más introductorias pero importantes. La respuesta a esto es bastante sencilla:

Big Data se puede definir como una colección de conjuntos de datos complejos no estructurados o semiestructurados que tienen el potencial de brindar información procesable.


mejores cursos de corta duración

Las cuatro V de Big Data son:
Volumen: habla sobre la cantidad de datos.
Variedad: habla sobre los diversos formatos de datos.
Velocidad: habla sobre la velocidad cada vez mayor a la que crecen los datos.
Veracidad: habla sobre el grado de precisión de los datos disponibles.

Tutorial de Big Data para principiantes: todo lo que necesita saber

2. ¿Cómo se relaciona Hadoop con Big Data?

Cuando hablamos de Big Data, hablamos de Hadoop. Entonces, esta es otra pregunta de la entrevista de Big Data que definitivamente enfrentará en una entrevista.

Hadoop es un marco de código abierto para almacenar, procesar y analizar conjuntos de datos complejos no estructurados para obtener información e inteligencia.

3. Defina HDFS y YARN, y hable sobre sus respectivos componentes.

Ahora que estamos en la zona de Hadoop, la próxima pregunta de la entrevista de Big Data que podría enfrentar girará en torno a lo mismo.

HDFS es la unidad de almacenamiento predeterminada de Hadoop y es responsable de almacenar diferentes tipos de datos en un entorno distribuido.

HDFS tiene los siguientes dos componentes:

NameNode: este es el nodo maestro que tiene la información de metadatos para todos los bloques de datos en el HDFS.
DataNode: estos son los nodos que actúan como nodos esclavos y son responsables de almacenar los datos.
YARN, abreviatura de Yet Another Resource Negotiator , es responsable de administrar los recursos y proporcionar un entorno de ejecución para dichos procesos.
Los dos componentes principales de YARN son:
ResourceManager: responsable de asignar recursos a los respectivos NodeManagers en función de las necesidades.
NodeManager: ejecuta tareas en cada DataNode.
7 proyectos interesantes de Big Data que debe tener en cuenta

4. ¿Qué quiere decir con hardware básico?

Esta es otra pregunta de la entrevista de Big Data con la que es más probable que se encuentre en cualquier entrevista para la que se presente.

Hardware básico se refiere a los recursos de hardware mínimos necesarios para ejecutar el marco Apache Hadoop. Cualquier hardware que admita los requisitos mínimos de Hadoop se conoce como 'Hardware básico'.

5. Defina y describa el término FSCK.

FSCK significa Verificación del sistema de archivos. Es un comando que se utiliza para ejecutar un informe de resumen de Hadoop que describe el estado de HDFS. Solo comprueba los errores y no los corrige. Este comando se puede ejecutar en todo el sistema o en un subconjunto de archivos.

6. ¿Cuál es el propósito del comando JPS en Hadoop?

El comando JPS se usa para probar el funcionamiento de todos los demonios de Hadoop. Prueba específicamente demonios como NameNode, DataNode, ResourceManager, NodeManager y más.
(En cualquier entrevista de Big Data, es probable que encuentre una pregunta sobre JPS y su importancia).
Big Data: herramientas y tecnologías imprescindibles

7. Nombre los diferentes comandos para iniciar y cerrar Hadoop Daemons.

Esta es una de las preguntas de entrevista de Big Data más importantes para ayudar al entrevistador a evaluar su conocimiento de los comandos.

Para iniciar todos los demonios:
./sbin/start-all.sh

Para cerrar todos los demonios:
./sbin/stop-all.sh

8. ¿Por qué necesitamos Hadoop para Big Data Analytics?

Las preguntas de esta entrevista de Hadoop ponen a prueba su conocimiento sobre los aspectos prácticos de Big Data y Analytics.

En la mayoría de los casos, Hadoop ayuda a explorar y analizar conjuntos de datos grandes y no estructurados. Hadoop ofrece capacidades de almacenamiento, procesamiento y recopilación de datos que ayudan en el análisis.

9. Explique las diferentes características de Hadoop.

Enumerado en muchas preguntas y respuestas de la entrevista de Big Data, la mejor respuesta a esto es:

Código abierto: Hadoop es una plataforma de código abierto. Permite que el código se reescriba o modifique según los requisitos del usuario y de análisis.
Escalabilidad: Hadoop admite la adición de recursos de hardware a los nuevos nodos.
Recuperación de datos: Hadoop sigue la replicación, lo que permite la recuperación de datos en caso de falla.
Localidad de datos: esto significa que Hadoop mueve el cálculo a los datos y no al revés. De esta manera, todo el proceso se acelera.

10. Defina los números de puerto para NameNode, Task Tracker y Job Tracker.

Nodo de nombre: puerto 50070
Rastreador de tareas: puerto 50060
Rastreador de trabajos: puerto 50030

11. ¿Qué quiere decir indexar en HDFS?

HDFS indexa los bloques de datos en función de sus tamaños. El final de un bloque de datos apunta a la dirección donde se almacena el siguiente bloque de datos. Los DataNodes almacenan los bloques de datos mientras que NameNode almacena estos bloques de datos.
Aplicaciones de Big Data en la cultura pop

12. ¿Qué son los nodos perimetrales en Hadoop?

Los nodos perimetrales se refieren a los nodos de puerta de enlace que actúan como una interfaz entre el clúster de Hadoop y la red externa. Estos nodos ejecutan aplicaciones cliente y herramientas de administración de clústeres y también se utilizan como áreas de preparación. Se requieren capacidades de almacenamiento de clase empresarial para los nodos perimetrales y, por lo general, un solo nodo perimetral es suficiente para varios clústeres de Hadoop.

13. ¿Cuáles son algunas de las herramientas de administración de datos que se usan con Edge Nodes en Hadoop?

Esta pregunta de la entrevista de Big Data tiene como objetivo evaluar su conocimiento sobre varias herramientas y marcos.

Oozie, Ambari, Pig y Flume son las herramientas de administración de datos más comunes que funcionan con Edge Nodes en Hadoop.

14. Explique los métodos básicos de un Reductor.

Hay tres métodos básicos de un reductor. Ellos son-

setup () : se usa para configurar diferentes parámetros como el tamaño del montón, el caché distribuido y los datos de entrada.
reduce (): un parámetro que se llama una vez por tecla con la tarea de reducción en cuestión
cleanup (): borra todos los archivos temporales y se llama solo al final de una tarea de reducción.

15. Hable acerca de los diferentes marcadores de lápidas que se utilizan con fines de eliminación en HBase.

Esta pregunta de la entrevista de Big Data se sumerge en su conocimiento de HBase y su funcionamiento.
Hay tres marcadores de lápida principales que se utilizan para la eliminación en HBase. Ellos son-

Marcador de eliminación de familia: para marcar todas las columnas de una familia de columnas.
Marcador de eliminación de versión: para marcar una sola versión de una sola columna.
Marcador de eliminación de columna: para marcar todas las versiones de una sola columna.
Ingenieros de Big Data: Mitos vs. Realidades

16. ¿Cómo puede Big Data agregar valor a las empresas?

Una de las preguntas de entrevista de big data más comunes. En el escenario actual, Big Data lo es todo. Si tienes datos, tienes a tu disposición la herramienta más poderosa. Big Data Analytics ayuda a las empresas a transformar los datos sin procesar en información significativa y procesable que puede dar forma a sus estrategias comerciales. La contribución más importante de Big Data a los negocios son las decisiones comerciales basadas en datos. Big Data hace posible que las organizaciones basen sus decisiones en información y conocimientos tangibles.

preguntas de la entrevista de big data

Además, Predictive Analytics permite a las empresas elaborar recomendaciones personalizadas y estrategias de marketing para diferentes compradores. Juntas, las herramientas y tecnologías de Big Data ayudan a aumentar los ingresos, optimizar las operaciones comerciales, aumentar la productividad y mejorar la satisfacción del cliente. De hecho, cualquiera que no esté aprovechando Big Data hoy en día se está perdiendo un océano de oportunidades.

17. ¿Cómo se implementa una solución de Big Data?

Puede implementar una solución Big Data en tres pasos:

  • Ingestión de datos : este es el primer paso en la implementación de una solución de Big Data. Comienza recopilando datos de múltiples fuentes, ya sean plataformas de redes sociales, archivos de registro, documentos comerciales, cualquier cosa relevante para su negocio. Los datos se pueden extraer mediante transmisión en tiempo real o en trabajos por lotes.
  • Almacenamiento de datos : una vez que se extraen los datos, debe almacenarlos en una base de datos. Puede ser HDFS o HBase. Si bien el almacenamiento HDFS es perfecto para el acceso secuencial, HBase es ideal para el acceso aleatorio de lectura/escritura.
  • Procesamiento de datos : el último paso en la implementación de la solución es el procesamiento de datos. Por lo general, el procesamiento de datos se realiza a través de marcos como Hadoop, Spark, MapReduce, Flink y Pig, por nombrar algunos.

18. ¿En qué se diferencia NFS de HDFS?

Network File System (NFS) es uno de los sistemas de almacenamiento de archivos distribuidos más antiguos, mientras que Hadoop Distributed File System (HDFS) saltó a la fama recientemente después del auge de Big Data.

La siguiente tabla destaca algunas de las diferencias más notables entre NFS y HDFS:

NFS HDFS
Puede almacenar y procesar pequeños volúmenes de datos. Está diseñado explícitamente para almacenar y procesar Big Data.
Los datos se almacenan en hardware dedicado. Los datos se dividen en bloques de datos que se distribuyen en las unidades locales del hardware.
En caso de fallo del sistema, no podrá acceder a los datos. Se puede acceder a los datos incluso en el caso de una falla del sistema.
Dado que NFS se ejecuta en una sola máquina, no hay posibilidad de redundancia de datos. HDFS se ejecuta en un grupo de máquinas y, por lo tanto, el protocolo de replicación puede generar datos redundantes.

19. Enumere los diferentes permisos de archivo en HDFS para archivos o niveles de directorio.

Una de las preguntas comunes de la entrevista de big data. El sistema de archivos distribuido de Hadoop (HDFS) tiene permisos específicos para archivos y directorios. Hay tres niveles de usuario en HDFS: Propietario, Grupo y Otros. Para cada uno de los niveles de usuario, hay tres permisos disponibles:

  • leer
  • escribir (w)
  • ejecutar (x).

Estos tres permisos funcionan únicamente para archivos y directorios.

Para archivos -

  • El permiso r es para leer un archivo.
  • El permiso w es para escribir un archivo.

Aunque hay un permiso de ejecución (x), no puede ejecutar archivos HDFS.

Para directorios -

  • El permiso r enumera el contenido de un directorio específico.
  • El permiso w crea o elimina un directorio.
  • El permiso X es para acceder a un directorio secundario.

20. Elaborar los procesos que sobrescriben los factores de replicación en HDFS.

En HDFS, hay dos formas de sobrescribir los factores de replicación: por archivo y por directorio.

En Archivo

En este método, el factor de replicación cambia según el archivo que usa el shell de Hadoop FS. Para ello se utiliza el siguiente comando:

$hadoop fs – setrep –w2/mi/archivo_de_prueba

Aquí, test_file se refiere al nombre de archivo cuyo factor de replicación se establecerá en 2.

Sobre la base del directorio

Este método cambia el factor de replicación según el directorio, como tal, cambia el factor de replicación para todos los archivos en un directorio en particular. Para ello se utiliza el siguiente comando:

$hadoop fs –setrep –w5/my/test_dir

Aquí, test_dir se refiere al nombre del directorio para el cual el factor de replicación y todos los archivos contenidos en él se establecerán en 5.

21. Nombre los tres modos en los que puede ejecutar Hadoop.

Una de las preguntas más comunes en cualquier entrevista de big data. Los tres modos son:

  • Modo independiente : este es el modo predeterminado de Hadoop que utiliza el sistema de archivos local para las operaciones de entrada y salida. El objetivo principal del modo independiente es la depuración. No es compatible con HDFS y también carece de la configuración personalizada necesaria para los archivos mapred-site.xml, core-site.xml y hdfs-site.xml.
  • Modo pseudodistribuido: también conocido como clúster de un solo nodo, el modo pseudodistribuido incluye NameNode y DataNode dentro de la misma máquina. En este modo, todos los demonios de Hadoop se ejecutarán en un solo nodo y, por lo tanto, los nodos Maestro y Esclavo son los mismos.
  • Modo completamente distribuido : este modo se conoce como el clúster de múltiples nodos en el que varios nodos funcionan simultáneamente para ejecutar trabajos de Hadoop . Aquí, todos los demonios de Hadoop se ejecutan en diferentes nodos. Entonces, los nodos Maestro y Esclavo se ejecutan por separado.

22. Explique “Sobreajuste”.

El sobreajuste se refiere a un error de modelado que ocurre cuando una función se ajusta estrechamente (influenciada) por un conjunto limitado de puntos de datos. El sobreajuste da como resultado un modelo demasiado complejo que dificulta aún más la explicación de las peculiaridades o idiosincrasias de los datos disponibles. Como afecta negativamente la capacidad de generalización del modelo, se vuelve un desafío determinar el cociente predictivo de los modelos sobreajustados. Estos modelos no funcionan cuando se aplican a datos externos (datos que no forman parte de los datos de muestra) o nuevos conjuntos de datos.

El sobreajuste es uno de los problemas más comunes en Machine Learning. Se considera que un modelo está sobreajustado cuando se desempeña mejor en el conjunto de entrenamiento pero falla estrepitosamente en el conjunto de prueba. Sin embargo, existen muchos métodos para evitar el problema del sobreajuste, como la validación cruzada, la poda, la detención anticipada, la regularización y el ensamblaje.

23. ¿Qué es la selección de funciones?

La selección de características se refiere al proceso de extraer solo las características requeridas de un conjunto de datos específico. Cuando los datos se extraen de fuentes dispares, no todos los datos son útiles en todo momento: las diferentes necesidades comerciales requieren diferentes conocimientos de datos. Aquí es donde entra la selección de características para identificar y seleccionar solo aquellas características que son relevantes para un requisito comercial particular o una etapa de procesamiento de datos.

El objetivo principal de la selección de características es simplificar los modelos de ML para facilitar su análisis e interpretación. La selección de características mejora las capacidades de generalización de un modelo y elimina los problemas de dimensionalidad, evitando así las posibilidades de sobreajuste. Por lo tanto, la selección de características proporciona una mejor comprensión de los datos bajo estudio, mejora el rendimiento de predicción del modelo y reduce significativamente el tiempo de cálculo.

La selección de funciones se puede realizar a través de tres técnicas:

  • Método de filtros

En este método, las características seleccionadas no dependen de los clasificadores designados. Se utiliza una técnica de clasificación de variables para seleccionar variables con fines de ordenación. Durante el proceso de clasificación, la técnica de clasificación variable tiene en cuenta la importancia y la utilidad de una característica. La prueba de chi-cuadrado, el umbral de varianza y la ganancia de información son algunos ejemplos del método de filtros.

  • Método de envolturas

En este método, el algoritmo utilizado para la selección de subconjuntos de características existe como un "envoltorio" alrededor del algoritmo de inducción. El algoritmo de inducción funciona como una 'caja negra' que produce un clasificador que se utilizará más adelante en la clasificación de características. El principal inconveniente o limitación del método de contenedores es que para obtener el subconjunto de características, debe realizar un trabajo de cálculo pesado. Los algoritmos genéticos, la selección de características secuenciales y la eliminación de características recursivas son ejemplos del método de envoltorios.

  • método integrado

El método integrado combina lo mejor de ambos mundos: incluye las mejores características de los métodos de filtros y contenedores. En este método, la selección de variables se realiza durante el proceso de entrenamiento, lo que le permite identificar las características que son más precisas para un modelo determinado. La técnica de regularización L1 y la regresión de Ridge son dos ejemplos populares del método integrado.

24. Defina "valores atípicos".

Un valor atípico se refiere a un punto de datos o una observación que se encuentra a una distancia anormal de otros valores en una muestra aleatoria. En otras palabras, los valores atípicos son los valores que están muy alejados del grupo; no pertenecen a ningún clúster o grupo específico en el conjunto de datos. La presencia de valores atípicos generalmente afecta el comportamiento del modelo: pueden confundir el proceso de entrenamiento de los algoritmos de ML. Algunos de los impactos adversos de los valores atípicos incluyen un tiempo de capacitación más prolongado, modelos inexactos y resultados deficientes.

Sin embargo, los valores atípicos a veces pueden contener información valiosa. Es por eso que deben ser investigados a fondo y tratados en consecuencia.

25. Nombre algunas técnicas de detección de valores atípicos.

Nuevamente, una de las preguntas de entrevista de big data más importantes. Aquí hay seis métodos de detección de valores atípicos:

  • Análisis de valores extremos : este método determina las colas estadísticas de la distribución de datos. Los métodos estadísticos como 'z-scores' en datos univariados son un ejemplo perfecto de análisis de valores extremos.
  • Modelos probabilísticos y estadísticos : este método determina las "instancias poco probables" a partir de un "modelo probabilístico" de datos. Un buen ejemplo es la optimización de modelos de mezcla gaussiana utilizando 'maximización de expectativas'.
  • Modelos lineales : este método modela los datos en dimensiones más bajas. Modelos basados ​​en la proximidad: en este enfoque, las instancias de datos que están aisladas del grupo de datos están determinadas por el clúster, la densidad o el análisis del vecino más cercano.
  • Modelos teóricos de la información : este enfoque busca detectar valores atípicos como instancias de datos incorrectos que aumentan la complejidad del conjunto de datos.
  • Detección de valores atípicos de alta dimensión : este método identifica los subespacios para los valores atípicos de acuerdo con las medidas de distancia en dimensiones más altas.

26. Explique el reconocimiento de racks en Hadoop.

Rack Awareness es una de las preguntas populares de la entrevista de big data. El reconocimiento de rack es un algoritmo que identifica y selecciona DataNodes más cercanos al NameNode en función de su información de rack. Se aplica al NameNode para determinar cómo se colocarán los bloques de datos y sus réplicas. Durante el proceso de instalación, la suposición predeterminada es que todos los nodos pertenecen al mismo bastidor.

El conocimiento del estante ayuda a:

  • Mejorar la confiabilidad y accesibilidad de los datos.
  • Mejore el rendimiento del clúster.
  • Mejorar el ancho de banda de la red.
  • Mantenga el flujo a granel en el estante siempre que sea posible.
  • Prevenga la pérdida de datos en caso de una falla completa del rack.

27. ¿Se puede recuperar un NameNode cuando está inactivo? ¿Si es así, cómo?

Sí, es posible recuperar un NameNode cuando está inactivo. Así es como puedes hacerlo:

  • Utilice FsImage (la réplica de metadatos del sistema de archivos) para iniciar un nuevo NameNode.
  • Configure DataNodes junto con los clientes para que puedan reconocer y hacer referencia a NameNode recién iniciado.
  • Cuando el NameNode recién creado complete la carga del último punto de control del proceso de carga de FsImage (que ahora ha recibido suficientes informes de bloque de los DataNodes), estará listo para comenzar a atender al cliente.

Sin embargo, el proceso de recuperación de un NameNode solo es factible para clústeres más pequeños. Para los grandes clústeres de Hadoop, el proceso de recuperación suele consumir una cantidad considerable de tiempo, lo que lo convierte en una tarea bastante desafiante.

28. Nombre los parámetros de configuración de un marco MapReduce.

Los parámetros de configuración en el marco MapReduce incluyen:

  • El formato de entrada de datos.
  • El formato de salida de los datos.
  • La ubicación de entrada de los trabajos en el sistema de archivos distribuido.
  • La ubicación de salida de los trabajos en el sistema de archivos distribuido.
  • La clase que contiene la función de mapa
  • La clase que contiene la función reduce.
  • El archivo JAR que contiene las clases de asignador, reductor y controlador.

29. ¿Qué es una caché distribuida? ¿Cuáles son sus beneficios?

Cualquier guía de preguntas y respuestas de la entrevista de Big Data no estará completa sin esta pregunta. El caché distribuido en Hadoop es un servicio ofrecido por el marco MapReduce utilizado para almacenar archivos en caché. Si un archivo se almacena en caché para un trabajo específico, Hadoop lo pone a disposición en DataNodes individuales, tanto en la memoria como en el sistema, donde las tareas map y reduce se ejecutan simultáneamente. Esto le permite acceder rápidamente y leer archivos almacenados en caché para completar cualquier colección (como matrices, hashmaps, etc.) en un código.

La caché distribuida ofrece los siguientes beneficios:

  • Distribuye archivos de texto/datos simples de solo lectura y otros tipos complejos como jars, archivos, etc.
  • Realiza un seguimiento de las marcas de tiempo de modificación de los archivos de caché que resaltan los archivos que no deben modificarse hasta que un trabajo se ejecute con éxito.

30. ¿Qué es un SequenceFile en Hadoop?

En Hadoop, un SequenceFile es un archivo plano que contiene pares de clave-valor binarios. Se usa más comúnmente en los formatos de E/S de MapReduce. Los resultados del mapa se almacenan internamente como un SequenceFile que proporciona las clases de lector, escritor y clasificador.

Hay tres formatos de SequenceFile:

  • Registros de clave-valor sin comprimir
  • Grabar registros de clave-valor comprimidos (solo se comprimen los "valores").
  • Registros de clave-valor comprimidos en bloque (aquí, tanto las claves como los valores se recopilan en "bloques" por separado y luego se comprimen).

31. Explique el papel de un JobTracker.

Una de las preguntas comunes de la entrevista de big data. La función principal de JobTracker es la administración de recursos, lo que esencialmente significa administrar TaskTrackers. Aparte de esto, JobTracker también realiza un seguimiento de la disponibilidad de recursos y gestiona la gestión del ciclo de vida de las tareas (seguimiento del progreso de las tareas y su tolerancia a fallos).

Algunas características cruciales de JobTracker son:

  • Es un proceso que se ejecuta en un nodo separado (no en un DataNode).
  • Se comunica con NameNode para identificar la ubicación de los datos.
  • Realiza un seguimiento de la ejecución de las cargas de trabajo de MapReduce.
  • Asigna nodos de TaskTracker en función de las ranuras disponibles.
  • Supervisa cada TaskTracker y envía el informe general del trabajo al cliente.
  • Encuentra los mejores nodos de TaskTracker para ejecutar tareas específicas en nodos particulares.

32. Nombre los formatos de entrada comunes en Hadoop.

Hadoop tiene tres formatos de entrada comunes:

  • Formato de entrada de texto: este es el formato de entrada predeterminado en Hadoop.
  • Formato de entrada de archivo de secuencia: este formato de entrada se utiliza para leer archivos en una secuencia.
  • Formato de entrada de valor clave: este formato de entrada se utiliza para archivos de texto sin formato (archivos divididos en líneas).

33. ¿Cuál es la necesidad de Data Locality en Hadoop?

Una de las preguntas importantes de la entrevista de big data. En HDFS, los conjuntos de datos se almacenan como bloques en DataNodes en el clúster de Hadoop. Cuando se ejecuta un trabajo de MapReduce, el asignador individual procesa los bloques de datos (divisiones de entrada). Si los datos no están presentes en el mismo nodo donde Mapper ejecuta el trabajo, los datos deben copiarse desde el DataNode donde residen a través de la red al Mapper DataNode.

Cuando un trabajo de MapReduce tiene más de cien Mappers y cada Mapper DataNode intenta copiar los datos de otro DataNode en el clúster simultáneamente, provocará una congestión en la red, lo que tendrá un impacto negativo en el rendimiento general del sistema. Aquí es donde Data Locality entra en escena. En lugar de mover una gran parte de los datos al cómputo, Data Locality mueve el cómputo de datos cerca de donde residen los datos reales en el DataNode. Esto ayuda a mejorar el rendimiento general del sistema, sin causar demoras innecesarias.

34. ¿Cuáles son los pasos para lograr la seguridad en Hadoop?

En Hadoop, Kerberos, un protocolo de autenticación de red, se utiliza para lograr la seguridad. Kerberos está diseñado para ofrecer una autenticación robusta para aplicaciones cliente/servidor a través de criptografía de clave secreta.

Cuando utiliza Kerberos para acceder a un servicio, debe realizar tres pasos, cada uno de los cuales implica un intercambio de mensajes con un servidor. Los pasos son los siguientes:

  • Autenticación : este es el primer paso en el que el cliente se autentica a través del servidor de autenticación, después de lo cual se le entrega al cliente un TGT (Ticket Granting Ticket) con marca de tiempo.
  • Autorización – En el segundo paso, el cliente utiliza el TGT para solicitar un ticket de servicio al TGS (Ticket Granting Server).
  • Solicitud de servicio: en el paso final, el cliente usa el ticket de servicio para autenticarse en el servidor.

35. ¿Cómo puede manejar los valores faltantes en Big Data?

Pregunta final en nuestra guía de preguntas y respuestas de la entrevista de big data. Los valores perdidos se refieren a los valores que no están presentes en una columna. Ocurre cuando no hay valor de datos para una variable en una observación. Si los valores faltantes no se manejan correctamente, es probable que conduzcan a datos erróneos que, a su vez, generarán resultados incorrectos. Por lo tanto, se recomienda encarecidamente tratar correctamente los valores faltantes antes de procesar los conjuntos de datos. Por lo general, si el número de valores faltantes es pequeño, los datos se descartan, pero si hay una gran cantidad de valores faltantes, la imputación de datos es el curso de acción preferido.

En Estadística, hay diferentes formas de estimar los valores faltantes. Estos incluyen regresión, imputación de datos múltiples, eliminación por lista/por pares, estimación de máxima verosimilitud y bootstrap bayesiano aproximado.

Conclusión

Esperamos que nuestra guía de preguntas y respuestas sobre Big Data sea útil. Estaremos actualizando la guía regularmente para mantenerlo actualizado.

Si está interesado en saber más sobre Big Data, consulte nuestro programa PG Diploma in Software Development Specialization in Big Data, que está diseñado para profesionales que trabajan y proporciona más de 7 estudios de casos y proyectos, cubre 14 lenguajes y herramientas de programación, prácticas talleres, más de 400 horas de aprendizaje riguroso y asistencia para la colocación laboral con las mejores empresas.

Aprenda cursos de desarrollo de software en línea de las mejores universidades del mundo. Obtenga Programas PG Ejecutivos, Programas de Certificado Avanzado o Programas de Maestría para acelerar su carrera.

Liderar la revolución tecnológica basada en datos

Más de 400 horas de aprendizaje. 14 idiomas y herramientas. Estado de ex alumnos del IIIT-B.
Programa de Certificado Avanzado en Big Data de IIIT Bangalore