As 28 principais perguntas e respostas da entrevista de engenheiro de dados para iniciantes e experientes

Publicados: 2020-03-11

Preparando-se para uma entrevista, mas não sabe como fazer? Você pode começar com nossa lista de perguntas e respostas da entrevista de engenheiro de dados.

As entrevistas com engenheiros de dados são uma das mais difíceis de decifrar. Há tanta coisa que você deve saber. Mas não se preocupe, pois nossa lista de perguntas da entrevista o ajudará nesse sentido. Depois de passar por essa lista, você saberá as respostas para muitas perguntas importantes que um recrutador pode fazer. Além disso, esta lista lhe dará uma ideia do que você deve estudar e aprender enquanto se prepara para a entrevista.

Vamos começar.

Principais perguntas e respostas da entrevista do engenheiro de dados

Q.1 – O que é Engenharia de Dados?

A engenharia de dados é uma abordagem de engenharia de software para desenvolver e projetar sistemas de informação. Ele se concentra na coleta e análise de dados. Enquanto os cientistas de dados realizam várias tarefas com big data, alguém precisa coletar todos esses dados antes, e os engenheiros de dados realizam essa tarefa. Os engenheiros de dados também são responsáveis pelo desenvolvimento e manutenção de bancos de dados. Os engenheiros de dados convertem dados brutos em dados utilizáveis.

Q.2 – O que você entende por Modelagem de Dados?

Quando você cria um modelo de dados para um sistema de informações para poder rastrear seus dados, isso é chamado de modelagem de dados. Esses modelos de dados tornam-se tabelas em um banco de dados (banco de dados). Por exemplo, se você deseja analisar o comportamento de seus clientes, cada cliente em seu banco de dados seria um modelo de dados. É a representação conceitual de valores de dados associados a regras.

Q.3 – O que é Hadoop?

O Hadoop é uma coleção de utilitários de software de código aberto que permite usar uma rede de vários computadores para resolver problemas relacionados a big data. Ele tem vários componentes que permitem processar grandes quantidades de dados. O desenvolvedor do Hadoop é a base do Apache. Sua extensa coleção de utilitários e componentes permite que você execute muitos aplicativos poderosos de big data com eficiência.

Q.4 – Quais são os diferentes componentes do Hadoop?

O Hadoop é composto principalmente de 4 componentes, e eles são HDFS, MapReduce, YARN e Hadoop Common.

HDFS é o sistema de arquivos que armazena todos os dados do Hadoop. Tem uma largura de banda alta, pois é um sistema de armazenamento distribuído.

MapReduce processa grandes quantidades de dados; O YARN é o gerenciamento de recursos do Hadoop e aloca os recursos necessários de acordo. Hadoop Common é um grupo de bibliotecas e utilitários que você pode usar no Hadoop.

Q.5 – O que significa HDFS?

O HDFS é um componente do Hadoop. HDFS significa Hadoop Distributed File System.

Q.6 – O que é um NameNode?

Um NameNode faz parte do armazenamento de dados no HDFS e rastreia os diferentes arquivos presentes nos clusters. NameNodes não armazenam dados. Eles armazenam metadados de DataNodes, onde o HDFS armazena seus dados reais.

Q.7 – Qual é a diferença entre dados não estruturados e estruturados?

Os sistemas armazenam dados não estruturados em estruturas de arquivos não gerenciadas, enquanto o armazenamento de dados estruturados é DBMS. O escalonamento de esquema de dados estruturados é desafiador, mas é bastante fácil de fazer com dados não estruturados. Você usaria ELT (Extrair, Transformar e Carregar) para dados estruturados. Por outro lado, você precisaria realizar processamento em lote ou entrada de dados.

Q.8 – Quantos tipos de esquemas de design estão presentes na Modelagem de Dados? O que eles são?

Existem dois tipos de esquemas de design na modelagem de dados, que são: esquema em floco de neve e esquema em estrela.

Q.9 – O que acontece quando o Block Scanner encontra um bloco de dados corrompido? Explique.

Esta é uma das perguntas populares da entrevista do engenheiro de dados . Portanto, certifique-se de prepará-lo antes que o Quando o Block Scanner encontrar um bloco de dados corrompido, o DataNode o reporte ao NameNode. Em seguida, o NameNode começa a fazer uma réplica do bloco corrompido usando um de seus modelos existentes. Se o sistema não excluir o bloco de dados corrompido, ele criará tantas réplicas quanto o fator de replicação. A contagem de replicação deve corresponder à mesma.

Q.10 – Nomeie todos os arquivos de configuração XML presentes no Hadoop.

Os arquivos de configuração XML presentes no Hadoop são HDFS-site, Mapred-site, Yarn-site e Core-site.

Q.11 – O que é um Bloco no HDFS? O que é um scanner de bloco?

No Hadoop, um bloco é a menor unidade de dados. Um scanner de bloco é um componente que verifica e verifica os blocos presentes em um DataNode. O Hadoop divide grandes arquivos de dados em pequenos blocos de dados para facilitar o armazenamento.

Q.12- Quais mensagens um DataNode envia para o NameNode?

DataNodes envia sinais para NameNodes para informá-los de que estão funcionando. O nome desses sinais é Heartbeat. E se um DataNodes falhar ao enviar uma pulsação, o NameNode determinará que ele morreu e parou de operar.

Q.13 – Indique os V's centrais do Big Data.

Os quatro V's centrais do big data são Velocidade, Variedade, Volume e Veracidade.

Q.14 – O que se entende por COSHH?

COSHH significa Cronograma Baseado em Classificação e Otimização para Sistemas Hadoop Heterogêneos.

Q.15 – Você pode descrever o Star Schema?

O esquema em estrela tem uma estrutura semelhante a uma estrela; por isso tem esse nome. O centro da estrela pode ter uma tabela de fatos com várias tabelas de dimensão associadas a ela. Os engenheiros de dados o usam para consultar conjuntos de dados substanciais.

Q.16 – O que é Esquema Floco de Neve?

Um esquema de floco de neve é uma forma de esquema em estrela. A única diferença é que tem dimensões adicionais e seu nome deriva de sua estrutura semelhante a um floco de neve. Possui tabelas de dimensões normalizadas, devido às quais possui outras tabelas.

Q.17- Quais são os principais métodos de um Redutor no Hadoop?

Existem vários métodos principais no Reducer. O primeiro é setup() que configura parâmetros, cleanup() limpa conjuntos de dados temporários e o Reducer executa o método reduce() com cada tarefa reduzida.

Q.18 – O que é FSCK?

FSCK significa Verificação do Sistema de Arquivos. É um comando do HDFS e usa esse comando para detectar problemas e inconsistências em um arquivo.

Q.19 – O Hadoop tem vários modos? Se sim, quais são eles?

Sim, o Hadoop tem três modos distintos. São eles: modo autônomo, modo totalmente distribuído e modo pseudodistribuído.

Q.20 – O que significa YARN?

YARN significa mais um negociador de recursos.

Q.21 – Como você protege o Hadoop?

Para isso, você primeiro habilitará a criptografia em repouso e em trânsito. Você precisará usar as versões seguras dos protocolos usados no Hadoop. Você permitirá que o SASL proteja os dados RPC. Você pode habilitar o SASL por meio da propriedade hadoop.rpc.protection.

Você também protegerá o canal de autenticação. O cliente pode usar o carimbo de data/hora do canal de autenticação para obter um tíquete de serviço, que você pode usar para auto-autenticação.

Q.22 – Você pode elaborar sobre HDFS (Hadoop Distributed File System)?

O Hadoop é capaz de trabalhar com sistemas de arquivos distribuídos, como FS, HFTP e S3. O Google File System é a base do HDFS e pode ser executado em um grande cluster de pequenos sistemas.

Q.23 – Quais são as diferenças entre Snowflake e Star Schema?

No esquema Star, você tem uma chance maior de redundância de dados, o que não é o caso do esquema Snowflake. O design de banco de dados do esquema Star é mais direto que o Snowflake. A junção complexa do esquema Snowflake diminui o processamento do cubo, o que não acontece com o esquema Star.

Q.24 – O que é um Heartbeat no Hadoop?

No Hadoop, existem dois tipos de nós, NameNode e DataNode. O NameNode tem a responsabilidade de armazenar os metadados dos DataNodes e acompanhar seu status. Os DataNodes enviam sinais ao NameNode para informá-los de que estão ativos e funcionando. Este sinal é o Heartbeat.

Q.25 – O que você entende por Big Data?

Quando você tem enormes quantidades de dados estruturados e não estruturados que não podem ser processados com métodos convencionais, isso é chamado de big data. Big data é o campo de análise e uso de conjuntos de dados altamente complexos para coletar informações. Os métodos tradicionais de análise de dados não funcionam bem com quantidades tão altas de dados complexos. Em big data, os engenheiros de dados têm a tarefa de analisar dados brutos e convertê-los em dados utilizáveis.

Q.26 – Quais assuntos e linguagens de programação um engenheiro de dados deve conhecer?

Um engenheiro de dados deve conhecer análise de tendências, aprendizado de máquina, SQL, Hive QL, probabilidade, regressão e álgebra linear. Um engenheiro de dados pode conhecer muitos outros assuntos, mas estes são obrigatórios.

Q.27 – Quais são as diferenças entre DAS e NAS no Hadoop?

Esta é uma das perguntas mais populares da entrevista de engenheiro de dados, portanto, preste atenção especial à sua resposta. DAS significa Direct Attached Storage e NAS significa Network Attached Storage. A capacidade de armazenamento do NAS é de 10^9 a 10^12 no byte. Por outro lado, o DAS tem uma capacidade de armazenamento de 10^9 bytes. Os custos de gerenciamento do NAS também são muito menores do que os do DAS.

Q.28 – O que significa distância entre nós no Hadoop? Como você calcularia?

No Hadoop, a distância entre dois nós é igual à soma do comprimento dos nós mais próximos. Você pode usar getDistance() para encontrar a distância entre dois nós no Hadoop.

Aprenda cursos de ciência de dados das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.

Conclusão

Com a ajuda dessas perguntas da entrevista, temos certeza de que você se preparará com bastante facilidade. As entrevistas de engenharia de dados não precisam ser estressantes. Certifique-se de dormir o suficiente antes da reunião, muitas pessoas ficam muito ansiosas.

E se você tiver alguma dúvida relacionada à engenharia de dados ou entrevistas, sinta-se à vontade para nos perguntar. Adoraríamos ajudá-lo.

Quais são as tarefas e responsabilidades dos engenheiros de dados?

Para engenheiros de dados, sua principal responsabilidade é preparar dados para fins analíticos ou operacionais. Como parte do setor de TI, esses engenheiros criam pipelines de dados que conectam dados de vários sistemas de origem. Eles combinam, consolidam e purificam dados antes de estruturá-los para uso em aplicativos de análise. A maioria das equipes analíticas das empresas consiste em engenheiros de dados e cientistas de dados que tornam os dados mais acessíveis e maximizam o ambiente de big data da empresa. Os engenheiros fornecem dados em formatos utilizáveis para cientistas de dados, que usam as informações para realizar consultas e algoritmos para análise preditiva, aprendizado de máquina e aplicativos de mineração de dados.

Quais são as habilidades necessárias para trabalhar como engenheiro de dados?

O conhecimento do desenvolvimento e gerenciamento de sistemas de banco de dados é uma obrigação para engenheiros de dados. Eles devem ser fluentes em linguagens de programação como SQL, Python, R, etc., e devem ter uma compreensão básica de aprendizado de máquina e algoritmos. Os engenheiros de dados também devem conhecer soluções de armazenamento e ferramentas ETL (Extract, Transfer, Load). A ciência de dados é uma disciplina altamente colaborativa, e os engenheiros de dados colaboram com uma variedade de partes interessadas, desde analistas de dados a diretores de tecnologia. Portanto, habilidades sociais, como boas habilidades de comunicação e altas habilidades de cooperação, devem fazer parte do conjunto de habilidades de todo engenheiro de dados.

A engenharia de dados é uma boa carreira? Quanto ganha em média um engenheiro de dados?

De acordo com o Dice 2020 Tech Job Report, a engenharia de dados é a opção de carreira de mais rápido crescimento em tecnologia em 2019, com um aumento de 50% ano a ano no número de oportunidades disponíveis. Está ganhando importância no mundo tecnológico e se tornou uma lucrativa opção de carreira à medida que cresce a demanda por gerenciamento de informações. Com um salário básico de ₹ 4.57.532, os salários dos engenheiros de dados aumentam com o aumento dos anos de experiência. Engenheiros de dados com 1-4 anos de experiência ganham um salário médio de ₹ 7.20.395, enquanto engenheiros de dados em meio de carreira com 5-9 anos de experiência e engenheiros de dados experientes com 10-19 anos de experiência ganham uma renda total média de ₹ 12.94.336 e ₹ 18.67.992, respectivamente.