As 30 principais perguntas e respostas de entrevistas de data warehouse em 2022 [para calouros e experientes]

Publicados: 2021-01-06

As perguntas da entrevista de data warehouse listadas neste artigo serão úteis para aqueles que estão na carreira de data warehouse e business intelligence. Com o advento do aprendizado de máquina, um grande volume de dados precisa ser analisado para obter os insights e implementar os resultados mais rapidamente. Já se foram os dias em que as etapas de processamento de dados eram armazenamento, assimilação, busca e processamento de dados. Mas à medida que o volume de dados aumenta, esses dados precisam ser processados e mostrar resultados instantâneos.

Todos os negócios, como saúde, BFSI, serviços públicos e muitas organizações governamentais, estão mudando para o data warehouse na ciência de dados. Com isso, mais profissionais com experiência em data warehouse são contratados para que possam analisar os grandes volumes de dados e fornecer insights relevantes. Assim, as perguntas da entrevista do data warehouse tornam-se pertinentes para quebrar facilmente as entrevistas e obter conhecimento importante.

Se você é apaixonado por lidar com dados massivos e gerenciar bancos de dados, um data warehouse é uma ótima opção de carreira para você. Neste artigo, você obterá as perguntas da entrevista do data warehouse que podem ajudá-lo na sua próxima preparação para a entrevista. As perguntas são do nível básico ao especialista, portanto, tanto os profissionais mais novos quanto os experientes serão beneficiados com essas perguntas da entrevista do data warehouse .

Índice

Perguntas da entrevista do data warehouse

Q1: O que é análise de dados em termos de data warehouse?

Data Analytics é a ciência para verificar dados brutos para tirar conclusões orientadas para os negócios dos dados. O data warehouse permite a análise de dados.

Q2: Definir um data warehouse orientado a assunto?

Os data warehouses orientados por assunto armazenam dados em torno de um ponto específico, como vendas, cliente e produto.

Q3: O que significa OLAP e quais são seus tipos?

OLAP é um sistema que processa, gerencia e coleta dados multidimensionais para gerenciamento. Significa Processamento Analítico Online.

Existem quatro tipos de servidores OLAP abaixo:

OLAP híbrido
OLAP relacional
Servidores SQL especializados
OLAP multidimensional

Q4: Qual é a diferença entre OLAP e OLTP?

O OLAP é uma ferramenta de software usada para análise de dados que auxilia nas decisões de negócios, enquanto o OLTP é um aplicativo orientado a transações usado em uma arquitetura de três camadas. Abaixo estão algumas das diferenças entre OLAP e OLTP:

OLAP (Processamento Analítico Online)	OLTP (Processamento de Transações Online)
Ele contém os dados históricos coletados de diferentes bancos de dados.	Ele contém dados operacionais.
É usado em análise de dados, mineração de dados e tomada de decisões.	Ele é orientado a aplicativos e é usado para várias tarefas relacionadas a negócios.
Ele armazena uma enorme quantidade de dados e está em TB.	Ele armazena uma pequena quantidade de dados e é armazenado em MB, GB, etc.
Ele funciona lentamente porque o tamanho dos dados é grande.	Ele funciona muito rápido e as consultas ocorrem em 5% dos dados armazenados.
Ele precisa do backup de dados apenas de tempos em tempos.	Backup e recuperação de dados ocorrem regularmente.
É usado principalmente para uma operação de leitura com a operação de gravação ocorrendo raramente.	É usado para operações de leitura e gravação.

Q5: Quais funções o OLAP executa?

Algumas das principais funções executadas pelo OLAP são Pivot, Drill-down, Roll-up, Slice e Dice.

Q6: O que é o Diagrama ER?

ER Diagram significa Entity-Relationship Diagram que mostra as inter-relações entre as entidades no banco de dados.

Q7: O que é SCD?

SCD significa dimensões que mudam lentamente e se aplica a esses casos em que os registros mudam ao longo do tempo.

Q8: Defina os tipos de SCD.

Existem 3 tipos de SCD, conforme indicado abaixo:

SCD 1: O novo registro substitui o registro original.

SCD 2: O novo registro é adicionado à tabela de clientes existente

SCD 3: Os dados originais são alterados para inserir novos dados.

Q9: O que é um esquema de floco de neve?

Snowflake Schema é um esquema com uma tabela de dimensão primária. Uma ou mais dimensões podem ser unidas na tabela de dimensão primária. É a única tabela que pode se unir à tabela de fatos.

Q 10: Defina o esquema em estrela.

Star Schema refere-se ao gerenciamento da tabela de forma que os resultados possam ser recuperados prontamente no ambiente de data warehouse.

Q11: Defina o esquema BUS.

O esquema BUS inclui o conjunto de definição padronizada e dimensão confirmada se houver uma tabela de fatos.

Q 12: Definir Metadados.

Refere-se a dados sobre os dados. Os Metadados consistem em detalhes como ordenação dos campos, várias colunas usadas, tipos de dados dos campos, largura limitada e largura fixa.

Q13: Defina a dimensão central.

Core Dimension é uma tabela de dimensões que é usada principalmente para data mart ou uma única tabela de fatos.

Q14: Defina os loops no data warehouse.

Esses loops existem entre as tabelas no data warehouse. Se houver algum loop entre as tabelas, a geração da consulta levará mais tempo e criará um enigma. Portanto, é sempre recomendável evitar qualquer loop entre as tabelas.

Q15: Explique XMLA.

XMLA é chamado de XML for Analysis, que oferece o método padrão para acessar dados de OLAP, mineração de dados e outras fontes de dados disponíveis na Internet. É um protocolo de acesso a objetos simples que usa os métodos descobrir e executar. O método de descoberta recupera os dados da Internet e o método de execução é usado para executar aplicativos em diferentes fontes de dados.

Leia: Perguntas da entrevista sobre ciência de dados

Q16: Explique as diferenças entre banco de dados e data warehouse.

Um banco de dados é diferente do data warehouse, pois o banco de dados usa o modelo relacional para armazenamento de dados. Em contraste, o data warehouse usa outros esquemas e o esquema inicial é um deles. Abaixo estão algumas das diferenças entre um banco de dados e um data warehouse:

Funcionalidade	Base de dados	Armazém de dados
Tipo de dados	Dados relacionais ou dados orientados a objetos	Dados de grande volume
Operações	Processamento de transações	Modelagem de dados e análise de dados
Dimensões	Dados bidimensionais	Dados multidimensionais
Projeto de dados	baseado em ER	Esquema estrela e floco de neve
Tamanho dos dados	Pequeno	Grande
Funcionalidade	Alto desempenho e disponibilidade	Alta flexibilidade

Q17: Defina o Cubo no Data warehouse.

Cubos em um Data warehouse são a representação de dados multidimensionais. O corpo do cubo consiste em valores de dados e a borda do cubo contém membros de dimensão.

Q18. Explique os tipos de um data warehouse?

O Data warehouse é dos 3 tipos a seguir:

Enterprise Data Warehouse: No Enterprise Data Warehouse, os dados organizacionais de várias áreas funcionais são mesclados de forma centralizada. Isso ajuda na extração e transformação de dados, o que fornece uma visão geral detalhada de qualquer objeto no modelo de dados.
Armazenamento de dados operacionais: Este armazém de dados ajuda a acessar os dados diretamente do banco de dados e também suporta o processamento de transações. Ele integra dados de contraste de diferentes fontes, que suportam várias operações de negócios posteriormente.
Data Mart: Este data warehouse armazena os dados de uma área funcional específica. Além disso, ele contém os dados na forma de subconjuntos, que são armazenados no data warehouse. Reduz o grande volume de dados para que os usuários os analisem com eficiência e obtenham insights.

Q19: Entre OLAP multidimensional e OLAP relacional, qual funciona mais rápido?

O OLAP multidimensional funciona mais rápido que o OLAP relacional.

OLAP Multidimensional: No MOLAP, os dados são armazenados no cubo multidimensional. O armazenamento dos dados ocorre em formatos proprietários, como o arquivo PowerOLAP.olp. Esses produtos são compatíveis com o Excel e facilitam as interações de dados.
OLAP Relacional: Nos produtos OLAP Relacional, o banco de dados relacional pode ser acessado com SQL, que é uma linguagem padrão utilizada para manipular dados em RDBMS. Ao realizar o processamento, ele aceita as solicitações do cliente, que são então traduzidas em consultas SQL e, em seguida, passadas para o RDBMS.

Q20: Explique as diferenças entre agrupamento hierárquico divisivo e agrupamento aglomerativo.

No método de agrupamento hierárquico aglomerativo, os agrupamentos são lidos de baixo para cima, o que significa que o programa primeiro lê o subcomponente e depois o pai. Por outro lado, o agrupamento hierárquico divisivo usa a abordagem de cima para baixo na qual os dados no nível pai são lidos primeiro e depois no nível filho.

No método hierárquico Aglomerativo, os objetos estão presentes e cada objeto constrói seu cluster, e todos esses clusters juntos formam um grande cluster. Esse método consiste principalmente na fusão contínua que ocorre até que um único grande cluster seja criado, enquanto no método de cluster divisivo ocorre a divisão dos clusters. O cluster pai é dividido em clusters menores. Essa divisão de clusters continua até que cada cluster consista em um único objeto.

Saiba mais: Data Science vs Data Mining: Diferença entre Data Science e Data Mining

Q21: Qual é o método camaleão em um data warehouse?

Chameleon é o método de agrupamento hierárquico no data warehouse. Este método funciona no grafo esparso que consiste em nós e arestas. Esses nós representam os itens de dados e as arestas representam os pesos. Com esta representação, os conjuntos de dados podem ser criados e acessados com facilidade superando as deficiências dos métodos existentes. O método funciona em duas fases:

Na primeira fase, o gráfico é particionado como parte do qual os itens de dados são divididos em vários subgrupos.
Na segunda fase, são pesquisados os clusters genuínos que podem ser combinados com outros subclusters criados na primeira fase.

Q22: Qual é o plano de execução e qual abordagem o otimizador usa durante o plano de execução?

O plano de execução é o plano utilizado pelo otimizador para escolher a combinação de etapas para a execução de consultas SQL. O otimizador seleciona a combinação de etapas mais eficiente para executar as consultas SQL. O otimizador usa as duas abordagens no plano de execução, ou seja, baseado em regras e baseado em custos.

Q23: Quais são as diferentes ferramentas usadas em ETL (Extração, Transformação e Carregamento)?

Abaixo está a lista de ferramentas ETL:

informática
Oráculo
Fase de dados
Junção de dados
Ab Initio
Construtor de armazém

P24: Como os metadados e os dicionários de dados são diferentes?

Metadados descrevem os dados. Ele contém todas as informações sobre os dados, como a fonte dos dados, quem os coletou e o formato dos dados. É crucial entender as informações sobre os dados armazenados nos data warehouses. Por outro lado, um dicionário de dados é a definição básica do banco de dados. O dicionário de dados é composto pelos arquivos que estão presentes no banco de dados, contagem de registros presentes em cada arquivo e todas as informações sobre os campos do banco de dados.

Q25: Definir armazém de dados virtual.

Um data warehouse virtual oferece uma visão coletiva dos dados completos. É como o modelo de dados lógico dos Metadados, e não possui dados históricos. Um data warehouse virtual é a melhor maneira de traduzir dados brutos e apresentá-los de forma que sejam usados pelos tomadores de decisão. Os dados são representados como um mapa semântico que permite que os usuários finais visualizem os dados de forma virtualizada.

Leia também: Perguntas e respostas da entrevista com analista de dados

P26: Quais abordagens são usadas para projetar o data warehouse?

Existem basicamente duas abordagens usadas para o projeto de data warehouse:

Abordagem Inmon: é a abordagem de cima para baixo na qual primeiro o data warehouse é criado e, em seguida, os data marts são construídos. Nessa abordagem, o data warehouse atua como o centro da Fábrica de Informações Corporativas e o data warehouse atua como uma estrutura lógica.
Abordagem Kimball: É a abordagem de baixo para cima na qual o data mart é criado primeiro. O data mart então se integra para formar o data warehouse completo. A integração de diferentes data marts é chamada de arquitetura de barramento de data warehouse.

P27: O que é um data warehouse em tempo real e quais são seus benefícios?

Um data warehouse em tempo real é o conceito de data warehouse que captura dados em tempo real assim que ocorrem e os disponibiliza no data warehouse.

Benefícios de um data warehouse em tempo real:

Ajuda na tomada de decisão fácil.
Ele remove a janela de lote.
Ele resolve o problema relacionado à carga de dados ideal.
Ele oferece uma maneira otimizada de executar as transformações no banco de dados.
Oferece recuperação rápida de dados.

Q28: Explique a arquitetura de 3 camadas do ciclo ETL.

O ciclo ETL consiste em menos de 3 camadas:

Camada de teste: esta camada armazena os dados extraídos de várias estruturas de dados.
Camada de integração de dados: Os dados da camada de teste são transferidos para o banco de dados com a ajuda da camada de integração. Esses dados são então organizados em grupos hierárquicos, também chamados de dimensões, agregados e fatos. As dimensões e os fatos juntos formam o esquema.
Camada de acesso: os usuários finais acessam os dados por meio da camada de acesso e realizam a análise dos dados.

P29: O que é a limpeza de dados?

A limpeza de dados é o método de remoção de dados permanentemente do armazenamento de dados. É diferente da exclusão de dados, pois a exclusão de dados apenas remove os dados temporariamente, enquanto a limpeza de dados remove os dados permanentemente e o espaço livre é usado para outros fins. A limpeza de dados emprega métodos diferentes. Os dados removidos podem ser arquivados, se necessário.

Q30: Defina as fases de teste em um projeto.

O teste ETL consiste em cinco etapas, conforme mencionado abaixo:

Identificação de requisitos e fontes de dados
Aquisição de dados
Implementação da lógica de negócios
Construção e publicação de dados
Comunicando

Confira também: Data Science vs Big Data: Diferença entre Data Science e Big Data

Resumindo

Estas foram as perguntas mais frequentes para entrevistas de data warehouse que certamente o ajudarão na preparação da sua próxima entrevista. Se você quiser saber mais sobre Data warehouse, visite upGrad e obtenha um conhecimento mais aprofundado. Você pode encontrar informações relevantes que o ajudarão a entender corretamente as perguntas da entrevista do data warehouse .

Se você está curioso para aprender sobre ciência de dados, confira o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1 -on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

Como iniciar uma carreira em armazenamento de dados?

Data Warehousing tornou-se uma posição de trabalho sob demanda devido à crescente coleta e uso de dados para todas as organizações. Toda organização está procurando profissionais que possam lidar com dados e convertê-los em insights acionáveis para obter insights a partir dos dados.

Algumas das habilidades necessárias para entrar no armazenamento de dados são:

1. Pesquisa de alto nível, resolução de problemas e habilidades de análise.
2. Um diploma de bacharel em Ciência da Computação ou qualquer outra área relacionada como TI.
3. Conhecimento adequado da teoria de banco de dados relacional
4. Experiência em trabalhar com sistemas de banco de dados por 3-5 anos
5. Experiência em trabalhar com modelagem e arquitetura de dados
6. Domínio da comunicação verbal e escrita.
7. Bom em ouvir para entender as informações fornecidas por membros técnicos e não técnicos

Essas são algumas das habilidades que é preciso começar a trabalhar para construir sua carreira na área de data warehousing.

Como iniciar uma carreira em armazenamento de dados?

Existem certos requisitos que é preciso cumprir para construir sua carreira no campo de data warehousing.

1. Em primeiro lugar, qualquer indivíduo precisa possuir um diploma de bacharel em ciência da computação ou áreas afins.
2. Uma experiência mínima de 2 anos em codificação e administração de SQL Server é importante.
3. Compreensão da integração do servidor e trabalho com ferramentas ETL
4. Conhecimento adequado de técnicas de armazenamento de dados e modelagem de dados
5. Habilidades básicas do MS Office

Fazer um curso pode tornar todo o processo bastante simples para você. Existem muitos programas de treinamento oferecidos por diferentes universidades e plataformas para gerenciamento e administração de banco de dados. Mais tarde, você pode aceitar um trabalho de nível básico para ganhar experiência e entender os prós e contras do campo.

Quais são as diferentes etapas do armazenamento de dados em qualquer empresa?

Com base no tamanho da empresa, idade e setor, os estágios de armazenamento de dados estarão dentro dos quatro mencionados abaixo.

1. Banco de dados offline
2. Armazém de dados offline
3. Armazém de dados em tempo real
4. Armazém de Dados Integrado

Toda empresa começa no 1º estágio e tenta chegar ao 4º estágio para integrar tudo nos sistemas de negócios. O funcionamento adequado dos data warehouses pode tornar mais fácil para o gerente de data warehouse analisar os dados e gerar insights acionáveis a partir deles.