Arquitetura de data warehouse: tudo o que você precisa saber

Publicados: 2020-04-30

Neste mundo centrado em dados, não é surpresa que, mais cedo ou mais tarde, cada um de nós estará gerando 1,7 MB de dados por segundo . Mas para onde iriam todos esses dados? Não deveria haver uma unidade de armazenamento para guardar todas essas informações com segurança, para que possam ser revividas quando necessário?

E se lhe dissermos que existe tal unidade de armazenamento? Sem surpresa, é chamado de Data Warehouse. É uma ferramenta analítica contendo dados e informações de fontes operacionais, construída para auxiliar na tomada de decisões e relatórios.

Hoje, o mercado global de armazenamento de dados aumentou a um ponto em que se espera um crescimento de 16% CAGR nos próximos anos.

Então, vamos mergulhar fundo no aprendizado sobre o data warehouse e sua arquitetura.

Saiba mais: O que é o Data Warehousing e Data Mining

Índice

O que é um Data Warehouse?

Um local para guardar todos os dados passados ​​e comutativos provenientes de uma ou mais fontes é chamado de data warehouse. O objetivo principal de ter um data warehouse é suavizar os processos de inteligência de negócios e relatórios de uma empresa. Essencialmente, ele realiza consultas e análises nos dados que armazena.

Como um data warehouse possui dados transacionais de várias fontes, ele ajuda as empresas a:

  • Preservar registros antigos
  • Avalie os dados existentes e identifique as brechas nas operações

Estrutura de análise de negócios para projetar um data warehouse

Normalmente, um analista de dados coleta dados relevantes do warehouse e os analisa para ajudar os negócios a melhorar suas operações. O uso do data warehouse é útil, pois ajuda a obter acesso aos dados de forma rápida e eficiente, aumentando assim a produtividade geral.

Além disso, você pode obter uma visão abrangente dos clientes e de todos os produtos. Dessa forma, você pode garantir um bom relacionamento com o cliente.

Mas para que tudo isso aconteça, o analista de dados precisaria primeiro entender as necessidades do negócio. E para isso, eles precisam criar uma estrutura de análise de negócios.

Somente após a construção de uma estrutura de análise de negócios é que podemos avançar para o projeto de um data warehouse. Existem três visões sobre isso:

  • Visão de cima para baixo : nesta visão, você pode ver as informações relevantes que são necessárias para projetar o armazém.
  • Exibição da fonte de dados : apresenta os dados que são capturados, armazenados e gerenciados.
  • Exibição do data warehouse : lista as tabelas de fatos e as tabelas de dimensões e os dados no warehouse.
  • Visualização de consulta de negócios : Nela, você vê os dados da perspectiva do usuário final.

Depois de visualizar os dados de todos esses pontos de vista, é hora de aprender sobre os três tipos de arquitetura de data warehouse.

Três tipos de arquitetura de data warehouse

Toda vez que você planeja projetar um data warehouse para uma empresa, você pode considerar um roteiro para construir seu data warehouse e também as três camadas de arquitetura a seguir.

  1. Camada única : é a principal responsável por gerar um conjunto de pacotes de dados próximo e reduzir seu volume geral. No entanto, esse tipo não é recomendado para empresas com dados complexos e vários fluxos de dados.
  2. Two Tier : Neste tipo de arquitetura, as fontes de dados são divididas e assim, tornando o processo de organização e armazenamento de dados mais eficiente.
  3. Três camadas : esse tipo de arquitetura de warehouse é o tipo mais preferido, pois fornece insights realmente valiosos a partir de dados brutos, produzindo assim um fluxo organizado de dados.

É composto pelas seguintes três camadas:

  • A camada inferior , que contém os servidores do warehouse. Aqui, os dados são limpos e carregados usando ferramentas de back-end.
  • A camada intermediária consiste em um servidor OLAP. Essa camada fornece ao usuário uma visão abstrata do banco de dados, atuando como uma conexão entre o usuário final e o banco de dados.
  • A camada superior tem a API e as ferramentas (ferramentas de consulta, mineração de dados, análise e relatórios) para extrair dados do warehouse.

Componentes da Arquitetura de Data Warehouse

Para tornar o funcionamento da arquitetura gerenciável, o warehouse contém um servidor RDBMS, cercado por cinco componentes principais.

Aqui estão os cinco principais componentes da arquitetura de data warehouse.

Banco de dados do armazém de dados

A parte central da arquitetura do warehouse é um banco de dados contendo todas as informações de negócios que as tornam compreensíveis para relatórios. Claramente, isso implica que você deve escolher qual tipo de banco de dados você usaria para armazenar os dados em seu warehouse.

A seguir estão os quatro tipos de banco de dados que você pode utilizar:

  • Os bancos de dados relacionais são os bancos de dados baseados em linhas que você geralmente encontra ou usa todos os dias. Isso inclui Microsoft SQL Server, SAP, Oracle e IBM DB2.
  • Os bancos de dados analíticos são criados decisivamente para o armazenamento de informações para apoiar e supervisionar a análise. Por exemplo, Teradata e Greenplum.
  • Os aplicativos de data warehouse não são, na verdade, um tipo de banco de dados de capacidade. São aplicativos que oferecem softwares para gerenciamento de dados, como SAP Hana, Oracle Exadata e IBM Netezza.
  • Bancos de dados baseados em nuvem são aqueles que podem ser facilitados e recuperados na nuvem com o objetivo de que você não precise adquirir nenhum hardware para configurar seu data warehouse. Por exemplo, Amazon Redshift, Microsoft Azure SQL e Google BigQuery.

Se você estiver interessado em aprender mais sobre ciência de dados, confira nosso treinamento em ciência de dados das principais universidades.

Ferramentas de extração, transformação e carregamento (ETL)

Os aparelhos ETL são fundamentais para uma arquitetura de data warehouse. Eles ajudam a separar as informações de várias fontes, alterando-as em um arranjo razoável e empilhando-as em um depósito.

A ferramenta ETL que você escolher decidirá:

  • O tempo consumido na extração de informações
  • Maneiras de extrair dados
  • Tipo de mudanças aplicadas e o esforço necessário para fazê-lo
  • Definição de regra de negócios para validação e limpeza de informações para melhorar a análise do produto final
  • Preenchendo informações perdidas
  • Plotando a circulação de dados do cofre de chaves para seus aplicativos de BI

Metadados

Os metadados representam o data warehouse e oferecem um sistema de informações. Ele ajuda no desenvolvimento, proteção, manuseio e utilização do armazém. É de dois tipos:

  • Metadados Técnicos : Inclui dados que podem ser utilizados por engenheiros e gerentes ao executar tarefas de desenvolvimento e organização de armazém.
  • Metadados de Negócios : Inclui dados que oferecem uma posição efetivamente justificável dos dados no warehouse.

Os metadados assumem um papel significativo para as organizações compreenderem os dados presentes no warehouse e transformá-los em informações utilizáveis.

Ferramentas de Acesso ao Data Warehouse

Um data warehouse usa um banco de dados ou grupo de bancos de dados como um estabelecimento. As empresas, em sua maioria, não podem trabalhar com bancos de dados de forma legítima. Esta é a razão pela qual eles usam várias ferramentas, incluindo:

  • Ferramentas de consulta e relatórios : auxiliam os usuários na criação de relatórios corporativos em planilhas, cálculos ou recursos visuais inteligentes para realizar uma análise aprofundada.
  • Dispositivos OLAP : ajudam a desenvolver um data warehouse multidimensional e conduzem análises de big data de várias perspectivas.
  • Ferramentas de mineração de dados : sistematizam a metodologia de reconhecimento de clusters e conexões em enormes quantidades de dados, utilizando estratégias de modelagem estatística. Saiba mais sobre técnicas de mineração de dados.
  • Ferramentas de desenvolvimento de aplicativos : ajudam a criar relatórios personalizados e apresentá-los em traduções, esperadas para fins de relatórios específicos.

Barramento de armazém de dados

Ele ajuda a decidir a progressão dos dados no warehouse. Esse fluxo pode ser organizado como Inflow, Upflow, Downflow, Outflow e Metaflow.

Ao projetar um barramento de dados, você precisa pensar nas medições comuns e nos fatos dos data marts.

Data Marts

Esta é uma camada de entrada utilizada para obter informações para os usuários. Ele é apresentado como uma possibilidade para um data warehouse de grande porte, pois requer apenas uma pequena quantidade de tempo e dinheiro para ser criado. De qualquer forma, não há um significado padrão de um data mart, pois varia de indivíduo para indivíduo.

De forma simplista, um data mart é um auxiliar de um data warehouse e é usado para segmentar informações, que são feitas para um determinado grupo de usuários.

Camadas de Arquitetura de Data Warehouse

A construção de um data warehouse depende principalmente de um negócio específico. E assim, cada arquitetura tem quatro camadas. Vamos estudá-los em detalhes abaixo.

Camada de fonte de dados

A camada de fonte de dados é o local onde informações exclusivas, reunidas de uma variedade de fontes internas e externas, residem no banco de dados social. A seguir estão os exemplos da camada de fonte de dados:

  • Dados operacionais — Informações sobre produtos, informações sobre estoque, informações de marketing ou informações de RH
  • Dados de mídia social – acessos ao site, fama do conteúdo, conclusão da página de contato
  • Dados externos — Informações demográficas, informações de estudos, informações estatísticas

Embora a maioria dos data warehouses gerencie dados organizados, deve-se pensar na futura utilização de fontes de dados não estruturados, por exemplo, contas de voz, imagens digitalizadas e texto não estruturado. Esses fluxos de dados são depósitos significativos de informações e devem ser vistos ao construir seu depósito.

Camada de preparação de dados

Essa camada fica entre as fontes de informação e o data warehouse. Nesta camada, as informações são separadas de várias fontes de dados internas e externas. Como os dados de origem vêm em várias organizações, a camada de extração de dados usará várias tecnologias e dispositivos para extrair as informações necessárias.

Depois que os dados extraídos forem empilhados, eles serão expostos a verificações de qualidade de alto nível. O resultado conclusivo será dados perfeitos e organizados que você empilhará em seu data warehouse. A camada de preparo contém as partes fornecidas:

  • Banco de dados de desembarque e área de preparação

O banco de dados de destino armazena as informações recuperadas da fonte de dados. Antes de os dados irem para o warehouse, o processo de preparação faz verificações de qualidade rigorosas neles. Arranjar é um passo básico na arquitetura. Informações ruins resultarão em dados inadequados, e o resultado é uma dinâmica de negócios ruim. A camada de organização é onde você precisa fazer alterações de acordo com o processo de negócios para lidar com fontes de informações não estruturadas.

  • Ferramenta de Integração de Dados

As ferramentas de extração, transformação e carregamento (ETL) são as ferramentas de dados usadas para extrair informações das estruturas de origem, alterar e preparar informações e carregá-las no warehouse.

Leia: Salário de Cientista de Dados na Índia

Camada de armazenamento de dados

Esta camada é o lugar onde os dados que foram lavados na zona de organização são guardados como um arquivo central solitário. Dependendo das necessidades do seu negócio e da arquitetura do seu armazém, seu armazenamento de dados pode ser um centro de armazenamento de dados, data mart (armazém de dados recriado de certa forma para departamentos específicos) ou um Armazenamento de Dados Operacionais (ODS).

Camada de apresentação de dados

É aqui que os usuários se comunicam com os dados limpos e classificados. Essa camada da arquitetura de dados oferece aos usuários a capacidade de consultar os dados para obter informações sobre itens ou serviços, dividir os dados para conduzir situações de negócios teóricas e criar relatórios computadorizados ou especialmente designados.

Você pode utilizar um OLAP ou instrumento de relatório com uma interface gráfica de usuário (GUI) fácil de entender para ajudar os usuários a construir suas consultas, realizar análises ou planejar seus relatórios.

Características do Data Warehouse

Um data warehouse é orientado por assunto, não volátil, variável no tempo e um conjunto integrado de dados para permitir um processo de tomada de decisão rápido e eficiente para uma organização.

  • Orientado ao assunto : um data warehouse pode ser utilizado para examinar um ramo específico do conhecimento. Por exemplo, “vendas” pode ser um assunto específico.
  • Integrado : Um data warehouse incorpora informações de diferentes fontes. Por exemplo, a fonte A e a fonte B podem ter vários métodos para distinguir um item, no entanto, em um armazém, haverá apenas um método solitário para reconhecer um item.
  • Variante de tempo : um armazém contém dados históricos. Por exemplo, pode-se recuperar informações de 3 meses, meio ano, um ano ou informações significativamente mais antigas de um data warehouse. Isso aparece de forma diferente em relação a uma estrutura de transações, onde apenas as informações mais recentes são armazenadas. Por exemplo, uma estrutura de transações pode conter a localização mais recente de um cliente, enquanto um data warehouse pode conter todas as localizações relacionadas a um cliente.
  • Não Volátil : Uma das melhores características de um data warehouse é que, uma vez que os dados estejam armazenados nele, é impossível que eles mudem. Assim, as informações registradas no armazém nunca serão modificadas.

Como usar a arquitetura de data warehouse?

Construir qual tipo de banco de dados sua empresa ou empresa precisa e como você pretende colaborar com ele é crucial ao procurar insights. Da mesma forma, é fundamental avaliar quem inspecionará as informações e de quais fontes eles precisam ao considerar o design do data warehouse.

Apesar do fato de que as brincadeiras de data warehouse versus data mart não são constantemente relevantes para organizações menores, aquelas com mais grupos, divisões e necessidades explícitas podem lucrar com um data mart. A natureza específica por assunto de um data mart o torna uma parte essencial de sua arquitetura de data warehouse.

Além disso, dependendo do tamanho de sua organização, vários tipos de projetos de armazém podem ser cada vez mais práticos. Entender qual é o melhor depende de seus dados, do tamanho de seus conjuntos e de suas necessidades de negócios.

Conclusão

Um data warehouse é uma estrutura de ciência de dados que contém informações autênticas e comutativas de uma ou várias fontes. É uma excelente maneira de acessar dados antigos e novos, obter insights e melhorar os processos de negócios analisando os dados atuais.

Além disso, os conceitos de data warehousing são orientados por assunto, pois oferecem dados sobre o assunto em vez das atividades em andamento da associação. No armazém, a incorporação implica a fundação de uma unidade de medida típica para cada dado comparável das várias bases de dados. Como mencionado anteriormente, também é não volátil, o que significa que as informações anteriores não são excluídas quando novas informações são inseridas nela.

A característica de variação de tempo do data warehouse permite um alto prazo de usabilidade realista.

Existem cinco partes fundamentais de um data warehouse. 1) Banco de dados 2) Ferramentas ETL 3) Metadados 4) Ferramentas de consulta 5) DataMarts

As quatro classes fundamentais de ferramentas de consulta são ferramentas de consulta e relatório, ferramentas de desenvolvimento de aplicativos, aparelhos de mineração de dados e ferramentas OLAP.

As ferramentas de busca, mudança e realocação de informações são utilizadas para realizar todas as transformações e contornos.

Na arquitetura de data warehouse, a meta-tag assume um trabalho significativo, pois indica a origem, o uso, as qualidades e os destaques dos dados no data warehouse.

Esperamos que as informações deste artigo tenham ajudado você a entender os fundamentos da arquitetura de data warehouse. Para mais informações, entre em contato com os especialistas da upGrad. Basta nos enviar um e-mail e entraremos em contato para ajudá-lo com suas dúvidas.

Se você está curioso para aprender sobre ciência de dados, confira o Programa PG Executivo em Ciência de Dados do IIIT-B & upGrad, que é criado para profissionais que trabalham e oferece mais de 10 estudos de caso e projetos, workshops práticos práticos, orientação com especialistas do setor, 1 -on-1 com mentores do setor, mais de 400 horas de aprendizado e assistência de trabalho com as principais empresas.

Qual é a arquitetura de um data warehouse?

O método para definir toda a arquitetura de processamento de comunicação de dados, bem como a apresentação que existe para os clientes finais, é a arquitetura de data warehouse. Cada data warehouse é diferente e cada um deles é caracterizado com base nos componentes vitais padrão.

Em palavras simples, um data warehouse é um sistema de informação que consiste em dados comutativos e históricos de uma ou várias fontes. O processo de reporte e análise de dados nas organizações é simplificado com a ajuda de diferentes conceitos de data warehousing. Existem diferentes abordagens para construir uma arquitetura de data warehouse. Qualquer abordagem é usada com base nos requisitos das organizações.

Quanto ganha em média um arquiteto de data warehouse?

Arquiteto de Data Warehouse é um cargo muito requisitado, onde você pode esperar excelentes pacotes salariais. Em média, o salário de um Arquiteto de Data Warehouse é de Rs. 13.00.000 por ano. Mesmo se você está começando sua carreira neste campo, você pode esperar um salário básico de Rs. 10.00.000 por ano. Quando você ganha mais experiência e sobe na escada, o salário pode chegar a Rs. 22.00.000 por ano.

Sem dúvida, o pacote salarial dependerá até da empresa em que você está entrando, dos níveis de experiência e, mais importante, da localização geográfica.

Qual é o fluxo correto da arquitetura de data warehouse?

Em cada banco de dados operacional, há um certo número fixo de operações que devem ser aplicadas. Existem diferentes técnicas bem definidas para a entrega de soluções adequadas. O armazenamento de dados é mais eficaz quando o fluxo correto da arquitetura de armazenamento de dados é seguido completamente.

Os quatro processos diferentes que contribuem para um data warehouse são extrair e carregar os dados, limpar e transformar os dados, fazer backup e arquivar os dados e realizar o processo de gerenciamento de consultas direcionando-os às fontes de dados apropriadas.