Briefing: O Data Warehouse

Publicados: 2022-03-11

Empresas e consumidores estão gerando mais dados do que nunca. A proliferação de dispositivos e produtos digitais está impulsionando a expansão exponencial do universo digital. Embora nocionalmente um ativo, a escala desses dados apresenta um desafio: como as empresas podem organizar suas informações de forma prática para revelar insights acionáveis?

Enquanto a mineração de dados e a inteligência de negócios fornecem a extração e apresentação valiosas de tais insights, o data warehouse (DWH) é a agregação e reorganização preparatória dos vastos dados subjacentes, que geralmente residem em vários locais. Compreender o papel do DWH dentro do ecossistema mais amplo de ciência de dados, mineração de dados e inteligência de negócios é essencial para o gerente moderno.

O que é um armazém de dados?

O DWH é um repositório centralizado de informações digitais, agregadas de uma variedade de fontes díspares e organizadas em uma estrutura otimizada para relatórios. Mais importante ainda, o DWH fornece informações acionáveis para toda a empresa, permitindo que os funcionários realizem análises personalizadas e tomem melhores decisões.

Conceitos essenciais de data warehouse

O modelo relacional versus dimensional

Para apreciar a funcionalidade de um data warehouse, é importante entender a diferença entre um modelo relacional e dimensional. Embora pareçam técnicos, eles são fáceis de distinguir.

De uma perspectiva de uso prático, bancos de dados relacionais e dimensionais diferem em um critério crítico: fluxo de informações. Enquanto os bancos de dados relacionais são otimizados para entrada de dados, os bancos de dados dimensionais são criados para saída, principalmente na forma de relatórios e análises conhecidos como business intelligence.

O modelo relacional organiza as informações em torno de um único ponto de informação, por exemplo, um nome de cliente. Nesse modelo, o nome do cliente existe em um local, com todas as informações associadas - como detalhes de contato e datas de transação - listadas em tabelas associadas ou relacionadas.

Por outro lado, o banco de dados dimensional essencialmente “descompacta” o banco de dados relacional, permitindo que os usuários facilmente “fatizem e cortem” os dados na permutação necessária para atender às suas necessidades de relatórios. Por exemplo, na entrada do banco de dados relacional acima, os detalhes de contato do cliente seriam divididos em campos discretos, como número de telefone, endereço, cidade, estado e CEP.

O banco de dados dimensional essencialmente “descompacta” o banco de dados relacional, permitindo que os usuários facilmente “fatizem e cortem” os dados

A distinção entre banco de dados relacional e dimensional pode parecer abstrata. No entanto, para aqueles encarregados de fornecer análises e relatórios cada vez mais complexos, apreciar a distinção fornece uma compreensão fundamental valiosa para trabalhar com equipes técnicas que mantêm esses recursos.

O Data Warehouse - “Está ligado”

Conforme detalhado por Bill Inmon, um dos criadores do data warehouse, algumas características específicas regem o design do data warehouse. De acordo com Inmon, o data warehouse é uma coleção de dados orientada por assunto, não volátil, integrada e variante no tempo para apoiar as decisões da administração.

Isso é um bocado, mas uma vez dividido em partes, essa definição pinta uma imagem clara da estrutura básica do DWH. Para tornar esses critérios fáceis de lembrar, reorganizamos os critérios do Inmon de acordo com o anagrama “It's On”

Integrado: Os dados devem ter formatos consistentes. Geralmente extraídos de fontes diferentes, os campos de dados devem ter convenções de nomenclatura consistentes.

Variante de tempo: O DWH revela tendências, que dependem da mudança ao longo do tempo. A gravação de pontos de dados ao longo do tempo é fundamental para revelar as relações entre os dados.

Orientado ao assunto: O DWH permite análises e relatórios com foco no assunto. Por exemplo, uma empresa pode querer avaliar as vendas de um produto ao longo do tempo e, em seguida, detalhar as tendências regionais ou específicas do segmento de cliente.

Não volátil: uma vez que os dados entram no warehouse, eles não mudam.

O Data Warehouse difere do banco de dados transacional

O DWH e os sistemas de banco de dados transacionais executam funções fundamentalmente diferentes e atendem a diferentes usuários. Enquanto o DWH é otimizado para relatórios e análises, os sistemas de transações - geralmente chamados de OnLine Transaction Processing (OLTP) - são otimizados para disponibilidade e velocidade de processamento.

Os usuários de OLTP geralmente são funcionários de front-end e geralmente acessam vários registros ao mesmo tempo. Os usuários do DWH geralmente são analistas e gerentes, cujos relatórios podem chamar simultaneamente vários milhões de registros.

O sistema de transações e o DWH também diferem na granularidade e permanência dos dados. No OLTP, os dados contêm valores atuais, que são detalhados e altamente variáveis (a cada poucos segundos, milhares de transações alteram os valores desses registros). Por outro lado, o DWH contém dados reestruturados que não podem ser alterados depois de carregados.

O processo de empréstimo ao consumidor ilustra sucintamente as principais diferenças entre esses sistemas. Quando um cliente garante um empréstimo de carro, por exemplo, o banco de dados transacional captura detalhes como tipo de carro, cor, ano de compra, preço de compra e detalhes pessoais do comprador. Uma vez convertidas no modelo DWH, as informações transacionais (em torno de uma única transação do cliente) são desagregadas em partes componentes. Essas partes, por sua vez, são agrupadas com partes comparáveis de outras transações.

Ao consultar o DWH, um funcionário do credor pode acessar relatórios compostos por dados agregados de clientes. Por exemplo, tentando otimizar os gastos com publicidade, um gerente de marketing pode buscar carros de um determinado tipo ou faixa de preço com a maior taxa de aprovação de empréstimos ou a idade média e o nível de renda dos solicitantes de empréstimos ao longo do tempo. Essas informações podem direcionar os gastos com publicidade redirecionada para canais mais relevantes com mensagens mais direcionadas.

O Data Warehouse versus o Data Mart e o Data Lake

O DWH pode ser acompanhado por bancos de dados relacionados - data mart e data lake - cujos nomes descritivos sugerem funções distintas. Um subconjunto do DWH, o data mart atende a um grupo específico de usuários, por exemplo, uma divisão ou unidade de negócios específica. Enquanto o DWH contém vários assuntos relevantes para vários departamentos - como vendas, clientes, produtos, estoque, fornecedores - um data mart normalmente contém uma área de assunto para um departamento, como vendas ou finanças.

Existem dois tipos de data marts - dependentes e independentes - e cada um apresenta benefícios exclusivos. O data mart dependente se baseia no DWH e tem a vantagem da consistência. Como todos os dados são centralizados e consistentes no DWH, os data marts resultantes também são consistentes. Embora mais robustos, data marts dependentes exigem um DWH e, portanto, são mais caros para desenvolver.

Os data marts independentes, por outro lado, extraem dados diretamente dos mesmos bancos de dados de origem, como um mini DWH. Embora o desenvolvimento seja mais rápido e menos dispendioso, os data marts independentes apresentam um risco maior, pois as definições de dados podem se tornar inconsistentes em data marts desenvolvidos de forma independente. No entanto, se desenvolvidos com disciplina, data marts independentes podem ser montados em um DWH.

Os data lakes geralmente são configurados em um cluster de hardware de commodity barato e escalável. Isso permite que os dados sejam despejados no lago sem ter que se preocupar com a capacidade de armazenamento. Embora o DWH seja normalmente limitado a texto e dados numéricos, o lago também pode conter uma variedade maior, incluindo mídias sociais, dados de sensores e imagens.

Data Warehouse e Mineração de Dados

O DWH permite a mineração de dados, que dá às empresas o poder de prever o futuro. O principal objetivo da mineração de dados é revelar padrões em grandes conjuntos de dados. Esses padrões, por sua vez, revelam relacionamentos entre diferentes categorias de dados e suas funções de negócios subjacentes.

Esses relacionamentos fornecem aos gerentes informações acionáveis, essencialmente novas alavancas para impulsionar os resultados de negócios desejados, como crescimento de clientes ou aumento de vendas por cliente. Por exemplo, a revisão de dados históricos de vendas por segmento geográfico ou da indústria pode destacar um crescimento anômalo, cuja fonte pode fornecer aos gerentes de vendas aprendizados para aplicar a outros segmentos.