Um exemplo de roteiro para construir seu data warehouse
Publicados: 2018-03-30Data warehousing, uma técnica de consolidação de todos os seus dados organizacionais em um só lugar para acesso mais fácil e melhores análises, é o sonho de todos os stakeholders de negócios. No entanto, configurar um data warehouse é uma tarefa significativamente complexa e, mesmo antes de dar os primeiros passos, você deve ter certeza da resposta a essas duas perguntas:
- Objetivos da sua organização
- Seu roteiro detalhado para construir um data warehouse
Qualquer uma dessas perguntas, se não for respondida, pode custar muito à sua organização a longo prazo. É uma tecnologia relativamente mais recente e você criará muito espaço para erros se não estiver ciente das necessidades e requisitos específicos de sua organização. Esses erros podem tornar seu warehouse altamente impreciso. O pior é que um data warehouse errado é pior do que não ter dados e uma estratégia não planejada pode acabar fazendo mais mal do que bem.
Como existem diferentes abordagens para desenvolver data warehouses e cada uma depende do tamanho e das necessidades das organizações, não é possível criar um plano único para todos.
Dito isso, vamos tentar traçar um roteiro de exemplo que o ajudará a desenvolver um data warehouse robusto e eficiente para sua organização:
Índice
Configurando um Data Warehouse
O Data Warehouse é extremamente útil ao organizar grandes quantidades de dados para recuperar e analisar com eficiência. Pela mesma razão, deve-se tomar extremo cuidado para garantir que os dados sejam rapidamente acessíveis. Uma abordagem para projetar o sistema é usar modelagem dimensional – um método que permite que grandes volumes de dados sejam consultados e examinados de forma eficiente e rápida. Como a maioria dos dados presentes nos data warehouses são históricos e estáveis – em certo sentido, eles não mudam com frequência, dificilmente há necessidade de empregar métodos de backup repetitivos. Em vez disso, uma vez que os dados são adicionados, todo o warehouse pode ser copiado de uma só vez – em vez de fazer backups rotineiramente.
As ferramentas de armazenamento de dados podem ser classificadas em quatro categorias:
- Ferramentas de extração,
- Ferramentas de gerenciamento de mesa,
- Ferramentas de gerenciamento de consultas e
- Ferramentas de integridade de dados.
Cada uma dessas ferramentas é extremamente útil em diferentes estágios de desenvolvimento do Data Warehouse. A pesquisa de sua parte o ajudará a entender mais sobre essas ferramentas e permitirá que você escolha as que atendem às suas necessidades.
Conceitos-chave de armazenamento de dados: uma visão geral
Agora, vejamos um exemplo de roteiro que o ajudará a construir um armazém mais robusto e perspicaz para sua organização:
Avalie seus objetivos
O primeiro passo para configurar o data warehouse da sua organização é avaliar seus objetivos. Mencionamos isso anteriormente, mas não podemos enfatizar isso o suficiente. A maioria das organizações perde insights valiosos apenas porque não têm uma visão clara dos objetivos, requisitos e metas de sua empresa. Por exemplo, se você é uma empresa que busca seu primeiro avanço significativo, você pode querer envolver seus clientes na construção de relacionamento – então, você precisará seguir uma abordagem diferente de uma organização que está bem estabelecida e agora quer usar o data warehouse para melhorar suas operações. Trazer um data warehouse internamente é um grande passo para qualquer organização e deve ser realizado somente após alguma diligência de sua parte.
Analise os sistemas tecnológicos atuais
Ao fazer perguntas pontuais a seus clientes e partes interessadas de negócios, você pode obter informações sobre o desempenho do seu sistema técnico atual, os desafios que ele enfrenta e as melhorias possíveis. Além disso, eles podem até descobrir quão adequada é a sua pilha de tecnologia atual – decidindo assim com eficiência se ela deve ser mantida ou substituída. Vários departamentos de sua organização podem contribuir para isso fornecendo relatórios e feedback.
Exemplos mais comuns de mineração de dados
Modelagem de informações
Um modelo de informação é uma representação dos dados da sua organização. É conceitual e permite que você forme ideias de quais processos de negócios precisam ser inter-relacionados e como vinculá-los. O data warehouse será, em última análise, uma coleção de estruturas correlacionadas, portanto, é importante conceituar os indicadores que precisam ser conectados e criar métodos de alto desempenho – isso é conhecido como modelagem de informações. A maneira mais simples de projetar um modelo de informação eficiente é reunir indicadores-chave de desempenho em tabelas de fatos e relacioná-los a várias dimensões, como clientes, funcionários, produtos e outros.

Aprenda cursos de ciência de dados das melhores universidades do mundo. Ganhe Programas PG Executivos, Programas de Certificado Avançado ou Programas de Mestrado para acelerar sua carreira.
Projetar o armazém e rastrear os dados
Depois de reunir insights sobre sua organização e preparar um modelo de informações eficiente, agora é a hora de mover seus dados para o warehouse e acompanhar o desempenho dos mesmos. Durante a fase de design, é essencial planejar como vincular todos os dados de diferentes bancos de dados para que as informações possam ser interconectadas ao carregá-las em nossas tabelas de data warehouse. As ferramentas ETL podem consumir bastante tempo e dinheiro e podem exigir que especialistas sejam implementadas com sucesso. Portanto, é importante conhecer as ferramentas certas no momento certo – e escolher a opção mais econômica disponível para você. Um data warehouse consome uma quantidade significativa de espaço de armazenamento, portanto, você precisa planejar como arquivar os dados com o passar do tempo. Uma maneira de fazer isso é manter um sistema de armazenamento de dados de granularidade tripla (falaremos mais sobre isso daqui a pouco). No entanto, o problema com a granularidade é que o grão de dados será adiado ao longo de um período. Portanto, você deve projetar seu sistema de forma que a granularidade diferente seja consistente com uma estrutura de dados específica.
Implemente o plano
Agora que você desenvolveu seu plano e vinculou os dados, é hora de implementar sua estratégia. A implementação do Data Warehouse é uma grande jogada, e há uma base viável para a programação do projeto. O projeto deve ser dividido em partes e deve ser feito uma parte de cada vez. Recomenda-se definir uma fase de conclusão para cada parte da tarefa e, finalmente, agrupar todos os bits após a conclusão. Com uma implementação tão sistemática e pensada, seu Data Warehouse terá um desempenho muito mais eficiente e fornecerá as informações necessárias durante a fase de análise de dados.
O que é o que é Data Warehousing e Data Mining
Atualizações
Seu data warehouse está configurado para resistir aos testes de tempo e granularidade. Ele deve permanecer consistente por longos períodos de tempo e em muitos níveis de granularidade. Na fase de design da configuração, você pode optar por vários planos de armazenamento vinculados à atualização não repetitiva. Por exemplo, um gerente de TI pode configurar sistemas de armazenamento de grãos diários, semanais ou mensais. No grão diário, os dados podem ser armazenados no formato original em que foram coletados, podendo ser mantidos por 2-3 anos, após os quais devem ser resumidos e movidos para o grão semanal. Agora, os dados podem permanecer na estrutura de grãos semanal pelos próximos 3-5 anos, após os quais serão movidos para a estrutura de grãos mensal.
Seguir o roteiro mencionado acima garantirá que você esteja no caminho certo para a longa corrida que está por vir. Se você tiver alguma dúvida, sinta-se à vontade para deixá-la nos comentários abaixo.
O que é um Data Warehouse?
Um data warehouse é um tipo de sistema de gerenciamento de dados projetado para facilitar e auxiliar as atividades de business intelligence e analytics.
Os data warehouses permitem que você execute consultas lógicas, crie modelos de previsão confiáveis e identifique tendências importantes em sua empresa. v
Quanto tempo leva para construir um Data Warehouse?
O tempo é uma queixa comum em relação ao armazenamento de dados e inteligência de negócios no mercado. Embora os números sejam discutíveis, vamos nos ater ao entendimento tradicional de que o Data Warehousing geralmente precisa de muito tempo para ver os resultados.
O investimento de tempo necessário para configurar a análise é simplesmente muito grande. O tempo necessário para construir um Data warehouse pode variar de 12 a 24 meses. Mas vale totalmente a pena, pois projetos de data warehouse bem-sucedidos podem transformar completamente os processos e a visão de uma organização. Eles têm a capacidade de esclarecer problemas, liderar o caminho para novas perspectivas e ajudar os funcionários em todos os níveis a melhorar sua vida profissional diária.
Quais são alguns dos recursos mais importantes de um Data warehouse?
Alguns dos componentes básicos de um Data Warehouse típico são:
1. Banco de dados central: A base do seu data warehouse é um banco de dados. Esses eram bancos de dados relacionais convencionais que podiam ser usados no local ou na nuvem. No entanto, os bancos de dados em memória estão ganhando popularidade rapidamente como resultado do Big Data, da necessidade de velocidade real em tempo real e de uma queda substancial no custo da RAM.
2. Integração de dados: Várias tecnologias de integração de dados, como ETL (Extrair, Transformar, Carregar), replicação de dados em tempo real, processamento de carga em massa, transformação de dados, qualidade de dados, etc., são usadas para coletar dados de sistemas de origem e modificá-los para que está pronto para consumo analítico rápido.
3. Metadados: detalha os conjuntos de dados na origem, uso, valores e outras características do seu data warehouse. Há metadados de negócios, que dão significado aos seus dados, e metadados técnicos, que explicam como acessar os dados, como onde estão armazenados e como estão organizados.
4. Ferramentas de acesso ao Data Warehouse: Os usuários podem interagir com os dados em seu data warehouse usando ferramentas de acesso, como ferramentas de consulta e relatório, ferramentas de desenvolvimento de aplicativos, ferramentas de mineração de dados, ferramentas OLAP, etc.