데이터 웨어하우스 구축을 위한 샘플 로드맵
게시 됨: 2018-03-30더 쉽게 액세스하고 더 나은 분석을 위해 조직의 모든 데이터를 한 곳으로 통합하는 기술인 데이터 웨어하우징은 모든 비즈니스 이해 관계자의 꿈입니다. 그러나 데이터 웨어하우스를 설정하는 것은 상당히 복잡한 작업이며 첫 번째 단계를 수행하기 전에도 다음 두 가지 질문에 대한 답을 완전히 확신해야 합니다.
- 조직의 목표
- 데이터 웨어하우스 구축을 위한 세부 로드맵
이러한 질문 중 하나에 대한 답이 없으면 장기적으로 조직에 많은 손실을 줄 수 있습니다. 이것은 비교적 새로운 기술이며 조직의 특정 요구 사항과 요구 사항을 인식하지 못하는 경우 많은 오류 범위를 만들 수 있습니다. 이러한 오류는 창고를 매우 부정확하게 만들 수 있습니다. 더 나쁜 것은 잘못된 데이터 웨어하우스가 데이터가 전혀 없는 것보다 더 나쁘고 계획되지 않은 전략이 결국 좋은 것보다 더 나쁜 결과를 초래할 수 있다는 것입니다.
데이터 웨어하우스를 개발하는 방법은 다양하고 각각은 조직의 규모와 요구 사항에 따라 다르기 때문에 만능 계획을 수립하는 것은 불가능합니다.
하지만 조직을 위해 강력하고 효율적인 데이터 웨어하우스를 개발하는 데 도움이 되는 샘플 로드맵을 제시해 보겠습니다.
목차
데이터 웨어하우스 설정
데이터 웨어하우스는 효율적으로 검색하고 분석하기 위해 많은 양의 데이터를 구성할 때 매우 유용합니다. 같은 이유로 데이터에 빠르게 액세스할 수 있도록 각별한 주의를 기울여야 합니다. 시스템을 설계하는 한 가지 접근 방식은 차원 모델링을 사용하는 것입니다. 이 방법을 사용하면 대용량 데이터를 효율적이고 빠르게 쿼리하고 검사할 수 있습니다. 데이터 웨어하우스에 있는 대부분의 데이터는 기록적이고 안정적이기 때문에 어떤 의미에서는 자주 변경되지 않기 때문에 반복적인 백업 방법을 사용할 필요가 거의 없습니다. 대신 데이터가 추가되면 정기적으로 백업하는 대신 전체 웨어하우스를 한 번에 백업할 수 있습니다.
데이터 웨어하우징 도구는 크게 4가지 범주로 분류할 수 있습니다.
- 추출 도구,
- 테이블 관리 도구,
- 쿼리 관리 도구 및
- 데이터 무결성 도구.
이러한 각 도구는 데이터 웨어하우스의 다양한 개발 단계에서 매우 유용합니다. 귀하의 연구는 이러한 도구에 대해 더 많이 이해하는 데 도움이 되며 필요에 맞는 도구를 선택할 수 있습니다.
데이터 웨어하우징의 주요 개념: 개요
이제 조직을 위해 보다 강력하고 통찰력 있는 창고를 구축하는 데 도움이 되는 샘플 로드맵을 살펴보겠습니다.
목표 평가
조직의 데이터 웨어하우스를 설정하는 첫 번째 단계는 목표를 평가하는 것입니다. 우리는 앞서 이것을 언급했지만 이것을 충분히 강조할 수는 없습니다. 대부분의 조직은 회사의 목표, 요구 사항 및 목표에 대한 명확한 그림이 부족하기 때문에 귀중한 통찰력을 놓치고 있습니다. 예를 들어, 첫 번째 중요한 돌파구를 찾고 있는 회사라면 고객과의 관계 구축을 원할 수 있습니다. 운영 개선을 위한 데이터 웨어하우스 데이터 웨어하우스를 사내로 가져오는 것은 모든 조직에 있어 큰 단계이며 귀하의 일부 실사 후에만 수행해야 합니다.
현재 기술 시스템 분석
고객과 비즈니스 이해 관계자가 지적한 질문을 함으로써 현재 기술 시스템의 성능, 직면한 과제 및 가능한 개선 사항에 대한 통찰력을 수집할 수 있습니다. 또한 현재 기술 스택이 얼마나 적합한지 알아낼 수 있으므로 유지 또는 교체 여부를 효율적으로 결정할 수 있습니다. 조직의 다양한 부서에서 보고서 및 피드백을 제공하여 이에 기여할 수 있습니다.
데이터 마이닝의 가장 일반적인 예
정보 모델링
정보 모델은 조직의 데이터를 나타냅니다. 이는 개념적이며 상호 연관되어야 하는 비즈니스 프로세스와 이를 연결하는 방법에 대한 아이디어를 형성할 수 있도록 합니다. 데이터 웨어하우스는 궁극적으로 상관 구조의 모음이 될 것이므로 함께 연결해야 하는 지표를 개념화하고 최고의 성능 방법을 만드는 것이 중요합니다. 이것이 바로 정보 모델링입니다. 효율적인 정보 모델을 설계하는 가장 간단한 방법은 핵심 성과 지표를 팩트 테이블로 수집하고 이를 고객, 직원, 제품 등과 같은 다양한 차원과 연결하는 것입니다.

세계 최고의 대학에서 데이터 과학 과정 을 배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.
창고 설계 및 데이터 추적
조직에 대한 통찰력을 수집하고 효율적인 정보 모델을 준비했다면 이제 데이터를 웨어하우스로 이동하고 동일한 성능을 추적해야 합니다. 설계 단계에서 데이터 웨어하우스 테이블에 정보를 로드할 때 정보가 상호 연결될 수 있도록 서로 다른 데이터베이스의 모든 데이터를 연결하는 방법을 계획하는 것이 중요합니다. ETL 도구는 시간과 비용이 많이 소요될 수 있으며 성공적으로 구현하려면 전문가가 필요할 수 있습니다. 따라서 적시에 올바른 도구를 알고 사용 가능한 가장 비용 효율적인 옵션을 선택하는 것이 중요합니다. 데이터 웨어하우스는 상당한 양의 저장 공간을 사용하므로 시간이 지남에 따라 데이터를 아카이브하는 방법을 계획해야 합니다. 이를 수행하는 한 가지 방법은 3중 단위 데이터 저장 시스템을 유지하는 것입니다(이에 대해서는 잠시 후에 자세히 설명하겠습니다). 그러나 세분성의 문제는 데이터 입자가 일정 기간 동안 지연된다는 것입니다. 따라서 서로 다른 세분성이 특정 데이터 구조와 일치하도록 시스템을 설계해야 합니다.
계획을 실행
계획을 개발하고 데이터 조각을 함께 연결했으므로 이제 전략을 구현할 차례입니다. 데이터 웨어하우스의 구현은 큰 움직임이며 프로젝트 일정을 잡기 위한 실행 가능한 기반이 있습니다. 프로젝트는 덩어리로 나누어야 하며 한 번에 한 조각씩 가져와야 합니다. 작업의 각 청크에 대한 완료 단계를 정의하고 완료 시 마지막으로 모든 비트를 대조하는 것이 좋습니다. 이러한 체계적이고 신중한 구현을 통해 데이터 웨어하우스는 훨씬 더 효율적으로 수행하고 데이터 분석 단계에서 필요한 정보를 제공할 것입니다.
데이터 웨어하우징 및 데이터 마이닝이란?
업데이트
데이터 웨어하우스는 시간과 세분성의 테스트를 견디도록 설정되어 있습니다. 오랜 시간 동안 여러 수준의 세분성에서 일관성을 유지해야 합니다. 설정의 설계 단계에서 비반복적 업데이트와 관련된 다양한 스토리지 계획을 선택할 수 있습니다. 예를 들어, IT 관리자는 매일, 매주 또는 매월 곡물 저장 시스템을 설정할 수 있습니다. 데일리 그레인에서 데이터는 수집된 원래 형식으로 2~3년 동안 보관할 수 있으며 그 후에는 요약하여 주간 그레인으로 이동해야 합니다. 이제 데이터는 향후 3~5년 동안 주간 곡물 구조에 남아 있을 수 있으며 그 후 월간 곡물 구조로 이동됩니다.
위에서 언급한 로드맵을 따르면 앞으로 있을 긴 경주를 위해 올바른 길을 가고 있는지 확인할 수 있습니다. 질문이 있는 경우 아래 의견에 자유롭게 문의하세요.
데이터 웨어하우스란 무엇입니까?
데이터 웨어하우스는 비즈니스 인텔리전스 및 분석 활동을 촉진하고 지원하도록 설계된 일종의 데이터 관리 시스템입니다.
데이터 웨어하우스를 사용하면 논리적 쿼리를 실행하고 신뢰할 수 있는 예측 모델을 생성하며 회사 전체의 중요한 추세를 파악할 수 있습니다. V
데이터 웨어하우스를 구축하는 데 얼마나 걸립니까?
시간은 시장에서 데이터 웨어하우징 및 비즈니스 인텔리전스에 관한 일반적인 불만입니다. 숫자에 대해서는 논쟁의 여지가 있지만 데이터 웨어하우징이 결과를 확인하는 데 오랜 시간이 필요하다는 기존의 이해에 충실합시다.
분석을 설정하는 데 필요한 시간 투자가 너무 많습니다. 데이터 웨어하우스를 구축하는 데 걸리는 시간은 12개월에서 24개월까지 다양합니다. 그러나 성공적인 데이터 웨어하우스 프로젝트는 조직의 프로세스와 비전을 완전히 바꿀 수 있으므로 충분히 가치가 있습니다. 그들은 문제를 밝히고 새로운 잠재 고객에게 길을 안내하며 모든 수준의 직원이 일상 생활을 개선하도록 도울 수 있습니다.
데이터 웨어하우스의 가장 중요한 기능은 무엇입니까?
일반적인 데이터 웨어하우스의 기본 구성 요소 중 일부는 다음과 같습니다.
1. 중앙 데이터베이스 : 데이터 웨어하우스의 초석은 데이터베이스입니다. 이들은 사내 또는 클라우드에서 사용할 수 있는 기존의 관계형 데이터베이스였습니다. 그러나 인메모리 데이터베이스는 빅 데이터, 진정한 실시간 속도의 필요성, RAM 비용의 상당한 하락으로 인해 빠르게 인기를 얻고 있습니다.
2. 데이터 통합 : ETL(Extract, Transform, Load), 실시간 데이터 복제, 대량 로드 처리, 데이터 변환, 데이터 품질 등과 같은 다양한 데이터 통합 기술을 사용하여 소스 시스템에서 데이터를 수집하고 수정합니다. 빠른 분석 소비를 위한 준비가 되어 있습니다.
3. 메타데이터 : 데이터 웨어하우스 소스의 데이터 세트, 용도, 값 및 기타 특성을 자세히 설명합니다. 데이터에 의미를 부여하는 비즈니스 메타데이터와 데이터가 저장된 위치 및 구성과 같은 데이터 액세스 방법을 설명하는 기술 메타데이터가 있습니다.
4. 데이터 웨어하우스 액세스 도구: 사용자는 쿼리 및 보고 도구, 애플리케이션 개발 도구, 데이터 마이닝 도구, OLAP 도구 등과 같은 액세스 도구를 사용하여 데이터 웨어하우스의 데이터와 상호 작용할 수 있습니다.