브리핑: 데이터 웨어하우스
게시 됨: 2022-03-11기업과 소비자는 그 어느 때보다 많은 데이터를 생성하고 있습니다. 디지털 장치 및 제품의 확산은 디지털 세계의 기하급수적인 확장을 주도하고 있습니다. 개념적으로는 자산이지만 이 데이터의 규모는 도전 과제를 제시합니다. 기업이 실행 가능한 통찰력을 나타내기 위해 정보를 실제로 구성할 수 있는 방법은 무엇입니까?
데이터 마이닝 및 비즈니스 인텔리전스가 이러한 통찰력의 귀중한 추출 및 표시를 제공하는 반면, 데이터 웨어하우스(DWH)는 종종 여러 위치에 상주하는 방대한 기본 데이터의 예비 집계 및 재구성입니다. 데이터 과학, 데이터 마이닝 및 비즈니스 인텔리전스의 광범위한 생태계 내에서 DWH의 역할을 이해하는 것은 현대 관리자에게 필수적입니다.
데이터 웨어하우스란 무엇입니까?
DWH는 디지털 정보의 중앙 집중식 리포지토리로, 다양한 소스에서 집계되고 보고에 최적화된 구조로 구성됩니다. 가장 중요한 것은 DWH가 기업 전체에 실행 가능한 정보를 제공하여 직원이 맞춤형 분석을 수행하고 더 나은 결정을 내릴 수 있도록 한다는 것입니다.
필수 데이터 웨어하우스 개념
관계형 대 차원 모델
데이터 웨어하우스의 기능을 이해하려면 관계형 모델과 차원 모델의 차이점을 이해하는 것이 중요합니다. 기술적으로 들리지만 구별하기 쉽습니다.
실용적인 관점에서 관계형 데이터베이스와 차원 데이터베이스는 정보 흐름이라는 한 가지 중요한 기준에서 다릅니다. 관계형 데이터베이스는 데이터 입력에 최적화되어 있지만 차원 데이터베이스는 특히 비즈니스 인텔리전스로 알려진 보고 및 분석의 형태로 출력을 위해 구축됩니다.
관계형 모델은 단일 정보 지점(예: 고객 이름)을 중심으로 정보를 구성합니다. 이러한 모델에서 고객 이름은 연락처 세부 정보 및 거래 날짜와 같은 모든 관련 정보와 함께 한 위치에 존재하며 관련 테이블이나 관련 테이블에 나열됩니다.
이와 대조적으로 차원 데이터베이스는 기본적으로 관계형 데이터베이스를 "압축 해제"하여 사용자가 보고 요구 사항을 충족하는 데 필요한 필수 순열로 데이터를 쉽게 "분할"할 수 있도록 합니다. 예를 들어, 위의 관계형 데이터베이스 항목에서 고객 연락처 세부 정보는 전화 번호, 거리 주소, 도시, 주 및 우편 번호와 같은 개별 필드로 나뉩니다.
차원 데이터베이스는 기본적으로 관계형 데이터베이스를 "압축 해제"하여 사용자가 데이터를 쉽게 "분할"할 수 있도록 합니다.
관계형 데이터베이스와 차원 데이터베이스 간의 구분은 추상적으로 보일 수 있습니다. 그러나 점점 더 복잡해지는 분석 및 보고 기능을 제공하는 담당자에게 이러한 차이점을 이해하는 것은 이러한 리소스를 유지 관리하는 기술 팀과 협력하는 데 중요한 기본 이해를 제공합니다.
데이터 웨어하우스 - "시작"
데이터 웨어하우스를 만든 사람 중 한 명인 Bill Inmon이 자세히 설명한 것처럼 몇 가지 특정 특성이 데이터 웨어하우스 설계를 지배합니다. Inmon에 따르면 데이터 웨어하우스는 경영진의 의사 결정을 지원하는 주제 지향적, 비휘발성, 통합, 시간 변형 데이터 모음입니다.
그것은 한 입 가득하지만 일단 부품으로 분해되면 이 정의는 DWH 기본 구조의 명확한 그림을 그립니다. 이 기준을 기억하기 쉽도록 인몬의 기준을 아나그램 "It's On"에 따라 재구성했습니다.
통합: 데이터는 일관된 형식을 가져야 합니다. 종종 다른 소스에서 가져온 데이터 필드에는 일관된 명명 규칙이 있어야 합니다.
시간 변형: DWH는 시간 경과에 따른 변화에 따라 달라지는 추세를 보여줍니다. 시간 경과에 따른 데이터 포인트 기록은 데이터 간의 관계를 밝히는 데 기본입니다.
주제 중심: DWH는 주제 중심 분석 및 보고를 가능하게 합니다. 예를 들어, 회사는 시간 경과에 따른 제품 판매를 평가한 다음 지역 또는 고객 부문별 동향으로 드릴다운할 수 있습니다.
비휘발성: 데이터가 웨어하우스에 들어가면 변경되지 않습니다.
데이터 웨어하우스는 트랜잭션 데이터베이스와 다릅니다.
DWH와 트랜잭션 데이터베이스 시스템은 근본적으로 다른 기능을 수행하며 다른 사용자에게 서비스를 제공합니다. DWH가 보고 및 분석에 최적화되어 있는 반면, OLTP(OnLine Transaction Processing)라고도 하는 트랜잭션 시스템은 가용성 및 처리 속도에 최적화되어 있습니다.

OLTP 사용자는 일반적으로 프런트 엔드 직원이며 일반적으로 한 번에 여러 레코드에 액세스합니다. DWH 사용자는 보고서에서 동시에 수백만 개의 레코드를 호출할 수 있는 분석가 및 관리자인 경우가 많습니다.
트랜잭션 시스템과 DWH는 데이터 세분성과 영속성도 다릅니다. OLTP에서 데이터에는 상세하고 매우 가변적인 현재 값이 포함됩니다(몇 초마다 수천 개의 트랜잭션이 이러한 레코드의 값을 변경함). 대조적으로 DWH에는 로드된 후에는 변경할 수 없는 재구성된 데이터가 포함됩니다.
소비자 대출 프로세스는 이러한 시스템 간의 주요 차이점을 간결하게 보여줍니다. 예를 들어 고객이 자동차 대출을 확보할 때 트랜잭션 데이터베이스는 자동차 유형, 색상, 구매 연도, 구매 가격 및 구매자 개인 세부 정보와 같은 세부 정보를 캡처합니다. DWH 모델로 변환되면 트랜잭션 정보(단일 고객 트랜잭션 주변)는 구성 요소 부분으로 분해됩니다. 이러한 부품은 차례로 다른 트랜잭션의 비교 가능한 부품과 함께 풀링됩니다.
DWH를 쿼리하면 대출 기관의 직원이 집계된 고객 데이터로 구성된 보고서에 액세스할 수 있습니다. 예를 들어, 광고 지출을 최적화하기 위해 마케팅 관리자는 대출 승인률이 가장 높은 특정 유형 또는 가격대의 자동차 또는 시간 경과에 따른 대출 신청자의 평균 연령 및 소득 수준을 찾을 수 있습니다. 이러한 정보는 보다 타겟팅된 메시지를 통해 보다 관련성 높은 채널로 광고 지출을 리디렉션할 수 있습니다.
데이터 웨어하우스 대 데이터 마트 및 데이터 레이크
DWH에는 관련 데이터베이스(데이터 마트 및 데이터 레이크)가 수반될 수 있으며, 이들의 설명적인 이름은 별개의 기능을 암시합니다. DWH의 하위 집합인 데이터 마트는 특정 사용자 그룹(예: 사업부 또는 특정 사업부)에 서비스를 제공합니다. DWH는 영업, 고객, 제품, 재고, 공급업체와 같은 여러 부서와 관련된 여러 주제를 보유하지만 데이터 마트는 일반적으로 영업 또는 재무와 같은 한 부서에 대해 하나의 주제 영역을 보유합니다.
데이터 마트에는 종속 및 독립의 두 가지 유형이 있으며 각각 고유한 이점을 제공합니다. 종속 데이터 마트는 DWH에서 가져오며 일관성의 이점이 있습니다. 모든 데이터가 DWH 내에서 중앙 집중화되고 일관성이 있기 때문에 결과 데이터 마트도 일관성이 있습니다. 더 강력하지만 종속 데이터 마트에는 DWH가 필요하므로 개발 비용이 더 많이 듭니다.
반면에 독립 데이터 마트는 미니 DWH와 마찬가지로 동일한 소스 데이터베이스에서 직접 데이터를 가져옵니다. 개발 속도가 더 빠르고 비용이 적게 들지만, 독립적으로 개발된 데이터 마트에서 데이터 정의가 일관되지 않을 수 있으므로 독립 데이터 마트는 위험이 증가합니다. 그러나 원칙을 가지고 개발하면 독립적인 데이터 마트가 궁극적으로 DWH로 조합될 수 있습니다.
데이터 레이크는 일반적으로 저렴하고 확장 가능한 상용 하드웨어 클러스터에 구성됩니다. 이를 통해 저장 용량에 대해 걱정할 필요 없이 데이터를 레이크에 버릴 수 있습니다. DWH는 일반적으로 텍스트 및 숫자 데이터로 제한되지만 호수는 소셜 미디어, 센서 데이터 및 이미지를 포함하여 더 다양한 데이터를 저장할 수도 있습니다.
데이터 웨어하우스 및 데이터 마이닝
DWH는 기업에 미래를 예측할 수 있는 능력을 부여하는 데이터 마이닝을 가능하게 합니다. 데이터 마이닝의 주요 목표는 대규모 데이터 세트의 패턴을 드러내는 것입니다. 이러한 패턴은 차례로 서로 다른 범주의 데이터와 기본 비즈니스 기능 간의 관계를 나타냅니다.
이러한 관계는 관리자에게 실행 가능한 정보, 본질적으로 고객 성장 또는 고객당 매출 증가와 같은 원하는 비즈니스 결과를 이끌어낼 수 있는 새로운 수단을 제공합니다. 예를 들어, 지역 또는 산업 부문별로 과거 판매 데이터를 검토하면 비정상적인 성장을 강조할 수 있으며, 그 출처는 판매 관리자에게 다른 부문에 적용할 학습을 제공할 수 있습니다.