데이터 웨어하우스 아키텍처: 알아야 할 모든 것

게시 됨: 2020-04-30

이 데이터 중심적인 세상에서 머지 않아 우리 각자가 초당 1.7MB의 데이터를 생성하게 된다는 것은 놀라운 일이 아닙니다 . 하지만 이 모든 데이터는 어디로 갈까요? 이 모든 정보를 안전하게 보관할 수 있는 저장 장치가 있어야 필요할 때 되살릴 수 있지 않을까요?

그런 저장 장치가 있다고 말하면 어떻게 될까요? 당연히 데이터 웨어하우스라고 합니다. 의사 결정 및 보고에 도움이 되도록 구성된 운영 소스의 데이터 및 정보를 포함하는 분석 도구입니다.

오늘날 전 세계 데이터 웨어하우징 시장은 향후 몇 년 동안 CAGR 16% 로 성장할 것으로 예상되는 정도로 성장했습니다 .

이제 데이터 웨어하우스와 아키텍처에 대해 자세히 알아보겠습니다.

자세히 알아보기: 데이터 웨어하우징 및 데이터 마이닝이란?

목차

데이터 웨어하우스란 무엇입니까?

하나 이상의 소스에서 오는 모든 과거 및 교환 가능한 데이터를 안전하게 보관하는 장소를 데이터 웨어하우스라고 합니다. 데이터 웨어하우스의 주요 목적은 비즈니스 인텔리전스와 보고 프로세스를 원활하게 하는 것입니다. 기본적으로 저장하는 데이터에 대한 쿼리 및 분석을 수행합니다.

데이터 웨어하우스에는 여러 소스의 트랜잭션 데이터가 있으므로 기업이 다음을 수행하는 데 도움이 됩니다.

  • 오래된 기록 보존
  • 기존 데이터를 평가하고 작업의 허점을 식별합니다.

데이터 웨어하우스 설계를 위한 비즈니스 분석 프레임워크

일반적으로 데이터 분석가는 웨어하우스에서 관련 데이터를 수집하고 이를 분석하여 비즈니스가 운영을 개선하는 데 도움을 줍니다. 데이터 웨어하우스를 사용하면 데이터에 빠르고 효율적으로 액세스하여 전반적인 생산성을 높일 수 있으므로 편리합니다.

또한 고객과 모든 제품을 종합적으로 볼 수 있습니다. 이렇게 하면 원활한 고객 관계를 보장할 수 있습니다.

그러나 이 모든 일이 발생하려면 데이터 분석가가 먼저 비즈니스 요구 사항을 이해해야 합니다. 그리고 이를 위해서는 비즈니스 분석 프레임워크를 만들어야 합니다.

비즈니스 분석 프레임워크가 구축된 후에야 데이터 웨어하우스 설계로 이동할 수 있습니다. 이에 대한 세 가지 견해가 있습니다.

  • 하향식 보기 : 이 보기에서는 창고를 설계하는 데 필요한 관련 정보를 볼 수 있습니다.
  • 데이터 소스 보기 : 캡쳐, 저장, 관리되는 데이터를 보여줍니다.
  • 데이터 웨어하우스 보기 : 웨어하우스에 있는 팩트 테이블, 차원 테이블 및 데이터를 나열합니다.
  • 비즈니스 쿼리 보기 : 최종 사용자의 관점에서 데이터를 볼 수 있습니다.

이러한 모든 관점에서 데이터를 본 후에는 세 가지 유형의 데이터 웨어하우스 아키텍처에 대해 학습할 차례입니다.

세 가지 유형의 데이터 웨어하우스 아키텍처

회사의 데이터 웨어하우스 설계를 계획할 때마다 데이터 웨어하우스 구축을 위한 로드맵 과 다음 세 계층 아키텍처를 고려할 수 있습니다.

  1. 단일 계층 : 이것은 데이터의 가까운 패킷 세트를 생성하고 전체 볼륨을 줄이는 주요 역할을 합니다. 그러나 이 유형은 데이터가 복잡하고 데이터 스트림이 여러 개인 기업에는 권장되지 않습니다.
  2. Two Tier : 이 유형의 아키텍처에서는 데이터 소스가 분할되어 데이터 구성 및 저장 프로세스를 보다 효율적으로 만듭니다.
  3. 3계층 : 이 유형의 웨어하우스 아키텍처는 원시 데이터에서 정말 귀중한 통찰력을 제공하여 조직화된 데이터 흐름을 생성하기 때문에 가장 선호되는 유형입니다.

다음 세 가지 계층으로 구성됩니다.

  • 웨어하우스의 서버를 포함하는 아래 계층 . 여기에서 데이터는 백엔드 도구를 사용하여 정리되고 로드됩니다.
  • 중간 계층 OLAP 서버로 구성됩니다. 이 계층은 최종 사용자와 데이터베이스 간의 연결 역할을 하는 추상화된 데이터베이스 보기를 사용자에게 제공합니다.
  • 최상위 계층 에는 웨어하우스에서 데이터를 추출하기 위한 API 및 도구(쿼리, 데이터 마이닝, 분석 및 보고 도구)가 있습니다 .

데이터 웨어하우스 아키텍처의 구성 요소

아키텍처의 기능을 관리 가능하게 만들기 위해 웨어하우스에는 5개의 주요 구성 요소로 둘러싸인 RDBMS 서버가 포함되어 있습니다.

다음은 데이터 웨어하우스 아키텍처의 5가지 주요 구성 요소입니다.

데이터 웨어하우스 데이터베이스

웨어하우스 아키텍처의 핵심 부분은 보고를 위해 이해할 수 있는 모든 비즈니스 정보를 포함하는 데이터뱅크입니다. 분명히 이것은 웨어하우스에 데이터를 저장하기 위해 사용할 데이터베이스 종류를 선택해야 함을 의미합니다.

다음은 활용할 수 있는 네 가지 데이터베이스 유형입니다.

  • 관계형 데이터베이스 는 일반적으로 매일 접하거나 사용하는 행 기반 데이터베이스입니다. 여기에는 Microsoft SQL Server, SAP, Oracle 및 IBM DB2가 포함됩니다.
  • 분석 데이터베이스 는 분석을 지원하고 감독하기 위한 정보 비축을 위해 결정적으로 생성됩니다. 예를 들어, Teradata 및 Greenplum.
  • 데이터 웨어하우스 애플리케이션 은 실제로 일종의 용량 데이터베이스가 아닙니다. SAP Hana, Oracle Exadata 및 IBM Netezza와 같은 데이터 관리용 소프트웨어를 제공하는 애플리케이션입니다.
  • 클라우드 기반 데이터베이스 는 데이터 웨어하우스를 설정하기 위해 하드웨어를 구입할 필요가 없다는 목표로 클라우드에서 촉진 및 복구할 수 있는 데이터베이스입니다. 예를 들어 Amazon Redshift, Microsoft Azure SQL 및 Google BigQuery가 있습니다.

데이터 과학에 대해 자세히 알아보려면 상위 대학의 데이터 과학 교육을 확인하십시오.

추출, 변환 및 로드 도구(ETL)

ETL 장치는 데이터 웨어하우스 아키텍처의 기본입니다. 이는 다양한 소스에서 정보를 분리하고 합리적인 배열로 변경하고 창고에 쌓는 데 도움이 됩니다.

선택한 ETL 도구에 따라 다음이 결정됩니다.

  • 정보 추출에 소요되는 시간
  • 데이터 추출 방법
  • 적용된 변경 사항의 종류와 그에 필요한 노력
  • 최종 제품 분석을 개선하기 위한 정보 검증 및 정리를 위한 비즈니스 규칙 정의
  • 잃어버린 정보 채우기
  • 키 금고에서 BI 애플리케이션까지의 데이터 순환 플로팅

메타데이터

메타데이터는 데이터 웨어하우스를 묘사하고 정보 시스템을 제공합니다. 창고를 개발, 보호, 취급 및 활용하는 데 도움이 됩니다. 두 가지 유형이 있습니다.

  • Technical Metadata : 엔지니어 및 관리자가 창고 개발 및 조직 업무를 수행할 때 활용할 수 있는 데이터를 포함합니다.
  • 비즈니스 메타데이터 : 웨어하우스에 있는 데이터에 대해 효과적으로 정당화할 수 있는 입장을 제공하는 데이터를 포함합니다.

메타데이터는 조직이 웨어하우스에 있는 데이터를 이해하고 사용 가능한 정보로 변환하는 데 중요한 역할을 합니다.

데이터 웨어하우스 액세스 도구

데이터 웨어하우스는 데이터베이스 또는 데이터베이스 그룹을 시설로 사용합니다. 기업은 대부분 합법적으로 데이터베이스를 사용할 수 없습니다. 이것이 그들이 다음을 포함한 여러 도구를 사용하는 이유입니다.

  • 쿼리 및 보고 도구 : 사용자가 스프레드시트, 계산 또는 지능형 시각 자료로 기업 보고서를 작성하여 심층 분석을 수행하는 데 도움을 줍니다.
  • OLAP 장치 : 다차원 데이터 웨어하우스를 개발하고 다양한 관점에서 빅 데이터를 분석하는 데 도움이 됩니다.
  • 데이터 마이닝 도구 : 통계적 모델링 전략을 활용하여 방대한 양의 데이터에서 클러스터 및 연결을 인식하는 방법론을 체계화합니다. 데이터 마이닝 기술에 대해 자세히 알아보세요.
  • 애플리케이션 개발 도구 : 특정 보고 목적으로 예상되는 맞춤형 보고서를 만들고 번역으로 제공하는 데 도움이 됩니다.

데이터 웨어하우스 버스

웨어하우스의 데이터 진행 상황을 결정하는 데 도움이 됩니다. 이 흐름은 Inflow, Upflow, Downflow, Outflow 및 Meta 흐름으로 정렬할 수 있습니다.

데이터 버스를 설계하는 동안 데이터 마트 전반에 걸친 일반적인 측정, 사실에 대해 생각해야 합니다.

데이터 마트

이것은 사용자에게 정보를 제공하는 데 사용되는 입구 레이어입니다. 생성하는 데 약간의 시간과 돈이 필요하기 때문에 거대한 크기의 데이터 웨어하우스의 가능성으로 도입되었습니다. 어쨌든 개인마다 다르기 때문에 데이터 마트의 표준적인 의미는 없습니다.

간단히 말해서 데이터 마트는 데이터 웨어하우스의 보조 장치이며 특정 사용자 그룹을 위해 만들어진 정보를 분할하는 데 사용됩니다.

데이터 웨어하우스 아키텍처 계층

데이터 웨어하우스 구축은 주로 특정 비즈니스에 따라 다릅니다. 따라서 각 아키텍처에는 4개의 레이어가 있습니다. 아래에서 자세히 살펴보겠습니다.

데이터 소스 레이어

데이터 소스 레이어는 다양한 내부 및 외부 소스에서 수집된 고유한 정보가 소셜 데이터베이스에 저장되는 위치입니다. 다음은 데이터 소스 계층의 예입니다.

  • 운영 데이터 — 제품 정보, 재고 정보, 마케팅 정보 또는 HR 정보
  • 소셜 미디어 데이터 — 웹사이트 조회수, 콘텐츠 명성, 연락처 페이지 완성
  • 외부인 데이터 — 인구 통계 정보, 연구 정보, 통계 정보

대부분의 데이터 웨어하우스는 조직화된 데이터를 관리하지만 음성 계정, 스캔한 사진 및 비정형 텍스트와 같은 비정형 데이터 소스의 향후 활용에 대해 고려해야 합니다. 이러한 데이터 홍수는 정보의 중요한 저장고이며 웨어하우스를 구축할 때 확인해야 합니다.

데이터 스테이징 레이어

이 계층은 정보 소스와 데이터 웨어하우스 사이에 있습니다. 이 계층에서 정보는 다양한 내부 및 외부 데이터 소스와 분리됩니다. 소스 데이터는 다양한 조직에서 제공되기 때문에 데이터 추출 계층은 필요한 정보를 추출하기 위해 수많은 기술과 장치를 사용합니다.

추출된 데이터가 누적되면 높은 수준의 품질 검사에 노출됩니다. 결정적인 결과는 데이터 웨어하우스에 쌓이게 될 완벽하고 조직적인 데이터가 될 것입니다. 스테이징 레이어에는 다음과 같은 부분이 포함됩니다.

  • 랜딩 데이터베이스 및 스테이징 영역

랜딩 데이터베이스는 데이터 소스에서 복구된 정보를 저장합니다. 데이터가 웨어하우스로 이동하기 전에 스테이징 프로세스에서 엄격한 품질 검사를 수행합니다. 배열은 건축의 기본 단계입니다. 부실한 정보는 부적합한 데이터로 이어지며 그 결과 비즈니스 역학이 좋지 않습니다. 정렬 계층은 비정형 정보 소스를 처리하기 위해 비즈니스 프로세스에 따라 변경해야 하는 곳입니다.

  • 데이터 통합 ​​도구

ETL(추출, 변환 및 로드 도구)은 소스 프레임워크에서 정보를 추출하고, 정보를 변경 및 준비하고 웨어하우스에 로드하는 데 사용되는 데이터 도구입니다.

읽기: 인도의 데이터 과학자 급여

데이터 저장 계층

이 레이어는 정리영역에서 씻겨 내려간 데이터가 고독한 중앙 아카이브로 버려지는 곳이다. 비즈니스 및 웨어하우스 아키텍처 요구 사항에 따라 데이터 스토리지는 데이터 웨어하우스 센터, 데이터 마트(특정 부서를 위해 다소 재생성된 데이터 웨어하우스) 또는 ODS(운영 데이터 저장소)가 될 수 있습니다.

데이터 프레젠테이션 레이어

여기에서 사용자는 스크러빙 및 정렬된 데이터와 통신합니다. 데이터 아키텍처의 이 계층은 항목 또는 서비스 통찰력을 위해 데이터를 쿼리하고, 데이터를 분석하여 이론적인 비즈니스 상황을 수행하고, 컴퓨터화되거나 특별히 지정된 보고서를 생성할 수 있는 기능을 사용자에게 제공합니다.

이해하기 쉬운 GUI(그래픽 사용자 인터페이스)가 있는 OLAP 또는 보고 도구를 활용하여 사용자가 쿼리 작성, 분석 수행 또는 보고서 계획을 지원할 수 있습니다.

데이터웨어하우스의 특징

데이터 웨어하우스는 조직의 빠르고 효율적인 의사 결정 프로세스를 가능하게 하는 주제 지향적, 비휘발성, 시변성 및 통합 데이터 세트입니다.

  • 주제 지향 : 데이터 웨어하우스를 활용하여 특정 지식 분야를 조사할 수 있습니다. 예를 들어, "판매"는 특정 주제가 될 수 있습니다.
  • 통합 : 데이터 웨어하우스는 다양한 소스의 정보를 통합합니다. 예를 들어, 소스 A와 소스 B는 품목을 구별하는 다양한 방법이 있을 수 있지만 창고에서는 품목을 식별하는 유일한 방법일 것입니다.
  • Time-Variant : 웨어하우스는 과거 데이터를 포함합니다. 예를 들어, 데이터 웨어하우스에서 3개월, 반년, 1년 또는 상당히 오래된 정보에서 정보를 복구할 수 있습니다. 이것은 최신 정보만 저장되는 트랜잭션 프레임워크와 관련하여 다르게 나타납니다. 예를 들어, 트랜잭션 프레임워크는 클라이언트의 최신 위치를 보유할 수 있는 반면 데이터 웨어하우스는 클라이언트와 관련된 모든 위치를 보유할 수 있습니다.
  • 비휘발성 : 데이터 웨어하우스의 가장 큰 특징 중 하나는 데이터가 한 번 저장되면 변경이 불가능하다는 것입니다. 따라서 창고에 기록된 정보는 절대 수정되지 않습니다.

데이터 웨어하우스 아키텍처를 사용하는 방법?

비즈니스 또는 기업에 필요한 종류의 데이터베이스를 구축하고 인사이트를 찾는 동안 데이터베이스와 어떻게 협업할 것인지 구축하는 것이 중요합니다. 데이터 웨어하우스 설계를 고려하는 동안 정보를 검사할 사람과 필요한 소스를 평가하는 것도 중요합니다.

데이터 웨어하우스 대 데이터 마트 농담이 소규모 조직과 지속적으로 관련이 없다는 사실에도 불구하고 더 많은 그룹, 부서 및 명시적 요구가 있는 조직은 데이터 마트에서 이익을 얻을 수 있습니다. 데이터 마트의 특정 주제 중심 특성은 데이터 마트를 데이터 웨어하우스 아키텍처의 필수적인 부분으로 만듭니다.

또한 조직의 규모에 따라 다양한 종류의 창고 설계가 점점 더 실용적일 수 있습니다. 어떤 것이 가장 좋은지 이해하는 것은 데이터, 집합의 크기 및 비즈니스 요구 사항에 달려 있습니다.

결론

데이터 웨어하우스는 단일 또는 다양한 소스의 인증된 교환 가능한 정보를 포함하는 데이터 과학 프레임워크입니다. 기존 데이터와 새로운 데이터에 액세스하고, 데이터에서 통찰력을 얻고, 현재 데이터를 분석하여 비즈니스 프로세스를 개선하는 훌륭한 방법입니다.

또한 데이터 웨어하우징의 개념 은 협회의 진행 중인 활동보다 주제에 대한 데이터를 제공하기 때문에 주제 지향적입니다. 창고에서 통합은 다양한 데이터베이스의 모든 비교 가능한 데이터에 대한 일반적인 측정 단위의 기초를 의미합니다. 앞서 언급했듯이 추가로 비휘발성이므로 새로운 정보가 입력될 때 과거 정보가 삭제되지 않습니다.

데이터 웨어하우스의 시변 특성으로 인해 높은 기간 동안 현실적인 사용성을 확보할 수 있습니다.

데이터 웨어하우스에는 다섯 가지 기본 부분이 있습니다. 1) 데이터베이스 2) ETL 도구 3) 메타 데이터 4) 쿼리 도구 5) DataMarts

쿼리 도구의 네 가지 기본 클래스는 쿼리 및 보고 도구, 응용 프로그램 개발 도구, 데이터 마이닝 장치 및 OLAP 도구입니다.

정보 소싱, 변경 및 재배치 도구는 모든 변환 및 개요를 실행하는 데 사용됩니다.

데이터 웨어하우스 아키텍처에서 메타 태그는 데이터 웨어하우스에 있는 데이터의 소스, 용도, 품질 및 하이라이트를 나타내기 때문에 중요한 역할을 합니다.

이 기사의 정보가 데이터 웨어하우스 아키텍처의 기본 사항을 이해하는 데 도움이 되었기를 바랍니다. 자세한 내용은 upGrad의 전문가에게 문의하십시오. 이메일을 보내주시면 질문에 대한 도움을 드리기 위해 다시 연락드리겠습니다.

데이터 과학에 대해 자세히 알아보려면 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍 , 업계 전문가와의 멘토링, 1 - 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.

데이터 웨어하우스의 아키텍처는 무엇입니까?

데이터 통신 처리의 전체 아키텍처와 최종 클라이언트를 위해 존재하는 프레젠테이션을 정의하는 방법이 데이터 웨어하우스 아키텍처입니다. 모든 데이터 웨어하우스는 다르며 각각은 표준 필수 구성 요소를 기반으로 특성화됩니다.

간단히 말해서, 데이터 웨어하우스는 단일 또는 다중 소스의 교환 및 과거 데이터로 구성된 정보 시스템입니다. 다양한 데이터 웨어하우징 개념을 통해 조직의 데이터 보고 및 분석 프로세스가 간소화됩니다. 데이터 웨어하우스 아키텍처를 구성하는 방법에는 여러 가지가 있습니다. 모든 접근 방식은 조직의 요구 사항에 따라 사용됩니다.

데이터 웨어하우스 설계자는 평균적으로 얼마를 벌까요?

Data Warehouse Architect는 우수한 급여 패키지를 기대할 수 있는 매우 수요가 많은 직무입니다. Data Warehouse Architect의 평균 급여는 100만원입니다. 연간 13,00,000. 이 분야에서 경력을 시작하더라도 100만 원의 초급 연봉을 기대할 수 있습니다. 연간 10,000,000. 더 많은 경험을 쌓고 사다리를 올라갈 때 급여는 최대 500만원까지 올라갈 수 있습니다. 연간 22,00,000.

의심할 여지 없이 급여 패키지는 당신이 합류하는 회사, 경험 수준, 가장 중요한 지리적 위치에 따라 달라질 것입니다.

데이터 웨어하우스 아키텍처의 올바른 흐름은 무엇입니까?

모든 운영 데이터베이스에는 적용해야 하는 고정된 수의 작업이 있습니다. 적절한 솔루션을 제공하기 위한 잘 정의된 다양한 기술이 있습니다. 데이터 웨어하우징은 데이터 웨어하우스 아키텍처의 올바른 흐름을 완전히 따를 때 더 효과적인 것으로 밝혀졌습니다.

데이터 웨어하우스에 기여하는 4가지 다른 프로세스는 데이터 추출 및 로드, 데이터 정리 및 변환, 데이터 백업 및 보관, 적절한 데이터 소스로 안내하여 쿼리 관리 프로세스를 수행하는 것입니다.