데이터 레이크 대 데이터 웨어하우스: 데이터 레이크와 데이터 웨어하우스의 차이점 [2022]
게시 됨: 2021-01-05빅 데이터가 각광을 받은 이후로 데이터 레이크와 데이터 웨어하우스가 등장했습니다. 둘 다 데이터 레이크이고 데이터 웨어하우스는 빅 데이터의 창고이지만 동일하지는 않습니다. 데이터 레이크와 데이터 웨어하우스 간의 유일한 유사점은 데이터를 저장하는 데 사용된다는 것입니다. 이러한 스토리지 리포지토리의 고유한 목적을 이해하려면 데이터 레이크와 데이터 웨어하우스의 차이점을 식별하는 것이 중요합니다.
목차
데이터 레이크 대 데이터 웨어하우스
데이터웨어 하우스
데이터 웨어하우스는 여러 소스에서 수집된 대용량 데이터를 위한 저장소 리포지토리입니다. 데이터를 데이터 웨어하우스에 공급하기 전에 해당 사용 사례를 명확하게 정의해야 합니다. 일반적으로 구조화된 형식의 과거 및 현재 데이터를 모두 포함합니다. 데이터 웨어하우스에 저장된 데이터는 기업에서 연간 및 분기별 보고서를 작성하여 비즈니스 성과를 측정하는 데 사용됩니다.
데이터 레이크
데이터 레이크는 데이터 소스에서 레이크로 스트림처럼 흐르는 원시 데이터(자연 상태의 데이터) 풀입니다. 데이터 레이크는 구조화 여부에 관계없이 모든 데이터 유형을 허용합니다. 먼저 데이터를 리프 수준에 변환되지 않은 상태로 저장한 후 변환하고 분석 요구 사항을 충족하기 위해 스키마를 적용합니다. 사용자는 호수에 액세스하여 비즈니스 혁신을 촉진하기 위해 다이빙하고 데이터 샘플을 가져올 수 있습니다.
읽기: 인도의 데이터 과학자 급여
Data Lake 대 Data Warehouse: 서로 어떻게 다릅니까?
데이터 구조
데이터 레이크와 데이터 웨어하우스의 가장 큰 차이점 중 하나는 데이터를 저장하는 방식입니다. 데이터 레이크는 원시 데이터와 처리되지 않은 데이터를 저장하지만 데이터 웨어하우스는 조직화되고 처리된 데이터를 저장합니다. 이것이 주로 데이터 레이크에 더 큰 스토리지 용량이 필요한 이유입니다. 처리되고 구조화된 데이터를 저장함으로써 데이터 웨어하우스는 귀중한 저장 공간을 절약하고 비용을 절감합니다.
데이터 웨어하우스의 가장 큰 이점은 처리된 데이터를 정의된 사용 사례로 저장하기 때문에 기업이 조직의 요구 사항에 쉽게 사용할 수 있다는 것입니다. 원시 데이터는 또한 분명한 이점이 있습니다. 처리되지 않은 데이터는 매우 유연하여 ML 작업에 이상적입니다. 그러나 데이터 레이크에는 엄격한 데이터 품질 및 데이터 거버넌스 조치가 없기 때문에 빠르게 데이터 늪으로 변할 수 있습니다.
목적
데이터 레이크는 최소한의 구성 및 필터링이 특징입니다. 데이터는 모든 소스에서 데이터 레이크로 흐를 수 있습니다. 일반적으로 데이터 레이크의 개별 데이터 요소에는 정의되거나 고정된 목적이 없습니다. 반면에 데이터 웨어하우스는 특정 비즈니스 목적으로 사용될 처리된 데이터를 저장합니다. 따라서 데이터 웨어하우스는 조직 내에서 사용하지 않는 데이터를 저장하지 않습니다.

접근성
데이터 저장소에서 데이터에 쉽게 액세스할 수 있는지 여부는 전체 저장소 구조에 따라 다릅니다. 데이터 레이크에는 정해진 구조나 엄격한 제한이 없으므로 필요할 때 데이터에 쉽게 액세스하고 수정할 수 있습니다. 이에 반해 데이터 웨어하우스의 아키텍처는 보다 구조화되어 있습니다. 이는 처리된 데이터를 해석하고 이해하기 쉽기 때문에 유용합니다.
사용자 기반
원시 및 비정형 데이터는 관리, 분석 및 해석하기가 매우 까다롭습니다. 데이터 과학자와 데이터 분석가는 일반적으로 원시 데이터를 처리하여 의미 있는 패턴을 추출하고 실행 가능한 비즈니스 전략으로 변환합니다. 따라서 데이터 레이크에는 원시 데이터 처리의 핵심을 알고 있는 훨씬 더 숙련되고 전문적인 사용자가 필요합니다.
반면에 차트, 표, 그래프, 스프레드시트 등의 형태로 처리된 데이터를 쉽게 시각화할 수 있습니다. 이것이 데이터 웨어하우스가 보다 광범위한 사용자 기반을 갖는 이유입니다. 비즈니스 데이터에 대한 기본 지식이 있는 사람은 누구나 데이터 웨어하우스를 사용할 수 있습니다. .
세계 최고의 대학에서 데이터 과학 과정 을 배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.
적응성
아마도 데이터 웨어하우스의 가장 큰 문제는 유연하지 않거나 적응할 수 없다는 것입니다. 데이터 로드 프로세스가 복잡하기 때문에 데이터 웨어하우스의 구조를 수정하는 데 상당한 시간, 리소스 및 노력이 필요합니다. 그러나 데이터는 데이터 레이크에서 항상 원시 형태로 남아 있으므로 누구나 언제든지 액세스할 수 있습니다. 제한 없이 원하는 방식으로 원시 데이터를 탐색하고 실험할 수 있습니다.
확인: 초심자를 위한 상위 5가지 흥미로운 데이터 엔지니어링 프로젝트 및 아이디어
결론
데이터 레이크와 데이터 웨어하우스는 완전히 다른 용도로 사용됩니다. 데이터 레이크의 주요 목표는 서로 다른 소스에서 빅 데이터를 수집하는 반면 데이터 웨어하우스는 데이터 분석에 가장 적합합니다. 데이터 레이크는 한 조직에 가장 적합할 수 있지만 데이터 웨어하우스는 다른 회사에 가장 적합할 수 있지만 일부 회사에는 둘 다 필요할 수 있습니다.
데이터 과학에 대해 자세히 알아보려면 작업 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크샵, 업계 전문가와의 멘토링, 1 - 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.
데이터 레이크는 무엇을 의미합니까?
데이터 레이크는 필요하지 않는 한 많은 양의 데이터를 원시 형태로 저장하는 데 사용되는 데이터 저장 시스템입니다. 데이터 소스에서 호수로 스트림처럼 흐르는 원시 데이터(자연 상태의 데이터) 풀입니다. 데이터 과학자와 엔지니어는 데이터 레이크의 주요 사용자입니다. 데이터 레이크는 웨어하우스가 설정되지 않은 경우 모든 원시 데이터를 덤프하는 데 사용할 수 있으므로 데이터 웨어하우스와 함께 사용할 수도 있습니다. 데이터 저장을 위한 데이터 레이크를 제공하는 회사에는 Azure, Amazon S3 및 Hadoop이 있습니다.
데이터 레이크의 특성에 대해 논의합니다.
다음은 데이터 레이크의 특성입니다. 데이터 레이크는 현재, 이전에 사용되었거나 미래에 사용될 수 있는 모든 데이터를 유지합니다. 데이터의 만료가 없으므로 사용자는 분석 목적으로 언제든지 데이터를 방문할 수 있습니다. TB와 PB에 정보를 저장하는 데 비용이 많이 들지 않기 때문에 스토리지 측면에서 매우 저렴합니다. 모든 기존 데이터 유형과 함께 데이터 레이크는 웹 서버 로그, 센서 데이터, 소셜 네트워크 활동, 텍스트 및 이미지와 같은 모든 비 전통적인 데이터 유형을 저장합니다. 이러한 데이터 유형은 원시 상태로 저장되고 사용할 준비가 된 후에만 변환됩니다.
데이터 웨어하우스란 무엇입니까?
데이터 웨어하우스는 여러 소스에서 수집한 많은 양의 데이터를 저장할 수 있는 데이터 저장 시스템입니다. 데이터 웨어하우스는 데이터 저장 및 공유 시스템으로 중견기업과 대기업에 널리 보급되어 있습니다. 데이터를 데이터 웨어하우스에 공급하기 전에 해당 사용 사례를 명확하게 정의해야 합니다. 많은 조직에서 데이터 관리 결정을 안내하기 위해 데이터 웨어하우스를 사용합니다. 데이터 저장을 위한 데이터 웨어하우스를 제공하는 인기 있는 회사로는 Snowflake, Yellowbrick 및 Teradata가 있습니다.