데이터 웨어하우징 및 데이터 마이닝이란?
게시 됨: 2018-02-22엔터프라이즈 데이터는 다른 데이터 저장소와 물리적으로 분리된 정보 사일로에 저장되었으며 각 사일로는 특수 기능을 제공했습니다. 그러나 그것은 빅 데이터가 세계를 강타하기 전이었습니다. 이제 그러한 대규모 데이터 세트에서 동일한 방법을 실행하는 것은 사실상 불가능합니다. 물리적으로 분리된 많은 정보 사일로에서 간단한 쿼리를 실행하는 데 필요한 데이터 추출 수를 상상해 보십시오. 이 모든 것은 조직 및 빅 데이터 엔지니어링 방법에 있는 엄청나게 방대한 데이터 더미 덕분입니다.
데이터 웨어하우징 및 데이터 마이닝 이 어떻게 등장하는지 자세히 살펴보겠습니다. 데이터 웨어하우스는 이러한 데이터 저장 문제를 해결하기 위해 개발되었습니다. 기본적으로 데이터 웨어하우스는 다양한 소스에서 다양한 형식으로 제공되는 데이터의 통합 리포지토리로 생각할 수 있습니다. 반면에 데이터 마이닝은 해당 데이터 웨어하우스에서 지식을 추출하는 프로세스입니다.
이 기사에서는 데이터 웨어하우스 및 데이터 마이닝에 대해 자세히 살펴보겠습니다. 더 나은 이해를 위해 다음과 같이 기사를 구성했습니다.
- 데이터 웨어하우징이란 무엇입니까?
- 데이터 웨어하우스 프로세스
- 데이터 마이닝이란 무엇입니까?
- KDD 프로세스
- 데이터 마이닝의 실제 사용 사례
목차
데이터 웨어하우징이란 무엇입니까?
데이터 웨어하우스 를 정의한다면 주제 지향적, 시변성, 비휘발성, 통합 데이터 모음으로 설명할 수 있습니다. 데이터 웨어하우징 소개에는 외부 소스에서 컴파일된 데이터도 포함됩니다. 웨어하우스를 설계하는 목적은 다른 집계 수준에서 데이터를 보고하여 비즈니스 의사결정을 분석하고 유도하는 것입니다. 여기에서 더 나아가기 전에 먼저 이 용어가 데이터 웨어하우스의 맥락에서 의미하는 바를 살펴보겠습니다.
주제 지향적
조직은 데이터 웨어하우스를 사용하여 특정 주제 영역을 분석할 수 있습니다. 지난 5년 동안 영업 팀이 얼마나 잘 수행했는지 확인하고 싶다고 가정해 보겠습니다. 창고에 쿼리하면 알아야 할 모든 정보가 제공됩니다. 이 경우 "판매"를 주제로 취급할 수 있습니다.
시변
데이터 웨어하우스는 조직의 기록 데이터를 저장하는 역할을 합니다. 예를 들어 트랜잭션 시스템은 고객의 가장 최근 주소를 보유할 수 있지만 데이터 웨어하우스는 이전 주소도 모두 보유합니다. 과거 데이터를 유지하는 것과 별개로 다양한 소스의 데이터를 계속 추가하므로 시간에 따라 달라지는 모델이 됩니다. 저장된 데이터는 항상 시간에 따라 달라집니다.
비휘발성
데이터가 데이터 웨어하우스에 저장되면 변경하거나 수정할 수 없습니다. 수정하려는 데이터의 수정된 사본만 추가할 수 있습니다.
통합:
앞서 말했듯이 데이터 웨어하우스는 여러 소스의 데이터를 보유합니다. A와 B의 두 가지 데이터 소스가 있다고 가정해 보겠습니다. 두 소스 모두 완전히 다른 유형의 데이터가 저장되어 있을 수 있지만 창고로 가져오면 사전 처리를 거치게 됩니다. 이것이 데이터 웨어하우스가 여러 소스의 데이터를 통합하는 방법입니다.
데이터 웨어하우스 프로세스

위의 이미지를 살펴보십시오. 다양한 소스(운영체제, ERP, CRM, 플랫 파일 등)에서 수집된 데이터는 데이터 웨어하우스에 삽입되기 전에 ETL 프로세스를 거칩니다. 이는 기본적으로 데이터에서 이상 사항이 있는 경우 이를 제거하여 데이터 웨어하우스에 피해를 입히지 않도록 하기 위해 수행됩니다. ETL은 추출, 변환 및 로드를 나타냅니다. 이러한 각 프로세스를 자세히 살펴보겠습니다. 더 잘 이해하기 위해 비유를 사용하겠습니다. 골드 러시를 생각하고 계속 읽으십시오!
추출
추출은 기본적으로 가능한 적은 리소스를 사용하여 소스 시스템에서 필요한 모든 데이터를 수집하기 위해 수행됩니다.
이 단계를 가능한 한 큰 금덩어리를 찾아 강을 헤매는 것과 같다고 생각하십시오 .
변환
주요 목표는 추출된 데이터를 일반 형식으로 데이터베이스에 삽입하는 것입니다. 이는 소스마다 데이터 저장 형식이 다르기 때문입니다. 예를 들어 한 데이터 소스에는 "dd/mm/yyyy" 형식의 데이터가 있고 다른 소스에는 "dd-mm-yy" 형식이 있을 수 있습니다. 이 단계에서는 이것을 모든 소스의 데이터에 사용할 일반화된 형식으로 변환합니다.
이제 금덩어리가 생겼습니다. 너 뭐하니? 녹여서 불순물을 제거합니다.
로딩 중
이 단계에서 변환된 데이터는 대상 데이터베이스에 로드됩니다.
이제 당신은 순금을 가지고 있습니다. 그것을 반지로 만들고 그것을 팔아치우십시오!
다양한 소스에서 데이터를 가져와 데이터 웨어하우스에 저장하는 프로세스(물론 ETL 프로세스 이후)를 데이터 웨어하우징이라고 합니다.
이제 모든 데이터가 정리되어 사용할 준비가 되었습니다. 다음 단계는 무엇이어야 합니까? 지식 추출 – 예!
구조를 위한 데이터 마이닝!
데이터 분석으로 어떻게 전환할 수 있습니까?데이터 마이닝이란 무엇입니까?
데이터 마이닝은 간단히 말해서 데이터 세트에서 이전에 알려지지 않았지만 잠재적으로 유용한 정보를 추출하는 프로세스입니다. "이전에 알려지지 않은"이란 데이터 웨어하우스를 깊이 마이닝한 후에만 얻을 수 있는 지식을 의미합니다. 즉, 표면적으로는 이해가 되지 않습니다. 데이터 마이닝은 기본적으로 데이터 요소 간에 존재하는 관계 전역 패턴을 검색합니다.
예를 들어 슈퍼마켓을 운영한다고 상상해보십시오. 이제 고객의 구매 내역이 표면적으로 많이 드러나지 않을 수도 있지만 신중하게 분석하여 가능한 패턴을 인식하면 이 정보만으로도 많은 것을 알 수 있습니다. 아직 짐작하지 못하셨다면 Target에 대해 이야기하고 있습니다. 십대 소녀(고객)의 구매 내역을 주의 깊게 연구하고 추세와 패턴을 찾아 임신한 것을 알아낸 슈퍼마켓입니다 . 따라서 표면적으로는 사소해 보이는 정보가 주의 깊게 파헤쳐 보면 매우 가치 있는 것으로 판명되었습니다. 이것이 바로 "이전에 알려지지 않은 지식"이 의미하는 바입니다.

데이터 웨어하우징 및 데이터 마이닝의 풍미를 제공하고 큰 그림인 KDD(Knowledge Discovery in Databases)를 완전히 무시하면 귀하에게 불공평할 것이라고 생각합니다. 데이터 마이닝은 KDD 프로세스의 단계 중 하나입니다. KDD에 대해 조금 더 이야기하겠습니다.
세계 최고의 대학에서 데이터 과학 인증 을 획득 하십시오. 귀하의 경력을 빠르게 추적하려면 Executive PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램에 가입하십시오.
데이터베이스의 지식 발견(KDD)
데이터 마이닝은 KDD 프로세스에서 더 중요한 단계 중 하나입니다. KDD는 기본적으로 데이터 선택부터 최종적으로 마이닝된 데이터 평가까지 모든 것을 다룹니다. 전체 KDD 주기는 아래 이미지에 나와 있습니다.

선택
정확한 목표 데이터를 아는 것이 가장 중요합니다. 관련 없는 데이터 요소를 제거하면 데이터 마이닝 단계에서 검색 공간이 줄어들기 때문에 데이터 마이닝을 데이터 웨어하우징 하위 집합으로 분석하는 것은 매우 중요한 단계 입니다.
전처리
이 단계에서 선택된 데이터는 이상치와 이상치로부터 해방됩니다. 기본적으로 이 단계에서 데이터가 완전히 정리됩니다. 예를 들어 누락된 데이터 필드가 있는 경우 적절한 값으로 채워집니다. 예를 들어 조직 직원의 세부 정보를 저장하는 테이블에 "중간 이름"에 대한 열이 있다고 가정합니다. 많은 직원이 비어 있을 가능성이 있습니다. 이러한 시나리오에서는 적절한 값이 선택됩니다(예: N/A).
변환
이 단계에서는 정보의 품질을 유지하면서 다양한 데이터 요소를 줄이려고 시도합니다.
데이터 수집
이것은 KDD 프로세스의 주요 단계입니다. 변환된 데이터는 그룹화, 클러스터링, 회귀 등과 같은 데이터 마이닝 방법을 따릅니다. 이는 최상의 결과를 얻기 위해 반복적으로 수행됩니다. 요구 사항에 따라 다른 기술을 사용할 수 있습니다.
평가
이것이 마지막 단계입니다. 여기서 얻은 지식은 문서화되고 추가 분석을 위해 제공됩니다. 획득한 지식을 아름답고 이해하기 쉬운 방식으로 묘사하기 위해 이 단계에서 다양한 데이터 시각화 도구가 사용됩니다.
심슨의 역설은 데이터에 어떤 영향을 미칩니까?
데이터 마이닝의 실제 사용 사례
Amazon, Flipkart, Netflix, Facebook, Twitter, Instagram, 심지어 Walmart에 이르기까지 모든 조직에서 데이터 마이닝을 잘 활용하고 있습니다. 이 섹션에서는 일상 생활의 필수적인 부분인 데이터 마이닝의 4가지 광범위한 사용 사례에 대해 설명합니다.
서비스 제공자
통신 서비스 제공업체는 데이터 마이닝을 사용하여 고객이 다른 제공업체로 전환할 때 사용하는 용어인 "이탈"을 예측합니다. 그 외에도 청구 정보, 웹 사이트 방문, 고객 관리 상호 작용 및 기타 항목을 조합하여 각 고객에게 확률 점수를 제공합니다. 그런 다음 " 이탈" 위험이 더 높은 고객에게 제안과 인센티브가 제공됩니다.
전자상거래
전자 상거래는 데이터 마이닝과 관련하여 가장 잘 알려진 사용 사례입니다. 그들 중 가장 유명한 것 중 하나는 물론 아마존입니다. 그들은 매우 정교한 채굴 기술을 사용합니다. 예를 들어 "해당 제품을 본 사람들이 이것도 좋아했습니다" 기능을 확인하십시오!
슈퍼마켓
슈퍼마켓은 데이터 마이닝의 흥미로운 사용 사례이기도 합니다. 고객의 구매 내역을 마이닝하면 구매 패턴을 이해할 수 있습니다. 이 정보는 슈퍼마켓에서 고객에게 개인화된 제안을 제공하는 데 사용됩니다. 아, 그리고 Target 이 데이터 마이닝을 사용하여 무엇을 했는지 말씀 드렸나요? (그래, 우리가 했어!)
소매
소매업체는 고객을 RFM(Recency, Frequency, Monetary) 그룹으로 묶습니다. 데이터 마이닝을 사용하여 이러한 그룹에 대한 마케팅을 목표로 합니다. 지출은 적지만 자주 사용하고 마지막 구매가 상당히 최근인 고객은 많이 지출했지만 한 번만 사용한 고객과 다르게 처리됩니다.
마무리…
데이터 웨어하우징 및 데이터 마이닝 은 오늘날 말 그대로 세계를 운영하는 가장 중요한 두 가지 프로세스를 구성합니다. 오늘날 거의 모든 큰 일은 정교한 데이터 마이닝의 결과입니다. 채굴되지 않은 데이터는 데이터가 전혀 없는 것처럼 유용하거나 쓸모가 없기 때문입니다.
다시 말하지만, 데이터 마이닝과 데이터 웨어하우징의 차이점을 이해하려면 데이터 마이닝의 소개에서 데이터 웨어하우징에 이르기까지, 서로 다른 소스의 데이터를 하나의 데이터베이스에 모두 중앙 집중화하는 방법에 빠져야 합니다. 우리는 데이터 웨어하우징을 컴파일된 이력 데이터 또는 대부분 유기적이고 통합된 정보를 제공하는 실시간 데이터 피드로 정의할 수 있습니다.
이 기사가 데이터 웨어하우징 및 데이터 마이닝 등에 대한 명확성을 제공하기를 바랍니다. 결론적으로, 단일 데이터베이스에 정보를 수집, 저장 및 구성하는 프로세스는 데이터 웨어하우징 대 데이터 마이닝으로 간주됩니다. 대부분 다른 관점을 사용하여 데이터에서 의미 있는 정보를 추출합니다. 수집된 모든 유용한 정보는 나중에 회사 성장에 걸림돌이 될 수 있는 미래 문제를 해결하고 비용을 절감하는 데 사용할 수 있습니다. 밝고 매혹적인 미래를 찾고 있고 탐색이 당신의 열정이라면 데이터 웨어하우징 및 데이터 마이닝이 무엇인지 배우는 것부터 시작하는 것이 훌륭한 선택이 될 것입니다.
이 기사를 통해 이 두 용어의 의미와 그 이상의 의미를 명확하게 이해할 수 있기를 바랍니다! 데이터 과학에 대해 자세히 알아보려면 IIIT-B & upGrad의 데이터 과학 PG 디플로마를 확인하세요. 이 PG 디플로마는 실무 전문가를 위해 만들어졌으며 10개 이상의 사례 연구 및 프로젝트, 실용적인 실습 워크숍, 업계 전문가와의 멘토링, 1- 업계 멘토와 일대일, 400시간 이상의 학습 및 최고의 기업과의 취업 지원.
기업은 데이터 웨어하우징 및 데이터 마이닝을 어떻게 사용합니까?
데이터 마이닝과 데이터 웨어하우징 모두 정보(또는 데이터)를 사용 가능한 지식으로 변환하기 위한 비즈니스 인텔리전스 기술입니다.
데이터 마이닝은 통계 분석 방법입니다. 기술 도구는 분석가가 추세를 검색하기 위해 기가바이트의 데이터를 쿼리하고 정렬하는 데 사용됩니다. 그런 다음 기업은 이 데이터를 활용하여 소비자와 공급업체의 행동에 대한 이해를 바탕으로 더 나은 비즈니스 결정을 내립니다.
데이터 웨어하우징은 보고 및 분석을 용이하게 하기 위해 데이터가 저장되는 방식을 설계하는 프로세스입니다. 데이터 웨어하우스 전문가에 따르면 수많은 데이터 저장소가 개념적으로나 물리적으로 통합되고 서로 관련되어 있습니다. 회사의 데이터는 일반적으로 여러 데이터베이스에 저장됩니다.
데이터 웨어하우징과 데이터 마이닝의 핵심 차이점은 무엇입니까? 비즈니스 세계에서 어느 것이 더 실용적입니까?
데이터 웨어하우스는 데이터 저장 시스템입니다. 일반적으로 다양한 목표를 위해 여러 소스에서 얻은 다양한 데이터 종류를 수반합니다. 나중에 검색할 수 있도록 이 데이터를 규칙에 따라 저장하는 프로세스를 데이터 웨어하우징이라고 합니다.
데이터를 추출하는 프로세스를 데이터 마이닝이라고 합니다. 그것은 특정 목표에 가장 적절한 정보를 찾는 것을 수반합니다. 데이터 웨어하우스에서 올 수도 있고 완전히 다른 곳에서 올 수도 있습니다. 실제 광석과 마찬가지로 마이닝한 데이터를 정제하고 정리할 것으로 예상합니다.
창고 시스템이 좋을수록 채굴이 더 쉬워집니다.
데이터 마이닝과 KDD 프로세스는 유사합니까?
KDD와 데이터 마이닝은 자주 교환되는 용어이지만 두 가지 별개의 관련 개념을 나타냅니다.
데이터 마이닝은 데이터의 패턴 인식을 처리하는 KDD 프로세스 내의 구성 요소인 반면 KDD는 데이터에서 지식을 추출하는 전체 프로세스입니다. 다시 말해 데이터 마이닝은 KDD 프로세스의 궁극적인 목적을 달성하기 위해 특정 알고리즘을 적용하는 것입니다.
