什麼是數據倉庫和數據挖掘

已發表: 2018-02-22

企業數據存儲在與其他數據存儲庫物理分離的信息孤島中,每個孤島都服務於專門的功能——但那是在大數據席捲世界之前(如果我們可以說是一場風暴)。 現在,在如此大的數據集上實踐相同的方法幾乎是不可能的。 試想一下,它需要從這麼多物理上分離的信息孤島中提取數據的數量——只需要運行一個簡單的查詢。 這一切都要歸功於組織和大數據工程方法中的大量數據。

讓我們密切關注數據倉庫和數據挖掘如何進入現場。 開發了數據倉庫來解決數據存儲的這個問題。 從本質上講,數據倉庫可以被認為是一個統一的數據存儲庫,這些數據來自各種來源並採用各種格式。 另一方面,數據挖掘是從所述數據倉庫中提取知識的過程。

在本文中,我們將詳細介紹數據倉庫和數據挖掘。 為了更好地理解,我們將文章結構如下:

  • 什麼是數據倉庫?
  • 數據倉庫流程
  • 什麼是數據挖掘?
  • KDD 過程
  • 數據挖掘的真實用例

目錄

什麼是數據倉庫?

如果我們要定義數據倉庫,它可以解釋為面向主題的、時變的、非易失的、集成的數據集合。 數據倉庫的介紹還包括來自外部來源的編譯數據。 設計倉庫的目的是通過報告不同聚合級別的數據來分析和誘導業務決策。 在進一步討論之前,讓我們先看看這些術語在數據倉庫環境中的含義:

  • 面向主題

    組織可以使用數據倉庫來分析特定的主題領域。 假設您想查看您的銷售團隊在過去 5 年中的表現如何——您可以查詢您的倉庫,它會告訴您所有您需要知道的信息。 在這種情況下,“銷售”可以被視為一個主題。

  • 時變

    數據倉庫負責為組織存儲歷史數據。 例如,交易系統可以保存客戶的最新地址,但數據倉庫也將保存所有以前的地址。 除了保留歷史數據外,它還不斷添加來自各種來源的數據——這就是它成為時變模型的原因。 存儲的數據總是會隨著時間而變化。

  • 非揮發性

    一旦數據存儲在數據倉庫中,就無法更改或修改。 我們只能添加我們要修改的數據的修改副本。

  • 融合的:

    正如我們之前所說,數據倉庫保存來自多個來源的數據。 假設我們有兩個數據源——A 和 B。這兩個源中可能存儲了完全不同類型的數據,但是當它們被帶到倉庫時,它們會進行預處理。 這就是數據倉庫如何整合來自多個來源的數據。

使用 Python 開始數據科學

數據倉庫流程

數據倉庫和數據挖掘
看看上面的圖片。 從各種來源(操作系統、ERP、CRM、平面文件等)收集的數據在插入數據倉庫之前要經過 ETL 過程。 這樣做本質上是為了從數據中刪除異常(如果有),從而不會對數據倉庫造成損害。 ETL 代表 – 提取、轉換和加載。 讓我們詳細看看這些過程中的每一個。 為了更好地理解,我們將使用一個類比——想想淘金熱並繼續閱讀!

  • 萃取

    提取本質上是為了使用盡可能少的資源從源系統收集所有需要的數據。

把這一步想像成在河流中尋找盡可能大的金塊

  • 轉型

    主要目的是以通用格式將提取的數據插入數據庫。 這是因為不同的數據源會有不同的數據存儲格式——例如,一個數據源可能有“dd/mm/yyyy”格式的數據,而另一個數據源可能有“dd-mm-yy”格式的數據。 在這一步中,我們將把它轉換成一種通用格式——一種用於所有來源的數據。

現在你有一個金塊。 你做什麼工作? 將其熔化並去除雜質。

  • 正在加載

    在此步驟中,將轉換後的數據加載到目標數據庫中。

現在你有了純金——把它塑造成戒指然後賣掉!
從各種來源獲取數據並將其存儲在數據倉庫中(當然是在 ETL 過程之後)的過程就是所謂的數據倉庫。
現在,您的數據已準備就緒 - 已全部清理完畢並準備就緒。 下一步應該是什麼? 提取知識——是的!

數據挖掘助你一臂之力!

如何過渡到數據分析?

什麼是數據挖掘?

數據挖掘很簡單,就是從數據集中提取以前未知但可能有用的信息的過程。 “以前不為人知”是指只有在深入挖掘數據倉庫之後才能獲得的知識——也就是說,它在表面上沒有意義。 數據挖掘本質上是搜索數據元素之間存在的關係全局模式。

例如,假設您經營一家超市。 現在,客戶的購買歷史可能不會從表面上看出來很多,但是,如果仔細分析——識別可能的模式,那麼僅僅這些信息就足以給出很多信息。 如果您還沒有猜到,我們談論的是 Target——一家超市,通過仔細研究她的購買歷史並尋找趨勢和模式,就能發現一名少女(顧客)懷孕了。 因此,經過仔細挖掘,表面上看起來如此微不足道的信息卻具有如此巨大的價值——這正是我們所說的“以前未知的知識”。

我們認為,如果我們給您提供數據倉庫和數據挖掘的風格,而完全忽略大局 - 數據庫中的知識發現 (KDD),這對您是不公平的。 數據挖掘是 KDD 過程的步驟之一。讓我們多談談 KDD。

獲得世界頂尖大學的數據科學認證加入我們的行政 PG 課程、高級證書課程或碩士課程,以加快您的職業生涯。

數據庫中的知識發現 (KDD)

數據挖掘是 KDD 過程中較為關鍵的步驟之一。 KDD 基本上涵蓋了從數據選擇到最終評估挖掘數據的所有內容。 完整的 KDD 循環如下圖所示:

數據倉庫和數據挖掘

選擇

了解準確的目標數據至關重要。 將數據挖掘分析為數據倉庫子集是一個非常重要的步驟,因為刪除不相關的數據元素會減少數據挖掘階段的搜索空間

預處理

在此步驟中,所選數據沒有任何異常和異常值。 基本上,在這個階段數據被完全清理。 就像,如果有一些缺失的數據字段,它們會填充適當的值。 例如,在存儲組織員工詳細信息的表中,假設有一個“中間名”列。 很可能,對於許多員工來說,這將是空的。 在這種情況下,將選擇適當的值(N/A,例如)。

轉型

此階段嘗試減少數據元素的種類,同時保持信息的質量。

數據挖掘

這是 KDD 過程的主要階段。 轉換後的數據經過數據挖掘方法,如分組、聚類、回歸等。這是迭代完成的,以帶來最佳結果。 可以根據需要使用不同的技術。

評估

這是最後一步。 在此,獲得的知識被記錄並呈現以供進一步分析。 在此步驟中使用了各種數據可視化工具,以美觀且易於理解的方式描述所獲得的知識。
辛普森悖論如何影響數據?

數據挖掘的真實用例

從亞馬遜、Flipkart、Netflix,到 Facebook、Twitter、Instagram,甚至是沃爾瑪,每個組織都在充分利用數據挖掘。 在本節中,我們將討論數據挖掘的四種廣泛用例,它們是您日常生活中不可或缺的一部分。

  • 服務供應商

    電信服務提供商使用數據挖掘來預測“客戶流失”——他們使用的一個術語,用於表示客戶放棄他們而轉而使用另一個提供商。 除此之外,他們還會整理計費信息、網站訪問、客戶服務交互和其他此類信息,為每個客戶提供概率分數。 然後,為那些“流失”風險較高的客戶提供優惠和獎勵。

  • 電子商務

    在數據挖掘方面,電子商務很容易成為最知名的用例。 其中最著名的當然是亞馬遜。 他們使用極其複雜的採礦技術。 例如,查看“查看過該產品的人也喜歡這個”功能!

  • 超級市場

    超市也是數據挖掘的一個有趣用例。 挖掘客戶的購買歷史可以讓他們了解他們的購買模式。 然後,超市使用此信息為客戶提供個性化的優惠。 哦,我們有沒有告訴你Target使用數據挖掘做了什麼? (是的我們做了!)

  • 零售

    零售商將他們的客戶分為新近度、頻率和貨幣 (RFM) 組。 使用數據挖掘,他們針對這些群體進行營銷。 消費很少但頻繁且最近一次購買的客戶與花費很多但只消費一次的客戶的處理方式將有所不同。

誰是數據科學家、數據分析師和數據工程師?

包起來…

數據倉庫和數據挖掘構成了當今世界上最重要的兩個過程。 今天幾乎每一件大事都是複雜數據挖掘的結果。 因為未挖掘的數據與沒有數據一樣有用(或無用)。

同樣,要了解數據挖掘和數據倉庫之間的區別,您必須沉迷於從數據挖掘到數據倉庫的介紹——這是一種將來自不同來源的數據集中在一個數據庫中的方法。 我們可以將數據倉庫定義為編譯的歷史數據或實時數據饋送,主要返回有機和綜合信息。

我們希望本文能讓您清楚了解什麼是數據倉庫和數據挖掘等等。 總而言之,在單個數據庫中收集、存儲和組織信息的過程被認為是數據倉庫與數據挖掘,主要是從不同的角度從數據中提取有意義的信息。 收集到的所有有用信息都可以在以後用於解決可能成為公司發展障礙的未來問題,甚至還可以降低成本。 如果您正在尋找一個光明而迷人的未來,並且如果您對探索充滿熱情,那麼從學習 Whats' What of Data Warehousing 和 Data Mining 開始將是您的絕佳選擇。

我們希望這篇文章能讓您清楚地了解這兩個術語的含義以及更多內容! 如果您想了解數據科學,請查看 IIIT-B 和 upGrad 的數據科學 PG 文憑,該文憑專為在職專業人士而設,提供 10 多個案例研究和項目、實用的實踐研討會、行業專家的指導、1-與行業導師面對面交流,400 多個小時的學習和頂級公司的工作協助。

企業如何使用數據倉庫和數據挖掘?

數據挖掘和數據倉庫都是將信息(或數據)轉化為可用知識的商業智能技術。

數據挖掘是一種統計分析方法。 分析師使用技術工具來查詢和整理數千兆字節的數據以尋找趨勢。 然後,企業根據對消費者和供應商行為的理解,利用這些數據做出更好的業務決策。

數據倉庫是設計數據存儲方式以促進報告和分析的過程。 根據數據倉庫專家的說法,眾多的數據存儲在概念上和物理上都是集成的,並且彼此相關。 公司的數據通常保存在多個數據庫中。

數據倉庫和數據挖掘之間的核心區別是什麼? 在商業世界中哪個更實用?

數據倉庫是一種數據存儲系統。 它通常需要為各種目標從多個來源獲取各種數據類型。 有規律地存儲這些數據以便以後檢索的過程稱為數據倉庫。

提取數據的過程稱為數據挖掘。 它需要為特定目標定位最相關的信息。 它可能來自您的數據倉庫,或者完全來自其他地方。 您期望提煉和清理您挖掘的數據,就像處理真正的礦石一樣。

你的倉儲系統越好,開採就越容易。

數據挖掘和 KDD 過程相似嗎?

儘管 KDD 和數據挖掘是經常互換的術語,但它們指的是兩個不同但相關的概念。

數據挖掘是 KDD 過程中處理識別數據模式的一個組件,而 KDD 是從數據中提取知識的整個過程。 換句話說,數據挖掘只是應用特定的算法來達到KDD過程的最終目的。