數據科學、機器學習和大數據之間的區別！

已發表: 2017-11-03

許多專業人士和“數據”愛好者經常問：“數據科學、機器學習和大數據有什麼區別？” 這是當今經常被問到的問題。

以下是數據科學、機器學習和大數據之間的區別：

數據科學

數據科學遵循跨學科方法。它位於數學、統計學、人工智能、軟件工程和設計思維的交叉點。數據科學處理數據收集、清理、分析、可視化、模型創建、模型驗證、預測、設計實驗、假設檢驗等等。所有這些步驟的目的只是從數據中獲得洞察力。

數字化正以指數級的速度發展。互聯網可訪問性正在以驚人的速度改善。越來越多的人被數字生態系統所吸引。所有這些活動都在生成大量數據。公司目前正坐在數據地雷上。但數據本身並沒有多大用處。這就是數據科學發揮作用的地方。它有助於挖掘這些數據並從中獲得洞察力； 採取有意義的行動。 各種數據科學工具可以幫助我們產生洞察力。如果您是初學者並且有興趣了解有關數據科學的更多信息，請查看我們來自頂尖大學的數據科學家課程。

存在框架來幫助從數據中獲得洞察力。框架只不過是一個支持結構。它是用於構建數據科學項目開發的生命週期。生命週期概述了項目通常遵循的步驟——從開始到結束。換句話說，它將復雜的挑戰分解為簡單的步驟。
這可確保不會錯過任何導致從數據中產生可操作見解的重要階段。

一個這樣的框架是“數據挖掘的跨行業標準流程”，縮寫為 CRISP-DM 框架。另一個是微軟的“團隊數據科學流程”（TDSP）。

讓我們藉助一個例子來理解這一點。一家名為“X”的銀行，已經經營了十年。它收到一個客戶的貸款申請。現在，它想預測該客戶是否會拖欠償還貸款。銀行如何才能完成這項任務？

與其他所有銀行一樣，X 必須捕獲有關其客戶各個方面的數據，例如人口統計數據、客戶相關數據等。在過去十年中，許多客戶會成功償還貸款，但有些客戶會默認。這家銀行如何利用這些數據來提高其盈利能力？簡而言之，它如何避免向極有可能違約的客戶提供貸款？他們如何確保不會失去更有可能償還債務的好客戶？數據科學可以幫助我們解決這一挑戰。

原始數據 —> 數據科學 —> 可操作的見解

讓我們了解數據科學的各個分支將如何幫助銀行克服挑戰。統計數據將有助於設計實驗、發現變量之間的相關性、假設檢驗、探索性數據分析等。在這種情況下，客戶的貸款目的或教育資格可能會影響他們的貸款違約。在執行數據清理和探索性研究之後，數據就可以進行建模了。

統計和人工智能為模型創建提供算法。模型創建是機器學習發揮作用的地方。 機器學習是人工智能的一個分支，數據科學利用它來實現其目標。 在繼續銀行示例之前，讓我們了解什麼是機器學習。
掌握數據的主要步驟，相信我，我已經嘗試過了

機器學習

“機器學習是人工智能的一種形式。它使機器能夠學習，而無需明確編程。”

你可能會問，機器如何在沒有明確編程的情況下學習？計算機不只是按照指令製造的設備嗎？不再。
機器學習由一套智能算法組成，使機器無需明確編程即可學習。機器學習可幫助您學習目標函數——將輸入映射到目標變量，或將自變量映射到因變量。

在我們的銀行示例中，目標函數確定了影響貸款違約概率的各種人口統計、客戶和行為變量。獨立屬性或輸入是客戶的人口統計、客戶和行為變量。因變量要么是“默認”，要么不是。目標函數是將這些輸入映射到輸出的方程。它是一個函數，它告訴我們哪些自變量影響因變量，即違約傾向。導出目標函數的過程，將輸入映射到輸出，稱為建模。

最初，此目標函數將無法準確預測客戶是否會違約。當模型遇到新實例時，它會學習和進化。隨著越來越多的示例可用，它會有所改進。最終，該模型達到了能夠以一定精度進行判斷的階段。

例如，哪個客戶將違約，以及銀行可以依靠誰來提高其盈利能力。
機器學習旨在實現“通用性”。 這意味著，將輸入映射到輸出的目標函數應該應用於尚未遇到它的數據。在銀行示例中，我們的模型從提供給它的數據中學習模式。該模型確定哪些變量會影響違約趨勢。如果新客戶申請貸款，此時此模型尚未看到他/她的變量。該模型也應該與該客戶相關。它應該可靠地預測該客戶是否會違約。

如果這個模型不能做到這一點，那麼它就不能概括看不見的數據。 這是一個迭代過程。 我們需要創建許多模型來查看哪些有效，哪些無效。
數據科學和分析利用機器學習來創建和驗證這種模型。需要注意的是，此模型創建的所有算法都不是來自機器學習。他們可以從其他各種領域進入。該模型需要始終保持相關性。如果條件發生變化，那麼我們之前創建的模型可能會變得無關緊要。

需要在不同時間檢查模型的可預測性，如果其可預測性降低，則需要對其進行修改。為了讓銀行員工在客戶申請貸款時立即做出決定，該模型需要與銀行的 IT 系統集成。銀行的服務器應託管該模型。當客戶申請貸款時，他的變量必須從網站上捕獲並由服務器上運行的模型使用。

然後，該模型應立即將決定（是否可以授予信貸）傳達給銀行員工。這個過程屬於信息技術領域，數據科學也利用了這一領域。

最後，一切都是為了傳達分析的結果。在這裡，需要演示和講故事的技巧來有效地展示研究的效果。設計思維有助於將結果可視化，並有效地從分析中講述故事。
密切關注下一件大事：機器學習

大數據

我們拼圖的最後一塊是“大數據”。它與數據科學和機器學習有何不同？

根據 IBM 的說法，我們每天創建 2.5 Quintillion (2.5 × 1018) 字節的數據！ 公司收集的數據量如此之大，以至於在數據採集、存儲、分析和可視化方面帶來了大量挑戰。問題不完全在於可用數據的數量，還在於其多樣性、準確性和速度。所有這些挑戰都需要一套新的方法和技術來應對這些挑戰。

大數據涉及四個“V”——數量、種類、準確性和速度——這將其與傳統數據區分開來。

體積：

這裡涉及的數據量非常龐大，需要專門的基礎設施來獲取、存儲和分析它。採用分佈式和並行計算方法來處理這種數據量。

種類：

數據有多種格式；結構化或非結構化等。結構化意味著整齊排列的行和列。非結構化意味著它以段落，視頻和圖像等形式出現。這種數據也包含大量信息。非結構化數據需要與傳統 RDBMS 不同的數據庫系統。 Cassandra 就是這樣一種用於管理非結構化數據的數據庫。

真實性：

大量數據的存在不會帶來可操作的見解。它需要正確才能有意義。需要格外小心以確保捕獲的數據是準確的，並且隨著數據量和種類的增加而保持神聖性。

速度：

它指的是生成數據的速度。當今世界上 90% 的數據都是在過去兩年中創建的。然而，這種生成的信息速度也帶來了一系列挑戰。對於一些企業來說，實時分析至關重要。任何延遲都會降低數據的價值及其對業務的分析。 Spark 就是這樣一種有助於分析流數據的平台。

隨著時間的推移，新的“V”被添加到大數據的定義中。但是——數量、種類、準確性和速度——是區分數據和大數據的四個基本要素。處理大數據的算法（包括機器學習算法）經過優化，可以利用不同的硬件基礎設施來處理大數據。
金融行業中的大數據角色和薪酬

總而言之，數據科學執行 PG 計劃是一個跨學科領域，旨在從數據中獲得可操作的見解。機器學習是人工智能的一個分支，數據科學利用它來教機器學習的能力，而無需明確說明

程序。數量、種類、準確性和速度是區分大數據與傳統數據的四個重要組成部分。

為未來的職業做準備

申請數據科學理學碩士