數據科學、機器學習和大數據之間的區別!
已發表: 2017-11-03許多專業人士和“數據”愛好者經常問:“數據科學、機器學習和大數據有什麼區別?” 這是當今經常被問到的問題。
目錄
以下是數據科學、機器學習和大數據之間的區別:
數據科學
數據科學遵循跨學科方法。 它位於數學、統計學、人工智能、軟件工程和設計思維的交叉點。 數據科學處理數據收集、清理、分析、可視化、模型創建、模型驗證、預測、設計實驗、假設檢驗等等。 所有這些步驟的目的只是從數據中獲得洞察力。
數字化正以指數級的速度發展。 互聯網可訪問性正在以驚人的速度改善。 越來越多的人被數字生態系統所吸引。 所有這些活動都在生成大量數據。 公司目前正坐在數據地雷上。 但數據本身並沒有多大用處。 這就是數據科學發揮作用的地方。 它有助於挖掘這些數據並從中獲得洞察力; 採取有意義的行動。 各種數據科學工具可以幫助我們產生洞察力。 如果您是初學者並且有興趣了解有關數據科學的更多信息,請查看我們來自頂尖大學的數據科學家課程。
存在框架來幫助從數據中獲得洞察力。 框架只不過是一個支持結構。 它是用於構建數據科學項目開發的生命週期。 生命週期概述了項目通常遵循的步驟——從開始到結束。 換句話說,它將復雜的挑戰分解為簡單的步驟。
這可確保不會錯過任何導致從數據中產生可操作見解的重要階段。
一個這樣的框架是“數據挖掘的跨行業標準流程”,縮寫為 CRISP-DM 框架。 另一個是微軟的“團隊數據科學流程”(TDSP)。
讓我們藉助一個例子來理解這一點。 一家名為“X”的銀行,已經經營了十年。 它收到一個客戶的貸款申請。 現在,它想預測該客戶是否會拖欠償還貸款。 銀行如何才能完成這項任務?

與其他所有銀行一樣,X 必須捕獲有關其客戶各個方面的數據,例如人口統計數據、客戶相關數據等。在過去十年中,許多客戶會成功償還貸款,但有些客戶會默認。 這家銀行如何利用這些數據來提高其盈利能力? 簡而言之,它如何避免向極有可能違約的客戶提供貸款? 他們如何確保不會失去更有可能償還債務的好客戶? 數據科學可以幫助我們解決這一挑戰。
原始數據 —> 數據科學 —> 可操作的見解
讓我們了解數據科學的各個分支將如何幫助銀行克服挑戰。 統計數據將有助於設計實驗、發現變量之間的相關性、假設檢驗、探索性數據分析等。在這種情況下,客戶的貸款目的或教育資格可能會影響他們的貸款違約。 在執行數據清理和探索性研究之後,數據就可以進行建模了。
統計和人工智能為模型創建提供算法。 模型創建是機器學習發揮作用的地方。 機器學習是人工智能的一個分支,數據科學利用它來實現其目標。 在繼續銀行示例之前,讓我們了解什麼是機器學習。
掌握數據的主要步驟,相信我,我已經嘗試過了
機器學習
“機器學習是人工智能的一種形式。 它使機器能夠學習,而無需明確編程。”
你可能會問,機器如何在沒有明確編程的情況下學習? 計算機不只是按照指令製造的設備嗎? 不再。
機器學習由一套智能算法組成,使機器無需明確編程即可學習。 機器學習可幫助您學習目標函數——將輸入映射到目標變量,或將自變量映射到因變量。
在我們的銀行示例中,目標函數確定了影響貸款違約概率的各種人口統計、客戶和行為變量。 獨立屬性或輸入是客戶的人口統計、客戶和行為變量。 因變量要么是“默認”,要么不是。 目標函數是將這些輸入映射到輸出的方程。 它是一個函數,它告訴我們哪些自變量影響因變量,即違約傾向。 導出目標函數的過程,將輸入映射到輸出,稱為建模。

最初,此目標函數將無法準確預測客戶是否會違約。 當模型遇到新實例時,它會學習和進化。 隨著越來越多的示例可用,它會有所改進。 最終,該模型達到了能夠以一定精度進行判斷的階段。
例如,哪個客戶將違約,以及銀行可以依靠誰來提高其盈利能力。
機器學習旨在實現“通用性”。 這意味著,將輸入映射到輸出的目標函數應該應用於尚未遇到它的數據。 在銀行示例中,我們的模型從提供給它的數據中學習模式。 該模型確定哪些變量會影響違約趨勢。 如果新客戶申請貸款,此時此模型尚未看到他/她的變量。 該模型也應該與該客戶相關。 它應該可靠地預測該客戶是否會違約。
如果這個模型不能做到這一點,那麼它就不能概括看不見的數據。 這是一個迭代過程。 我們需要創建許多模型來查看哪些有效,哪些無效。
數據科學和分析利用機器學習來創建和驗證這種模型。 需要注意的是,此模型創建的所有算法都不是來自機器學習。 他們可以從其他各種領域進入。 該模型需要始終保持相關性。 如果條件發生變化,那麼我們之前創建的模型可能會變得無關緊要。
需要在不同時間檢查模型的可預測性,如果其可預測性降低,則需要對其進行修改。 為了讓銀行員工在客戶申請貸款時立即做出決定,該模型需要與銀行的 IT 系統集成。 銀行的服務器應託管該模型。 當客戶申請貸款時,他的變量必須從網站上捕獲並由服務器上運行的模型使用。
然後,該模型應立即將決定(是否可以授予信貸)傳達給銀行員工。 這個過程屬於信息技術領域,數據科學也利用了這一領域。
最後,一切都是為了傳達分析的結果。 在這裡,需要演示和講故事的技巧來有效地展示研究的效果。 設計思維有助於將結果可視化,並有效地從分析中講述故事。
密切關注下一件大事:機器學習
大數據
我們拼圖的最後一塊是“大數據”。 它與數據科學和機器學習有何不同?
根據 IBM 的說法,我們每天創建 2.5 Quintillion (2.5 × 1018) 字節的數據! 公司收集的數據量如此之大,以至於在數據採集、存儲、分析和可視化方面帶來了大量挑戰。 問題不完全在於可用數據的數量,還在於其多樣性、準確性和速度。 所有這些挑戰都需要一套新的方法和技術來應對這些挑戰。
大數據涉及四個“V”——數量、種類、準確性和速度——這將其與傳統數據區分開來。

體積:
這裡涉及的數據量非常龐大,需要專門的基礎設施來獲取、存儲和分析它。 採用分佈式和並行計算方法來處理這種數據量。
種類:
數據有多種格式; 結構化或非結構化等。結構化意味著整齊排列的行和列。 非結構化意味著它以段落,視頻和圖像等形式出現。這種數據也包含大量信息。 非結構化數據需要與傳統 RDBMS 不同的數據庫系統。 Cassandra 就是這樣一種用於管理非結構化數據的數據庫。
真實性:
大量數據的存在不會帶來可操作的見解。 它需要正確才能有意義。 需要格外小心以確保捕獲的數據是準確的,並且隨著數據量和種類的增加而保持神聖性。
速度:
它指的是生成數據的速度。 當今世界上 90% 的數據都是在過去兩年中創建的。 然而,這種生成的信息速度也帶來了一系列挑戰。 對於一些企業來說,實時分析至關重要。 任何延遲都會降低數據的價值及其對業務的分析。 Spark 就是這樣一種有助於分析流數據的平台。

隨著時間的推移,新的“V”被添加到大數據的定義中。 但是——數量、種類、準確性和速度——是區分數據和大數據的四個基本要素。 處理大數據的算法(包括機器學習算法)經過優化,可以利用不同的硬件基礎設施來處理大數據。
金融行業中的大數據角色和薪酬
總而言之,數據科學執行 PG 計劃是一個跨學科領域,旨在從數據中獲得可操作的見解。 機器學習是人工智能的一個分支,數據科學利用它來教機器學習的能力,而無需明確說明
程序。 數量、種類、準確性和速度是區分大數據與傳統數據的四個重要組成部分。
