數據科學框架：做出更好商業決策的 7 大步驟

已發表: 2019-12-26

數據科學是一個廣闊的領域，涵蓋了提取信息並幫助理解大量數據的各種技術和方法。此外，數據驅動的決策可以帶來巨大的商業價值。因此，數據科學框架已成為現代科技企業的聖杯，大致列出了收集有意義見解的 7 個步驟。這些包括：詢問、獲取、同化、分析、回答、建議和行動。以下是每個步驟的概述以及與數據科學相關的一些重要概念。

數據科學框架：步驟

1. 提問：數據科學框架的起點

與任何傳統的科學研究一樣，數據科學也始於一系列問題。數據科學家是具有批判性思維能力的好奇者，他們質疑現有的假設和系統。數據使他們能夠驗證他們的擔憂並找到新的答案。因此，正是這種好奇的思維啟動了採取循證行動的過程。

2. 採集：收集所需數據

提出問題後，數據科學家必須從各種來源收集所需的數據，並進一步同化以使其有用。他們部署特徵工程等流程來確定支持數據挖掘、機器學習和模式識別算法的輸入。一旦確定了功能，就可以從開源下載數據或通過創建框架來記錄或測量數據來獲取數據。

3. 同化：轉換收集到的數據

然後，必須對收集到的數據進行清理以供實際使用。通常，它涉及管理缺失和不正確的值以及處理潛在的異常值。無論數據建模多麼穩健，糟糕的數據都無法給出好的結果。清理數據至關重要，因為計算機遵循“垃圾進，垃圾出”的邏輯概念。他們甚至會處理無意和無意義的輸入，以產生不受歡迎和荒謬的輸出。

不同形式的數據

數據可能以結構化或非結構化格式出現。結構化數據通常採用離散變量或分類數據的形式，具有有限數量的可能性（例如，性別）或連續變量，包括整數或實數（例如，工資和溫度）等數字數據。另一種特殊情況是二進制變量只有兩個值，例如是/否和真/假。

轉換數據

有時，數據科學家可能希望匿名化數字數據或將其轉換為離散變量以使其與算法同步。例如，數值溫度可以轉換為分類變量，如熱、中和冷。這稱為“分箱”。另一個稱為“編碼”的過程可用於將分類數據轉換為數字。

4.分析：進行數據挖掘

一旦獲得併吸收了所需的數據，知識發現的過程就開始了。數據分析涉及數據挖掘和探索性數據分析（EDA）等功能。分析是數據科學框架中最重要的步驟之一。

數據挖掘

數據挖掘是統計、人工智能、機器學習和數據庫系統的交集。它涉及在大型數據集中尋找模式，並將預先存在的數據結構化和匯總為有用的信息。數據挖掘不同於信息檢索（搜索網絡或在電話簿中查找姓名等）。相反，它是一個系統過程，涵蓋了連接數據點之間的點的各種技術。

探索性數據分析 (EDA)

EDA 是使用匯總統計和可視化技術描述和表示數據的過程。在構建任何模型之前，進行此類分析以充分了解數據非常重要。探索性分析的一些基本類型包括關聯、聚類、回歸和分類。讓我們一一了解它們。

協會

關聯意味著識別哪些項目是相關的。例如，在超市交易數據集中，可能有某些產品是一起購買的。常見的聯想可能是麵包和黃油。這些信息可用於製定生產決策、通過“組合”優惠提高銷量等。

聚類

聚類涉及將數據分割成自然組。該算法根據特定標準（例如學習時間和班級成績）組織數據並確定聚類中心。例如，一個班級可以分為自然分組或集群，即 Shirkers（不長時間學習並獲得低分的學生）、Keen Learners（那些花大量時間學習並獲得高分的學生）和 Masterminds（那些儘管沒有長時間學習，但取得了高分）。

回歸

進行回歸以找出兩個變量之間相關性的強度，也稱為預測因果關係分析。它包括通過將直線 (y=mx+b) 或曲線擬合到數據集來進行數值預測。回歸線也將有助於檢測異常值——偏離所有其他觀察的數據點。原因可能是數據輸入不正確或完全是單獨的機制。

在課堂示例中，“Mastermind”組中的一些學生可能具有該學科的先前背景，或者可能在調查中輸入了錯誤的學習時間和成績。異常值對於識別數據問題和可能的改進領域很重要。

分類

分類意味著為一組給定的特徵和屬性分配一個類或標籤給新數據。從過去的數據中生成特定規則以啟用相同的規則。決策樹是一種常見的分類方法。它可以根據考試成績和學習時間預測學生是偷懶者、熱衷學習者還是策劃者。例如，一個學習不到 3 小時且得分 75% 的學生可以被標記為偷懶者。

5. 回答問題：設計數據模型

如果沒有構建增強決策過程的模型，數據科學框架是不完整的。建模有助於表示存儲在數據庫中的數據點之間的關係。在真實的商業環境中處理數據可能比直覺更混亂。因此，創建一個合適的模型至關重要。此外，應不時評估、微調和更新模型，以達到所需的性能水平。

6. 忠告：提出替代決定

下一步是使用從數據模型中獲得的見解來提供建議。這意味著數據科學家的角色不僅僅是處理數字和分析數據。工作的很大一部分是向管理層提供可行的建議，以提高盈利能力，然後實現業務價值。建議包括優化、模擬、不確定性下的決策、項目經濟學等技術的應用。

7. 行動：選擇所需的步驟

在根據業務情況和偏好評估建議後，管理層可以選擇要實施的特定行動或一組行動。有數據科學支持的決策可以在很大程度上降低業務風險。

學習世界頂尖大學的數據科學課程。 獲得行政 PG 課程、高級證書課程或碩士課程，以加快您的職業生涯。

結論

數據科學在當今以技術為主導的世界中有著廣泛的應用。上述數據科學框架大綱將作為將數據科學應用於您的業務的路線圖！

如果您對學習數據科學以走在快節奏技術進步的前沿感到好奇，請查看 upGrad 和 IIIT-B 的數據科學 PG 文憑。

NumPy 被認為是一個框架嗎？

Python 中的 NumPy 包是科學計算的支柱。是的，NumPy 是一個用於科學計算的 Python 框架和模塊。它帶有一個高性能的多維數組對象和操作它的工具。 NumPy 是一個用於 Python 的強大的 N 維數組對象，它實現了線性代數。

在數據科學中，什麼是無監督分箱？

分箱或離散化將連續或數值變量轉換為分類特徵。無監督分箱是一種分箱，其中將數值或連續變量轉換為分類箱，而不考慮預期的類別標籤。

數據科學中的分類和回歸算法有何不同？

我們的學習方法訓練了一個函數，在分類任務中將輸入轉換為輸出，輸出值是一個離散的類標籤。另一方面，回歸問題解決了輸入到輸出的映射，其中輸出是連續實數。一些算法是專門為回歸類型的問題設計的，比如線性回歸模型，而其他算法，比如邏輯回歸，是為分類工作設計的。天氣預測、房價預測和其他回歸問題可以使用回歸算法來解決。分類算法可用於解決諸如識別垃圾郵件、語音識別和癌細胞識別等問題。