數據科學統計學基礎
已發表: 2018-02-27如果您是一名有抱負的數據科學家,請熟悉Statistics for Data Science的核心概念。 你不必是博士。 在統計數據科學方面表現出色,但您需要足夠了解才能在晚宴上描述一些基本算法。
展望未來,我們將引導您了解數據科學統計學基礎知識的一些先決條件。
如果您剛剛進入數據科學的世界,您可能會遇到有人說“數學”是數據科學的先決條件。 老實說,它本身不是數學,但你必須學習數據科學的統計學。
如今,Tensorflow 之類的庫幾乎將所有復雜的數學隱藏在用戶面前。 對我們有好處,但對這些事情的基本原理有一個基本的了解仍然很好。 對數據分析有一個很好的理解可以幫助你更好地理解一切。
本文將幫助您掌握一些定理、概念和方程式,它們不僅會幫助您作為數據科學家的事業,還會讓您聽起來像是在高級統計計算課程中取得了不錯的成績。
目錄
統計分佈
這可能是您在使用數據科學必備的統計數據武裝自己時需要了解的最重要的事情之一。
泊松分佈
泊松分佈是統計學中最重要的工具之一。 它用於計算一個時間間隔內可能發生的事件的數量。 例如,在任何特定時間段內可能會發生多少電話。
這個等式 (λ) 中看起來很有趣的符號被稱為lambda 。 它用於表示每個時間間隔發生的平均事件數。另一個使用泊松分佈的好例子是計算製造中的損失。 假設一台機器生產金屬板並且每碼有 X 個缺陷。 例如,假設錯誤率為每碼紙 2 次——然後使用泊松分佈,我們可以計算出一碼中恰好出現兩個錯誤的概率。
二項分佈
如果您曾經遇到過基本統計數據,那麼您可能會遇到二項分佈。假設您進行了一次將無偏硬幣拋三次的實驗。
你能說出硬幣在所有三個翻轉中出現正面的概率嗎?首先,從基本的組合學中,我們可以發現拋硬幣三次時有八種可能的結果組合。 現在,我們可以繪製 0、1、2 或 3 個正面的概率。 該圖將為我們提供該問題所需的二項式分佈。 繪製圖表時,您會注意到它看起來與典型的正態分佈曲線非常相似,理論上兩者都非常相似。 二項分佈適用於離散值(拋硬幣次數有限),而正態分佈適用於連續值。
除了我們上面討論的發行版之外,還有許多發行版。 如果您是一個感興趣的人,並且還想用數據科學所需的統計數據更好地武裝自己,我們建議您也閱讀以下分佈:
- 幾何分佈
- 超幾何分佈
- 離散均勻分佈
- 負二項分佈
一些定理和算法
當我們談論數據科學統計時,我們不能忽視基本定理和算法,它們是作為數據科學家工作的許多庫的基礎。 有許多分類算法、聚類算法、神經網絡算法、決策樹等等。 在本節中,我們將討論一些您應該知道的基本定理——它還將幫助您輕鬆理解其他復雜的定理。
貝葉斯定理
如果您接受過任何正規的計算機科學教育,這是您會遇到的常見定理之一。 多年來,有許多書籍以詳盡的方式過度討論貝葉斯定理及其概念。
貝葉斯定理極大地簡化了複雜的概念。 它使用一些簡單的變量解釋了許多統計事實。 它支持“條件概率”的概念(例如,如果 A 發生,則它在 B 的發生中起作用)。 最值得注意的是,您可以僅使用給定的數據點來預測任何假設的概率。
貝葉斯可以幫助您僅通過了解某人的年齡來預測某人患癌症的可能性。 它還可以根據字數讓您知道電子郵件是否為垃圾郵件。 這個定理本質上是用來消除不確定性的。
有趣的事實:貝葉斯定理幫助預測 U 艇的位置以及預測 Enigma 機器的配置以翻譯德國代碼,在 WW2。 即使在現代數據科學中,貝葉斯在許多算法中也有廣泛的應用。
什麼是數據倉庫和數據挖掘
K-最近鄰算法
在理解和實現方面,這是一個非常簡單的算法。 以至於它被稱為“惰性算法”。 它的簡單性在於它基於邏輯推論,而不是任何統計基礎本身。 通俗地說,該算法旨在尋找彼此最接近的組。

K-NN 使用歐幾里得距離的概念。 它在指定數量的焦點內和周圍搜索本地組。 該數字由“k”表示。 有很多方法可以找出“k”的值應該有多大,因為這是用戶決定的值。
這個概念非常適合特徵聚類、基本市場細分以及從一組數據條目中尋找異常值。 大多數現代編程語言只用兩行代碼就實現了 K-NN 算法。
Bagging(引導聚合)
Bagging 本質上是指為單一算法創建多個模型——比如決策樹。 每個模型都在不同的樣本數據上進行訓練(這稱為引導樣本)。
因此,每個決策樹都是使用不同的樣本數據製作的——這解決了對樣本大小的過度擬合問題。 像這樣對決策樹進行分組基本上有助於減少總誤差,因為隨著每棵新樹的添加,總體方差會減小。 一袋這樣的決策樹被稱為隨機森林。
使用 Python 開始數據科學
ROC曲線分析
ROC 代表接收器操作特性。 ROC 分析曲線在數據科學中得到廣泛應用。 它通過測量其整體靈敏度與失敗率來預測測試的執行情況。 在確定任何模型的可行性時,ROC 分析非常重要。
它是如何工作的?
您的機器學習模型可能會給您一些不准確的預測。 其中一些是因為一個特定的值應該是“真”,但被設置為“假”,反之亦然。
那麼你正確的概率是多少?
使用 ROC 曲線,您可以看到您的預測有多準確。 通過這兩個不同的比喻,您還可以找出將閾值放在哪裡。 閾值是您決定二元分類是正還是負的地方——真或假。
隨著兩個比喻越來越接近,曲線下的面積將趨於零。 這實質上意味著您的模型傾向於不准確。 面積越大,模型的準確性就越高。 這是測試任何建模時首先使用的測試之一,因為它通過判斷模型是否正確來幫助及早發現問題。
ROC 曲線的真實示例——它們用於以圖形方式描述特定測試或測試組合的臨床敏感性和特異性之間的聯繫/權衡。 除此之外,ROC 曲線下的面積也很好地說明了使用上述測試的好處。 因此,ROC 曲線在生物化學中廣泛用於選擇適當的截止值。 理想情況下,最好的截止值是假陽性率最低和真陽性率最高的那個。
如何過渡到數據分析?
統計學在數據科學中的重要性
通過上面的討論,既然您已經了解了統計學的基本概念和統計學的基礎知識,那麼讓我們來談談學習統計學對於數據科學的重要性。 Statistics for Data Analytics 提供了用於組織和深入洞察數據、分析和量化數據的關鍵工具和技術。
我們為您概述了統計基本概念以及統計對數據探索、分析、建模和表示的影響。 如果它們在忽略統計基礎的情況下不一致,我們還會指出問題。 如果您有興趣加入這個發展最快的行業,請直接訪問我們的 UpGrad 網站,了解我們的數據科學統計教程,因為我們同時提供在線和離線課程。 一旦你至少掌握了統計基礎和統計基礎知識,你就可以開始工作了。
綜上所述…
上面的主題列表絕不是您在統計中需要了解的所有內容的完整列表。 這份清單只是為了讓您了解您在數據科學之旅中可能遇到的一切,以及您如何為此做好準備。
總而言之,本文介紹了Statistics for Data Science的一些核心概念。 對所解釋的概念的深入理解將幫助您輕鬆理解其他概念。 如果您想探索更多並掌握數據科學,請查找我們最好的在線數據科學課程。
統計學對數據科學的重要性是什麼?
統計提供了識別大數據結構的技術和工具,以及使個人和組織更好地了解其數據所揭示的現實,使用能夠分類和組織的適當統計方法,有助於計算概率分佈和估計,並通過發現異常和趨勢來查找數據結構。 統計還有助於使用圖形和網絡進行數據可視化和建模。 它有助於識別受變量影響的數據集群或其他結構,並有助於減少模型中的假設數量,從而使其更加準確和有用。
數據科學所需的統計學的關鍵基本概念是什麼?
統計學的核心概念對於數據科學來說是必須的。 以下是幫助您開始數據科學之旅的一些關鍵概念:
1. 概率:這構成了數據科學的基礎。 概率論在製定預測時非常有用。 數據是所有概率和統計的基礎。
2. 抽樣:數據抽樣是一種統計分析技術,涉及選擇、操作和分析數據點的代表性選擇,以便在更大的數據集合中找到模式和趨勢。
3. 數據的趨勢和分佈:數據的分佈是一個關鍵因素。 眾所周知的分佈(例如正態分佈)的意義是巨大的。 因此,確定數據的分佈和偏度是一個關鍵概念。
4. 假設檢驗:假設檢驗根據預期結果確定應該採取或不採取行動的情況。
5. 變異:這是指數據中的失真、錯誤和偏移。
6.回歸:它對數據科學至關重要,因為它有助於理解現有解決方案以及發現新的創新。
數據科學中如何使用統計學?
數據科學家使用統計數據幫助企業做出更好的產品決策、設計和解釋試驗、確定推動銷售的因素、預測銷售趨勢和模式。 數據和算法性能的可視化表示有助於發現異常值、特定的瑣碎模式和指標摘要。