貝葉斯網絡:簡介、示例和實際應用

已發表: 2020-02-23

所有曾經使用過數據或統計數據的人都肯定知道一件事:相關性並不一定意味著或暗示因果關係。 現在,雖然這聽起來很明顯,但得知數據中的大多數錯誤是由於這兩個術語之間的混淆而發生的,您可能會感到震驚。 這主要是因為雖然定義相關性很方便,但幾乎不可能定義或量化因果關係。

事實上,《因果關係:模型、推理和推理》一書的作者朱迪亞·珀爾在書中指出,人類將數學精力集中在概率和統計推理上,而將因果考慮“交給直覺和良好判斷力”。 他說,這是我們在科學進步方面仍然大大落後的一個主要因素。

這就是貝葉斯網絡使我們變得容易的時候。 它們允許我們同時看到各種獨立的原因,從而幫助我們區分相關性和因果關係。 所有這些都是準確完成的,因為機器學習算法不適用於主觀性或直覺。 他們處理數據。

讓我們看一個例子來了解貝葉斯網絡是如何運作的。

目錄

貝葉斯網絡示例

為了這個例子,讓我們假設世界正遭受一種極其罕見但致命的疾病的侵襲; 假設您感染這種疾病的機率是千分之一。

現在,為了確定某人是否患有這種疾病,醫生開發了一項測試。 關鍵是它只有 99% 的準確率。

您如何確定自己是否患有這種疾病? 再做一次測試會影響結果嗎?

讓我們看看當你進行時會發生什麼……

測試 1

由於該疾病僅影響千分之一,因此您被感染的概率為:

已感染0.001
自由0.999

疾病 CPT(條件概率表)

顯然,正如千分之一的人有機會患上這種疾病一樣,千分之一的人中就有 999 人沒有患上這種疾病。

同樣,我們將創建一個表格來計算測試的概率。 如前所述,如果測試中的準確率只有 99%。 這意味著結果為真的可能性只有 99%。 負面結果的情況也是如此。

病毒存在已感染自由
測試 1(陽性) 0.99 0.01
測試 1(陰性) 0.01 0.99

Test1 CPT(條件概率表)

現在,讓我們繪製一個圖表,看看測試結果如何影響疾病的存在。

用測試結果填充這些單元格將為我提供以下結果。

圖片來源

如您所見,如果測試結果呈陽性,那麼您患上這種疾病的機率只有 9%。

現在,我們是如何得到這個數字的?

貝葉斯定理!

圖片來源

在我們的示例中,

P(H|E) = P(H) x P(E|H) / P(E)

  • P(H|E) = P(H) x P(E|H) / {P(E|H) x P(H) + P(E|Hc) x P(Ec)}
  • P(H|E) = (0.99 x 0.001) / (0.001 x 0.99 + 0.999 x 0.01) = 0.9 = 9%

這告訴我們什麼?

即使檢測呈陽性,由於這種疾病很少見,患上這種疾病的機率也只有 9%。

那麼,當您進行另一項測試以確保結果為陽性時會發生什麼。

閱讀:面向初學者的機器學習項目創意

測試 2

同樣,第二次測試也只能達到 99% 的準確率。

病毒存在已感染自由
測試 2(陽性) 0.99 0.01
測試 2(陰性) 0.01 0.99

貝葉斯網絡現在將是:

圖片來源

結果反轉了!

這意味著,如果您在兩次測試中獲得兩個陽性結果,則被病毒感染的機率會從 9% 增加到 91%。 但同樣,它並沒有說 100%!

現在,如果您從測試中得到一個陽性和一個陰性結果怎麼辦?

圖片來源

如您所見,如果兩項測試中的一項為陰性,則您沒有患病的可能性為 100%。

測試 3

當您進行三個測試並且所有測試都正確時,它會變得更好。

圖片來源

顯然,現在,你有 100% 的機會被感染。

現在讓我們看看當其中一項測試為陰性而另外兩項為陽性時會發生什麼。

圖片來源

同樣,91% 的結果對病毒的存在呈陽性。

貝葉斯網絡和數據建模

在上面的示例中,可以看出貝葉斯網絡在對數據進行建模以提供準確的結果方面發揮著重要作用。

事實上,通過包含更多可能影響結果的因素來優化網絡也允許我們使用貝葉斯網絡可視化和模擬不同的場景。

貝葉斯網絡也是量化數據不公平性和管理技術以減少這種不公平性的好工具。

在這種情況下,最好使用特定路徑的技術來識別影響最終結果的敏感因素。

貝葉斯網絡的 5 大實際應用

貝葉斯網絡被廣泛用於數據科學領域,以在不確定數據的情況下獲得準確的結果。

貝葉斯網絡的應用

1. 垃圾郵件過濾器

如果您說您從未想過 Gmail 如何過濾垃圾郵件(不需要和不請自來的電子郵件),那您一定是在撒謊。它使用貝葉斯垃圾郵件過濾器,這是最強大的過濾器。

2.渦輪代碼

貝葉斯網絡用於創建作為高性能前向糾錯碼的 turbo 碼。 這些用於 3G 和 4G 移動網絡。

3. 圖像處理

貝葉斯網絡使用數學運算將圖像轉換為數字格式。 它還允許圖像增強。

4. 生物監測

使用貝葉斯網絡量化化學物質的濃度再簡單不過了。 在這種情況下,使用指標測量人體的血液和組織量。

5.基因調控網絡(GNR)

GNR 包含細胞的各種 DNA 片段,這些片段通過蛋白質和 RNA 表達產物與其他細胞內容物相互作用。 可以使用貝葉斯網絡分析對其行為的預測。

結論

在這篇在線博客文章中,您了解了貝葉斯網絡如何幫助我們從手頭的數據中獲得準確的結果。 即使是數據的微小變化也會顯著影響最終結果。 貝葉斯網絡幫助我們使用因果關係而不是相關性來分析數據。

事實證明,它們在數據科學領域是革命性的。 顯然,從事這門科學的職業可以幫助您獲得夢想的工作。 所以,報名參加我們的一門數據科學課程,向專家學習吧! 我們還提供來自一流和經驗豐富的職業顧問的免費職業支持。 下載手冊以了解有關該課程的更多信息。

如果您想了解有關機器學習和人工智能職業的更多信息,請查看 IIT Madras 和 upGrad 的機器學習和雲高級認證。

貝葉斯網絡的組成部分是什麼?

貝葉斯網絡起源於貝葉斯定理,該定理以英國著名數學家托馬斯·貝葉斯命名。 這個定理本質上是一個用來確定條件概率的數學公式。 人工智能領域的貝葉斯網絡源於貝葉斯統計,以貝葉斯定理為基礎。 貝葉斯網絡由兩個模塊組成——定量模塊中的條件概率和定性模塊中的有向無環圖。 在人工智能和機器學習中,貝葉斯網絡是用於基於不確定信念進行推理和建模的工具。

對於機器學習,您需要了解多少概率和統計信息?

相當一部分人工智能及其不同的子領域是基於概率和統計的。 談到機器學習,您需要將其更多地視為一個跨學科領域,它採用概率、統計和各種算法。 統計和概率是數學的相關領域,用於分析事件的相對發生。 這種統計、概率和算法的組合最終用於構建智能應用程序,這些應用程序可以從數據中學習並提供有價值的見解。 因此,如果您想學習機器學習,必須對統計和概率有基本的了解。 您應該熟悉經驗和理論概率、聯合概率、條件概率、貝葉斯定理、描述性統計、單變量和雙變量描述性統計、相關性等基本概念。

在 AI 中使用貝葉斯網絡有什麼優勢?

貝葉斯網絡是一種非常流行的技術,用於為複雜和不確定的領域創建模型。 使用貝葉斯網絡,您可以為生態系統和環境管理等不確定景觀開發數學邏輯和穩健的框架。 使用此技術的最顯著優勢是您可以輕鬆地將來自異構來源和不同精度級別的數據合併到數學上一致的模型中。 這有助於將專家知識與沒有任何數據的變量的數據相結合。