機器學習中的評估指標:您應該知道的 10 大指標

已發表: 2021-01-05

確定正確的指標是任何機器學習項目的關鍵步驟。 每個機器學習模型都需要根據一些指標進行評估,以檢查它對數據的學習和對測試數據的執行情況。 這些稱為性能指標,對於回歸和分類模型是不同的。

在本教程結束時,您將了解:

  • 回歸指標
  • 不同類型分類的指標
  • 何時更喜歡哪種類型的指標

目錄

回歸指標

回歸問題涉及從一組獨立特徵中預測具有連續值的目標。 這是一種監督學習,我們將預測與實際值進行比較,然後計算差異/誤差項。 誤差越小,模型的性能越好。 我們有目前最廣泛使用的不同類型的回歸指標。 讓我們一一介紹。

1. 均方誤差

均方誤差 (MSE) 是最常用的回歸度量。 它使用平方誤差 (Y_Pred – Y_actual) 來計算誤差。 平方導致通常誤差計算的兩個重要變化。 一,誤差可以是負數,對誤差求平方會將所有誤差轉化為正數,因此可以很容易地添加。

其次,平方增加了已經很大的誤差,減少了小於1的誤差。這種放大效應懲罰了誤差很大的情況。 MSE 是高度優選的,因為它在所有點上都是可微的,以計算損失函數的梯度。

2. 均方根誤差

MSE 的缺點是它對誤差項進行平方,導致對誤差的估計過高。 另一方面,均方根誤差 (RMSE) 採用平方根來減少這種影響。 這在不需要大錯誤時很有用。

3. 平均絕對誤差

平均絕對誤差 (MAE) 通過取誤差的絕對值 Y_Pred – Y_Actual 來計算誤差。 這很有用,因為它不會像 MSE 那樣高估更大的誤差,並且對異常值也很穩健。 因此,它不適用於需要對異常值進行特殊處理的應用。 MAE 是一個線性分數,這意味著所有個體差異的權重均等。

4. R 平方誤差

R Squared 是回歸模型的良好擬合度量。 它計算數據點沿回歸擬合線的散佈。 它也稱為確定係數。 較高的 R 平方值意味著觀察值與實際值之間的差異較小。

隨著越來越多的特徵被添加到模型中,R 平方值不斷增加。 這意味著 R 平方不是性能的正確衡量標準,因為即使特徵沒有增加任何價值,它也可能給出較大的 R 平方。

在回歸分析中,R Squared 用於確定特徵與目標之間的相關強度。 簡單來說,它以 0 – 100% 的比例衡量模型與因變量之間的關係強度。 R 平方是殘差平方和 (SSR) 與總平方和 (SST) 之間的比率。 R sqr 定義為:

R Sqr = 1 – SSR/SST ,其中

SSR 是實際觀測值 Y 與預測值 Y_Pred 之差的平方和。 SST 是實際觀測值 Y 與觀測值 Y_Avg 的平均值之差的平方和。

通常,R sqr 越大,模型越好。 但總是這樣嗎? 不。

5. 調整後的 R 平方誤差

Adjusted R Squared Error 克服了 R Squared 在添加更多特徵時無法正確估計模型性能提升的缺點。 R 平方值顯示不完整的圖片,並且可能非常具有誤導性。

本質上,R sqr 值總是隨著添加新特徵而增加,即使該特徵正在降低模型的性能。 您可能不知道您的模型何時開始過度擬合。

調整後的 R Sqr 會針對變量的增加進行調整,並且當特徵不改進模型時,其值會減小。 我們使用調整後的 R sqr 來比較包含不同數量​​自變量的回歸模型的擬合優度。

閱讀:機器學習中的交叉驗證

分類指標

就像回歸指標一樣,分類指標也有不同類型。 不同類型的指標用於不同類型的分類和數據。 讓我們一一介紹。

1. 準確性

準確度是分類最直接、最簡單的指標。 它只是從實例總數中計算正確的預測百分比。 例如,如果 100 個實例中有 90 個被正確預測,那麼準確度將為 90%。 然而,準確性並不是大多數分類任務的正確指標,因為它沒有考慮到類別不平衡。

2. 精確度、召回率

為了更好地了解模型性能,我們需要查看預測了多少假陽性以及模型預測了多少假陰性。 精度告訴我們有多少總陽性被預測為陽性。 或者換句話說,被正確預測為正例的正例在總正預測中的比例。 回憶告訴我們,在實際陽性總數中預測了多少真實陽性。 或者換句話說,它給出了預測的真陽性與實際陽性總數的比例。

3. 混淆矩陣

混淆矩陣是真陽性、真陰性、假陽性和假陰性的組合。 它告訴我們有多少是從實際的正負數中預測出來的。 它是一個 NxN 矩陣,其中 N 是類的數量。 混淆矩陣畢竟不是那麼令人困惑!

4. F1分數

F1 Score 將 Precision 和 Recall 結合到一個指標中,以獲得平均值。 F1 Score 實際上是 Precision 和 Recall 值的調和平均值。 這是至關重要的,因為如果在某些情況下召回值為 1,即 100% 並且精度值為 0,如果我們採用 Precision & Recall 的算術平均值而不是諧波平均值,則 F1 分數將為 0.5。 但是如果我們取諧波平均值,F1 分數將為 0。這告訴我們諧波平均值對極端值的懲罰更多。

查看:機器學習中的 5 種分類算法

5. AUC-ROC

當涉及到不平衡的數據時,準確性和 F1 分數也不是很好的指標。 AUC(曲線下面積)ROC(接收操作員特徵)曲線告訴我們模型預測的類的可分離程度。 分數越高,模型預測 0 為 0 和 1 為 1 的能力越強。 AUC ROC 曲線使用 Y 軸上的真陽性率 (TPR) 和 X 軸上的假陽性率繪製。

TPR = TP/TP+FN

FPR = FP/TN+FP

如果 AUC ROC 為 1,則意味著模型正確地預測了所有的類並且存在完全可分性。

如果為 0.5,則表示不存在可分性,模型正在預測所有隨機輸出。

如果為 0,則表示模型正在預測倒排類別。 即,0 為 1,1 為 0。

在你走之前

在本文中,我們討論了分類和回歸的各種性能指標。 這些是最常用的指標,因此了解它們至關重要。 對於分類,還有更多專門針對多類分類和多標籤分類的指標,例如 Kappa Score、Precision at K、Average Precision at K 等。

如果您有興趣了解有關機器學習的更多信息,請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑,該文憑專為工作專業人士設計,提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

引領人工智能驅動的技術革命

機器學習和人工智能的 PG 文憑
了解更多