機器學習中的評估指標：您應該知道的 10 大指標

已發表: 2021-01-05

確定正確的指標是任何機器學習項目的關鍵步驟。每個機器學習模型都需要根據一些指標進行評估，以檢查它對數據的學習和對測試數據的執行情況。這些稱為性能指標，對於回歸和分類模型是不同的。

在本教程結束時，您將了解：

回歸指標
不同類型分類的指標
何時更喜歡哪種類型的指標

回歸指標

回歸問題涉及從一組獨立特徵中預測具有連續值的目標。這是一種監督學習，我們將預測與實際值進行比較，然後計算差異/誤差項。誤差越小，模型的性能越好。我們有目前最廣泛使用的不同類型的回歸指標。讓我們一一介紹。

1. 均方誤差

均方誤差 (MSE) 是最常用的回歸度量。它使用平方誤差 (Y_Pred – Y_actual) 來計算誤差。平方導致通常誤差計算的兩個重要變化。一，誤差可以是負數，對誤差求平方會將所有誤差轉化為正數，因此可以很容易地添加。

其次，平方增加了已經很大的誤差，減少了小於1的誤差。這種放大效應懲罰了誤差很大的情況。 MSE 是高度優選的，因為它在所有點上都是可微的，以計算損失函數的梯度。

2. 均方根誤差

MSE 的缺點是它對誤差項進行平方，導致對誤差的估計過高。另一方面，均方根誤差 (RMSE) 採用平方根來減少這種影響。這在不需要大錯誤時很有用。

3. 平均絕對誤差

平均絕對誤差 (MAE) 通過取誤差的絕對值 Y_Pred – Y_Actual 來計算誤差。這很有用，因為它不會像 MSE 那樣高估更大的誤差，並且對異常值也很穩健。因此，它不適用於需要對異常值進行特殊處理的應用。 MAE 是一個線性分數，這意味著所有個體差異的權重均等。

4. R 平方誤差

R Squared 是回歸模型的良好擬合度量。它計算數據點沿回歸擬合線的散佈。它也稱為確定係數。較高的 R 平方值意味著觀察值與實際值之間的差異較小。

隨著越來越多的特徵被添加到模型中，R 平方值不斷增加。這意味著 R 平方不是性能的正確衡量標準，因為即使特徵沒有增加任何價值，它也可能給出較大的 R 平方。

在回歸分析中，R Squared 用於確定特徵與目標之間的相關強度。簡單來說，它以 0 – 100% 的比例衡量模型與因變量之間的關係強度。 R 平方是殘差平方和 (SSR) 與總平方和 (SST) 之間的比率。 R sqr 定義為：

R Sqr = 1 – SSR/SST ,其中

SSR 是實際觀測值 Y 與預測值 Y_Pred 之差的平方和。 SST 是實際觀測值 Y 與觀測值 Y_Avg 的平均值之差的平方和。

通常，R sqr 越大，模型越好。但總是這樣嗎？不。

5. 調整後的 R 平方誤差

Adjusted R Squared Error 克服了 R Squared 在添加更多特徵時無法正確估計模型性能提升的缺點。 R 平方值顯示不完整的圖片，並且可能非常具有誤導性。

本質上，R sqr 值總是隨著添加新特徵而增加，即使該特徵正在降低模型的性能。您可能不知道您的模型何時開始過度擬合。

調整後的 R Sqr 會針對變量的增加進行調整，並且當特徵不改進模型時，其值會減小。我們使用調整後的 R sqr 來比較包含不同數量自變量的回歸模型的擬合優度。

閱讀：機器學習中的交叉驗證

分類指標

就像回歸指標一樣，分類指標也有不同類型。不同類型的指標用於不同類型的分類和數據。讓我們一一介紹。

1. 準確性

準確度是分類最直接、最簡單的指標。它只是從實例總數中計算正確的預測百分比。例如，如果 100 個實例中有 90 個被正確預測，那麼準確度將為 90%。然而，準確性並不是大多數分類任務的正確指標，因為它沒有考慮到類別不平衡。

2. 精確度、召回率

為了更好地了解模型性能，我們需要查看預測了多少假陽性以及模型預測了多少假陰性。精度告訴我們有多少總陽性被預測為陽性。或者換句話說，被正確預測為正例的正例在總正預測中的比例。回憶告訴我們，在實際陽性總數中預測了多少真實陽性。或者換句話說，它給出了預測的真陽性與實際陽性總數的比例。

3. 混淆矩陣

混淆矩陣是真陽性、真陰性、假陽性和假陰性的組合。它告訴我們有多少是從實際的正負數中預測出來的。它是一個 NxN 矩陣，其中 N 是類的數量。混淆矩陣畢竟不是那麼令人困惑！

4. F1分數

F1 Score 將 Precision 和 Recall 結合到一個指標中，以獲得平均值。 F1 Score 實際上是 Precision 和 Recall 值的調和平均值。這是至關重要的，因為如果在某些情況下召回值為 1，即 100% 並且精度值為 0，如果我們採用 Precision & Recall 的算術平均值而不是諧波平均值，則 F1 分數將為 0.5。但是如果我們取諧波平均值，F1 分數將為 0。這告訴我們諧波平均值對極端值的懲罰更多。

查看：機器學習中的 5 種分類算法

5. AUC-ROC

當涉及到不平衡的數據時，準確性和 F1 分數也不是很好的指標。 AUC（曲線下面積）ROC（接收操作員特徵）曲線告訴我們模型預測的類的可分離程度。分數越高，模型預測 0 為 0 和 1 為 1 的能力越強。 AUC ROC 曲線使用 Y 軸上的真陽性率 (TPR) 和 X 軸上的假陽性率繪製。

TPR = TP/TP+FN

FPR = FP/TN+FP

如果 AUC ROC 為 1，則意味著模型正確地預測了所有的類並且存在完全可分性。

如果為 0.5，則表示不存在可分性，模型正在預測所有隨機輸出。

如果為 0，則表示模型正在預測倒排類別。即，0 為 1，1 為 0。

在你走之前

在本文中，我們討論了分類和回歸的各種性能指標。這些是最常用的指標，因此了解它們至關重要。對於分類，還有更多專門針對多類分類和多標籤分類的指標，例如 Kappa Score、Precision at K、Average Precision at K 等。

如果您有興趣了解有關機器學習的更多信息，請查看 IIIT-B 和 upGrad 的機器學習和人工智能 PG 文憑，該文憑專為工作專業人士設計，提供 450 多個小時的嚴格培訓、30 多個案例研究和作業、IIIT- B 校友身份、5 個以上實用的實踐頂點項目和頂級公司的工作協助。

引領人工智能驅動的技術革命

機器學習和人工智能的 PG 文憑

了解更多