機械学習の評価指標：知っておくべき上位10の指標

公開: 2021-01-05

適切な指標を決定することは、機械学習プロジェクトの重要なステップです。すべての機械学習モデルは、データをどの程度学習し、テストデータで実行したかを確認するために、いくつかの指標に対して評価する必要があります。これらはパフォーマンスメトリクスと呼ばれ、回帰モデルと分類モデルで異なります。

このチュートリアルを終えると、次のことがわかります。

回帰のメトリクス
さまざまなタイプの分類のメトリック
どのタイプのメトリックを優先するか

回帰のメトリクス

回帰の問題には、一連の独立した特徴からの連続値を使用してターゲットを予測することが含まれます。これは、予測を実際の値と比較してから、差/誤差項を計算する教師あり学習の一種です。エラーが少ないほど、モデルのパフォーマンスは向上します。現在最も広く使用されているさまざまなタイプの回帰メトリックがあります。それらを一つずつ見ていきましょう。

1.平均二乗誤差

平均二乗誤差（MSE）は、最も使用される回帰メトリックです。二乗誤差（Y_Pred – Y_actual）を使用して誤差を計算します。二乗すると、通常のエラー計算に2つの重要な変更が加えられます。 1つは、エラーが負になる可能性があり、エラーを2乗すると、すべてのエラーが正の項に変わるため、簡単に追加できることです。

第二に、二乗はすでに大きいエラーを増やし、1未満の値でエラーを減らします。この拡大効果は、エラーが大きい場合にペナルティを課します。 MSEは、損失関数の勾配を計算するためにすべてのポイントで微分可能であるため、非常に推奨されます。

2.二乗平均平方根誤差

MSEの欠点は、エラーの過大評価につながるエラー項を二乗することです。一方、二乗平均平方根誤差（RMSE）は、その影響を減らすために平方根を取ります。これは、大きなエラーが望ましくない場合に役立ちます。

3.平均絶対誤差

平均絶対誤差（MAE）は、誤差の絶対値Y_Pred –Y_Actualを取得して誤差を計算します。これは、MSEとは異なり、より大きなエラーを過大評価せず、外れ値に対しても堅牢であるため、便利です。したがって、外れ値の特別な処理が必要なアプリケーションには適していません。 MAEは線形スコアであり、すべての個人差が等しく重み付けされていることを意味します。

4.R二乗誤差

R Squaredは、回帰モデルの適合度です。回帰フィットラインに沿ったデータポイントの散布図を計算します。決定係数とも呼ばれます。決定係数の値が高いほど、観測値と実際の値の差が少ないことを意味します。

決定係数の値は、モデルに追加される機能が増えるにつれて増加し続けます。これは、機能が付加価値をもたらさない場合でも、RSquaredが大きなRSquareを与える可能性があるため、RSquaredがパフォーマンスの正しい測定値ではないことを意味します。

回帰分析では、R Squaredを使用して、特徴とターゲットの間の相関の強さを決定します。簡単に言うと、モデルと従属変数の間の関係の強さを0〜100％のスケールで測定します。 R二乗は、残差平方和（SSR）と総平方和（SST）の比率です。 Rsqrは次のように定義されます。

R Sqr = 1 – SSR / SST、ここで

SSRは、実際の観測値Yと予測値Y_Predの差の2乗の合計です。 SSTは、実際の観測値Yと観測値Y_Avgの平均との差の2乗の合計です。

一般に、R sqrが多いほど、モデルは優れています。しかし、それはいつもそうですか？いいえ。

5.調整済み決定係数エラー

調整済み決定係数エラーは、機能が追加されたときにモデルのパフォーマンスの向上を正しく推定できないという決定係数の欠点を克服します。 R二乗値は不完全な画像を示しており、非常に誤解を招く可能性があります。

基本的に、R sqr値は、機能がモデルのパフォーマンスを低下させている場合でも、新しい機能を追加すると常に増加します。モデルがいつオーバーフィットし始めたかわからない場合があります。

Adjusted R Sqrは、この変数の増加を調整し、機能がモデルを改善しない場合、その値は減少します。調整済みRsqrを使用して、さまざまな数の独立変数を含む回帰モデルの適合度を比較します。

読む：マチン学習における相互検証

分類のためのメトリクス

回帰メトリックと同様に、分類にもさまざまなタイプのメトリックがあります。さまざまなタイプのメトリックは、さまざまなタイプの分類とデータに使用されます。それらを一つずつ見ていきましょう。

1.精度

精度は、分類のための最も単純で単純なメトリックです。インスタンスの総数から、予測の何パーセントが正しいかを計算するだけです。たとえば、100個のインスタンスのうち90個が正しく予測された場合、精度は90％になります。ただし、精度はクラスの不均衡を考慮していないため、ほとんどの分類タスクの正しいメトリックではありません。

2.適合率、再現率

モデルのパフォーマンスをより正確に把握するには、モデルによって予測された誤検知の数と誤検知の数を確認する必要があります。精度は、ポジティブとして予測されたポジティブの総数を示します。つまり、正の予測全体のうち、正として正しく予測された正のインスタンスの割合。リコールは、実際のポジティブの総数から予測された真のポジティブの数を示しています。つまり、実際の陽性の総数に対する予測された真の陽性の割合を示します。

3.混同行列

混同行列は、真陽性、真陰性、偽陽性、偽陰性の組み合わせです。これは、実際の真のポジティブとネガティブから予測された数を示しています。これはNxN行列であり、Nはクラスの数です。混同行列は結局それほど混乱していません！

4.F1スコア

F1スコアは、適合率と再現率を1つのメトリックに組み合わせて、平均値を算出します。 F1スコアは、実際には適合率と再現率の値の調和平均です。場合によっては再現率の値が1、つまり100％で、適合率の値が0の場合、調和平均ではなく適合率と再現率の算術平均をとると、F1スコアは0.5になるため、これは非常に重要です。しかし、調和平均をとると、F1スコアは0になります。これは、調和平均が極値にさらにペナルティを課すことを示しています。

チェックアウト：機械学習における5種類の分類アルゴリズム

5.AUC-ROC

不均衡なデータに関しては、精度とF1スコアも適切な指標ではありません。 AUC（曲線下面積）ROC（受信者操作特性）曲線は、モデルによって予測されたクラスの分離可能性の程度を示します。スコアが高いほど、0を0として、1を1として予測するモデルの能力が高くなります。 AUC ROC曲線は、Y軸に真陽性率（TPR）を、X軸に偽陽性率を使用してプロットされます。

TPR = TP / TP + FN

FPR = FP / TN + FP

AUC ROCが1である場合、それはモデルがすべてのクラスを正しく予測しており、完全な分離可能性があることを意味します。

0.5の場合、分離可能性がなく、モデルがすべてのランダム出力を予測していることを意味します。

0の場合、モデルが逆クラスを予測していることを意味します。つまり、0は1であり、1は0です。

行く前に

この記事では、分類と回帰のさまざまなパフォーマンスメトリックについて説明しました。これらは最も使用されるメトリックであるため、それらについて知ることが重要です。分類については、カッパスコア、Kでの適合率、Kでの平均適合率など、マルチクラス分類およびマルチラベル分類用に特別に作成されたメトリックがさらにあります。

機械学習について詳しく知りたい場合は、IIIT-BとupGradの機械学習とAIのPGディプロマをご覧ください。これは、働く専門家向けに設計されており、450時間以上の厳格なトレーニング、30以上のケーススタディと課題、IIIT-を提供します。 B卒業生のステータス、5つ以上の実践的なキャップストーンプロジェクト、トップ企業との仕事の支援。

AI主導の技術革命をリードする

機械学習と人工知能におけるPGディプロマ

もっと詳しく知る