기계 학습의 평가 지표: 알아야 할 상위 10가지 지표

게시 됨: 2021-01-05

올바른 메트릭을 결정하는 것은 모든 기계 학습 프로젝트에서 중요한 단계입니다. 모든 기계 학습 모델은 데이터를 얼마나 잘 학습하고 테스트 데이터에 대해 수행했는지 확인하기 위해 일부 메트릭에 대해 평가해야 합니다. 이를 성능 메트릭이라고 하며 회귀 및 분류 모델과 다릅니다.

이 튜토리얼이 끝나면 다음을 알게 될 것입니다.

회귀 측정항목
다양한 분류 유형에 대한 측정항목
어떤 유형의 측정항목을 선호하는 경우

회귀 측정항목

회귀 문제에는 일련의 독립적인 기능에서 연속 값을 사용하여 대상을 예측하는 것이 포함됩니다. 이것은 예측을 실제 값과 비교한 다음 차이/오차 항을 계산하는 일종의 지도 학습입니다. 오류가 적을수록 모델의 성능이 향상됩니다. 현재 가장 널리 사용되는 다양한 유형의 회귀 메트릭이 있습니다. 하나씩 살펴보겠습니다.

1. 평균 제곱 오차

평균 제곱 오차(MSE)는 가장 많이 사용되는 회귀 측정법입니다. 제곱 오류(Y_Pred – Y_actual)를 사용하여 오류를 계산합니다. 제곱은 일반적인 오류 계산에 두 가지 중요한 변경을 가져옵니다. 하나는 오류가 음수일 수 있고 오류를 제곱하면 모든 오류가 양수 항으로 바뀌므로 쉽게 추가할 수 있다는 것입니다.

둘째, 제곱은 이미 큰 오차를 증가시키고 값이 1보다 작은 오차를 줄인다. 이 확대 효과는 오차가 큰 경우에 벌점을 준다. MSE는 손실 함수의 기울기를 계산하기 위해 모든 지점에서 미분할 수 있기 때문에 매우 선호됩니다.

2. 제곱 평균 제곱근 오차

MSE의 단점은 오차를 과대평가하게 만드는 오차 항을 제곱한다는 것입니다. 반면 RMSE(Root Mean Squared Error)는 그 효과를 줄이기 위해 제곱근을 취합니다. 이것은 큰 오류를 원하지 않을 때 유용합니다.

3. 평균 절대 오차

평균 절대 오차(MAE)는 오차의 절대값인 Y_Pred – Y_Actual을 취하여 오차를 계산합니다. 이는 MSE와 달리 더 큰 오류를 과대평가하지 않고 이상값에 대해서도 강력하기 때문에 유용합니다. 따라서 이상값에 대한 특별한 처리가 필요한 용도에는 적합하지 않습니다. MAE는 모든 개인의 차이가 동등하게 가중치가 부여됨을 의미하는 선형 점수입니다.

4. R 제곱 오차

R 제곱은 회귀 모델에 대한 적합도 측정입니다. 회귀 적합선을 따라 데이터 포인트의 분산을 계산합니다. 결정 계수라고도 합니다. R 제곱 값이 높을수록 관찰 값과 실제 값의 차이가 적다는 것을 의미합니다.

R 제곱 값은 모델에 더 많은 기능이 추가됨에 따라 계속 증가합니다. 즉, R 제곱은 기능이 값을 추가하지 않는 경우에도 큰 R 제곱을 제공할 수 있으므로 성능에 대한 올바른 측정이 아닙니다.

회귀 분석에서 R 제곱은 기능과 대상 간의 상관 강도를 결정하는 데 사용됩니다. 간단히 말해서 모델과 종속 변수 간의 관계 강도를 0 – 100% 척도로 측정합니다. R 제곱은 SSR(Residual Sum of Squares)과 SST(Total Sum of Squares) 간의 비율입니다. R 제곱은 다음과 같이 정의됩니다.

R Sqr = 1 – SSR/SST, 여기서

SSR은 실제 관측값 Y와 예측값 Y_Pred 간의 차이 제곱의 합입니다. SST는 실제 관측값 Y와 관측값 Y_Avg의 평균 간의 차이의 제곱의 합입니다.

일반적으로 R sqr이 많을수록 더 좋은 모델입니다. 하지만 항상 그런가요? 아니요.

5. 조정된 R 제곱 오차

조정된 R 제곱 오차는 더 많은 기능이 추가될 때 모델 성능의 개선을 정확하게 추정할 수 없다는 R 제곱의 단점을 극복합니다. R Square 값은 불완전한 그림을 보여주고 매우 오해의 소지가 있습니다.

본질적으로 R sqr 값은 기능이 모델의 성능을 감소시키더라도 새로운 기능을 추가할 때 항상 증가합니다. 모델이 과적합되기 시작한 시점을 모를 수도 있습니다.

조정된 R Sqr은 이 증가하는 변수를 조정하고 기능이 모델을 개선하지 않으면 값이 감소합니다. 다양한 수의 독립 변수를 포함하는 회귀 모델의 적합도를 비교하기 위해 수정된 R 제곱을 사용합니다.

읽기: 기계 학습의 교차 검증

분류 기준

회귀 메트릭과 마찬가지로 분류를 위한 다양한 유형의 메트릭도 있습니다. 다양한 유형의 분류 및 데이터에 다양한 유형의 메트릭이 사용됩니다. 하나씩 살펴보겠습니다.

1. 정확도

정확도는 분류를 위한 가장 간단하고 간단한 메트릭입니다. 총 인스턴스 수에서 예측이 정확한 비율을 계산하기만 하면 됩니다. 예를 들어 인스턴스 100개 중 90개가 올바르게 예측되면 정확도는 90%가 됩니다. 그러나 정확도는 클래스 불균형을 고려하지 않기 때문에 대부분의 분류 작업에 대한 올바른 메트릭이 아닙니다.

2. 정밀도, 재현율

모델 성능에 대한 더 나은 그림을 보려면 얼마나 많은 거짓 긍정이 예측되었고 얼마나 많은 거짓 부정이 모델에 의해 예측되었는지 확인해야 합니다. 정밀도는 총 긍정 중 얼마나 많은 긍정이 긍정으로 예측되었는지 알려줍니다. 즉, 전체 긍정 예측 중 긍정으로 올바르게 예측된 긍정 인스턴스의 비율입니다. 재현율은 총 실제 긍정 중에서 얼마나 많은 참 긍정이 예측되었는지 알려줍니다. 즉, 실제 긍정의 총 수에서 예측된 참 긍정의 비율을 제공합니다.

3. 혼란 매트릭스

혼동 매트릭스는 참 긍정, 참 부정, 거짓 긍정 및 거짓 부정의 조합입니다. 실제 참 긍정과 부정 중에서 얼마나 많은 것이 예측되었는지 알려줍니다. NxN 행렬입니다. 여기서 N은 클래스 수입니다. Confusion Matrix는 결국 그렇게 혼란스럽지 않습니다!

4. F1 점수

F1 점수는 정밀도와 재현율을 평균값에 대한 하나의 메트릭으로 결합합니다. F1 점수는 실제로 정밀도와 재현율 값의 조화 평균입니다. 어떤 경우에 재현율 값이 1, 즉 100%이고 정밀도 값이 0인 경우 조화 평균 대신 정밀도 및 재현율의 산술 평균을 취하면 F1 점수가 0.5가 되기 때문에 이것은 중요합니다. 그러나 Harmonic mean을 취하면 F1 Score는 0이 됩니다. 이것은 Harmonic mean이 극단값에 더 많은 패널티를 준다는 것을 알려줍니다.

확인: 기계 학습의 5가지 유형의 분류 알고리즘

5. AUC-ROC

정확도와 F1 점수는 불균형 데이터와 관련하여 좋은 지표가 아닙니다. AUC(Area Under Curve) ROC(Receiver Operator Characteristics) 곡선은 모델에 의해 예측된 클래스의 분리 가능성 정도를 알려줍니다. 점수가 높을수록 0을 0으로, 1을 1로 예측하는 모델의 능력이 더 높습니다. AUC ROC 곡선은 Y축의 TPR(진양성 비율)과 X축의 거짓 긍정 비율을 사용하여 표시됩니다.

TPR = TP/TP+FN

FPR = FP/TN+FP

AUC ROC가 1로 나온다면 모델이 모든 클래스를 정확하게 예측하고 있고 완전한 분리 가능성이 있다는 의미입니다.

0.5이면 분리성이 없고 모델이 모든 무작위 출력을 예측하고 있음을 의미합니다.

0이면 모델이 반전된 클래스를 예측하고 있음을 의미합니다. 즉, 0은 1, 1은 0입니다.

가기 전에

이 기사에서는 분류 및 회귀에 대한 다양한 성능 메트릭에 대해 논의했습니다. 이들은 가장 많이 사용되는 측정항목이므로 이에 대해 아는 것이 중요합니다. 분류의 경우 Kappa Score, Precision at K, Average Precision at K 등과 같이 다중 클래스 분류 및 다중 레이블 분류를 위해 특별히 만들어진 훨씬 더 많은 메트릭이 있습니다.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

AI 주도 기술 혁명 주도

기계 학습 및 인공 지능 PG 디플로마

더 알아보기