Метрики оценки в машинном обучении: 10 лучших метрик, которые вы должны знать
Опубликовано: 2021-01-05Выбор правильной метрики — важный шаг в любом проекте машинного обучения. Каждую модель машинного обучения необходимо оценивать по некоторым показателям, чтобы проверить, насколько хорошо она изучила данные и выполнила тестовые данные. Они называются показателями производительности и различаются для моделей регрессии и классификации.
К концу этого урока вы будете знать:
- Метрики для регрессии
- Метрики для разных типов классификации
- Когда предпочесть какой тип метрики
Оглавление
Метрики для регрессии
Проблемы регрессии включают прогнозирование цели с непрерывными значениями из набора независимых признаков. Это тип контролируемого обучения, при котором мы сравниваем прогноз с фактическим значением, а затем вычисляем разницу/ошибку. Чем меньше ошибка, тем лучше производительность модели. У нас есть различные типы показателей регрессии, которые наиболее широко используются в настоящее время. Давайте рассмотрим их один за другим.
1. Среднеквадратическая ошибка
Среднеквадратическая ошибка (MSE) является наиболее часто используемой метрикой регрессии. Он использует квадраты ошибок (Y_Pred – Y_actual) для расчета ошибок. Возведение в квадрат приводит к двум важным изменениям в обычном вычислении ошибки. Во-первых, ошибка может быть отрицательной, а возведение ошибок в квадрат превратит все ошибки в положительные члены и, следовательно, их можно будет легко сложить.
Во-вторых, возведение в квадрат увеличивает ошибки, которые уже велики, и уменьшает ошибки со значениями меньше 1. Этот эффект увеличения наказывает случаи, когда ошибка велика. MSE очень предпочтителен, потому что он дифференцируем во всех точках для вычисления градиента функции потерь.
2. Среднеквадратичная ошибка
Недостаток MSE заключается в том, что он возводит в квадрат ошибки, что приводит к завышению оценок ошибок. С другой стороны, среднеквадратическая ошибка (RMSE) берет квадратный корень, чтобы уменьшить этот эффект. Это полезно, когда большие ошибки нежелательны.

3. Средняя абсолютная ошибка
Средняя абсолютная ошибка (MAE) вычисляет ошибку, беря абсолютное значение ошибки, которое равно Y_Pred – Y_Actual. Это полезно, поскольку не переоценивает большие ошибки, в отличие от MSE, а также устойчиво к выбросам. Поэтому он не подходит для приложений, требующих специальной обработки выбросов. MAE — это линейная оценка, которая означает, что все индивидуальные различия имеют одинаковый вес.
4. Ошибка в квадрате R
R Squared — это мера соответствия для регрессионных моделей. Он вычисляет разброс точек данных вдоль аппроксимирующей линии регрессии. Его также называют коэффициентом детерминации. Более высокое значение R в квадрате означает, что разница между наблюдаемым значением и фактическим значением меньше.
Значение R Squared продолжает увеличиваться по мере того, как в модель добавляется все больше и больше функций. Это означает, что R Squared не является правильным измерением производительности, поскольку он может дать большой R Square, даже если функции не добавляют никакой ценности.
В регрессионном анализе R Squared используется для определения силы корреляции между функциями и целью. Проще говоря, он измеряет силу связи между вашей моделью и зависимой переменной по шкале от 0 до 100%. R в квадрате — это отношение остаточной суммы квадратов (SSR) к общей сумме квадратов (SST). R кв определяется как:
R Sqr = 1 – SSR/SST , где
SSR представляет собой сумму квадратов разницы между фактически наблюдаемым значением Y и прогнозируемым значением Y_Pred. SST представляет собой сумму квадратов разницы между фактически наблюдаемым значением Y и средним значением наблюдаемого значения Y_Avg.
Как правило, чем больше R sqr, тем лучше модель. Но всегда ли так? Нет.
5. Скорректированная ошибка квадрата R
Скорректированная ошибка R в квадрате устраняет недостаток R в квадрате, заключающийся в невозможности правильно оценить улучшение производительности модели при добавлении дополнительных функций. Значение R Square показывает неполную картину и может вводить в заблуждение.

По сути, значение R sqr всегда увеличивается при добавлении новых функций, даже если эта функция снижает производительность модели. Вы можете не знать, когда ваша модель начала переобучать.
Скорректированный R Sqr корректируется с учетом этого увеличения переменных, и его значение уменьшается, когда функция не улучшает модель. Мы используем скорректированный R sqr для сравнения согласия регрессионных моделей, содержащих разное количество независимых переменных.
Читайте: перекрестная проверка в машинном обучении
Метрики для классификации
Как и в случае с метриками регрессии, существуют различные типы метрик для классификации. Различные типы метрик используются для разных типов классификации и данных. Давайте рассмотрим их один за другим.
1. Точность
Точность — самый простой и понятный показатель для классификации. Он просто вычисляет, какой процент прогнозов верен от общего количества экземпляров. Например, если 90 из 100 случаев предсказаны правильно, то точность будет 90%. Однако точность не является правильным показателем для большинства задач классификации, поскольку она не учитывает дисбаланс классов.
2. Точность, отзыв
Для лучшего представления о производительности модели нам нужно увидеть, сколько ложных срабатываний было предсказано и сколько ложных отрицательных результатов было предсказано моделью. Точность говорит нам, сколько из общего количества положительных результатов было предсказано как положительное. Или, другими словами, доля положительных случаев, которые были правильно предсказаны как положительные, от общего количества положительных предсказаний. Припоминание говорит нам, сколько истинных положительных результатов было предсказано из общего числа фактических положительных результатов. Или, другими словами, он дает долю предсказанных истинных положительных результатов от общего числа фактических положительных результатов.
3. Матрица путаницы
Матрица путаницы представляет собой комбинацию истинно положительных, истинно отрицательных, ложноположительных и ложноотрицательных результатов. Он говорит нам, сколько было предсказано из фактических истинных положительных и отрицательных результатов. Это матрица NxN, где N — количество классов. В конце концов, матрица путаницы не так уж и запутана!
4. Оценка F1
F1 Score объединяет Precision и Recall в одну метрику для получения усредненного значения. Оценка F1 на самом деле представляет собой гармоническое среднее значений Precision и Recall. Это очень важно, потому что если в каком-то случае значение полноты равно 1, т. е. 100%, а значение точности равно 0, оценка F1 будет равна 0,5, если мы возьмем среднее арифметическое точности и полноты вместо среднего гармонического. Но если мы возьмем гармоническое среднее, оценка F1 будет равна 0. Это говорит нам о том, что гармоническое среднее больше наказывает экстремальные значения.
Проверьте: 5 типов алгоритмов классификации в машинном обучении
5. АУК-РПЦ
Точность и оценка F1 не являются хорошими показателями, когда речь идет о несбалансированных данных. Кривая AUC (площадь под кривой) ROC (характеристики оператора приемника) говорит нам о степени разделимости классов, предсказанных моделью. Чем выше оценка, тем больше способность модели предсказывать 0 как 0 и 1 как 1. Кривая AUC ROC построена с использованием частоты истинных положительных результатов (TPR) по оси Y и частоты ложноположительных результатов по оси X.
ТПР = ТП/ТП+FN
FPR = FP/TN+FP

Если AUC ROC оказывается равным 1, это означает, что модель правильно предсказывает все классы и существует полная разделимость.
Если он равен 0,5, это означает, что разделимость отсутствует, и модель предсказывает все случайные результаты.
Если он равен 0, это означает, что модель предсказывает инвертированные классы. То есть 0s как 1s и 1s как 0s.
Прежде чем ты уйдешь
В этой статье мы обсудили различные показатели производительности для классификации и регрессии. Это наиболее часто используемые метрики, поэтому знать о них крайне важно. Для классификации существует еще больше метрик, специально созданных для многоклассовой классификации и классификации с несколькими метками, таких как показатель Каппа, точность при K, средняя точность при K и т. д.
Если вам интересно узнать больше о машинном обучении, ознакомьтесь с дипломом PG IIIT-B и upGrad в области машинного обучения и искусственного интеллекта, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, IIIT- Статус B Alumni, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.