기계 학습의 교차 검증: 4가지 유형의 교차 검증

게시 됨: 2020-11-30

소개

모델 개발은 비즈니스 문제를 기반으로 하는 지도 또는 비지도 알고리즘의 다양한 유형의 기계 학습 모델로 데이터 세트를 훈련하려고 시도하는 데이터 과학 프로젝트 수명 주기의 중요한 단계입니다.

우리는 비즈니스 문제를 해결하는 데 사용할 수 있는 모델이 많다는 것을 알고 있기 때문에 이 단계의 끝에서 선택하는 모델이 보이지 않는 데이터에 대해 잘 수행되어야 함을 보장해야 합니다. 따라서 우리는 최고의 성능 모델을 선택하기 위해 평가 지표를 사용할 수 없습니다.

우리는 프로덕션에 배포할 수 있는 최종 기계 학습 모델을 결정하는 데 도움이 될 수 있는 메트릭 외에 더 많은 것이 필요합니다.

변수 간의 관계를 계산하는 수학적 결과가 데이터 설명으로 허용되는지 여부를 결정하는 프로세스를 유효성 검사 라고 합니다. 일반적으로 모델에 대한 오류 추정은 잔차 평가로 더 잘 알려진 기차 데이터 세트에서 모델을 훈련시킨 후 이루어집니다.

이 과정에서 예측된 응답과 원래 응답의 차이를 계산하여 Training Error 를 측정합니다. 그러나 이 메트릭은 훈련 데이터에서만 잘 작동하기 때문에 신뢰할 수 없습니다. 모델이 데이터 과소적합 또는 과적합일 수 있습니다.

따라서 이 평가 기술이나 다른 평가 메트릭의 문제는 모델이 보이지 않는 데이터 세트에 대해 얼마나 잘 수행할 것인지에 대한 표시를 제공하지 않는다는 것입니다. 우리 모델에 대해 이것을 아는 데 도움이 되는 기술을 교차 검증( Cross-Validation )이라고 합니다.

이 기사에서는 다양한 유형의 교차 검증 기술, 각 기술의 장단점에 대해 자세히 알아볼 것입니다. 교차 검증의 정의부터 시작하겠습니다.

교차 검증

교차 검증은 우리 모델이 보이지 않는 데이터에 대한 효율성과 정확성을 확실히 하는 데 도움이 되는 리샘플링 기술입니다. 사용 가능한 입력 데이터 집합의 하위 집합에 대해 여러 다른 기계 학습 모델을 훈련하고 데이터 집합의 하위 집합에 대해 평가하여 기계 학습 모델을 평가하는 방법입니다.

다양한 유형의 교차 검증 기술이 있지만 교차 검증의 기본 기능을 살펴보겠습니다. 첫 번째 단계는 정리된 데이터 세트를 동일한 크기의 K 파티션으로 나누는 것입니다.

그런 다음 Fold-1을 테스트 폴드로 처리하고 다른 K-1을 트레인 폴드로 처리하고 테스트 폴드의 점수를 계산해야 합니다.
우리는 모든 폴드에 대해 2단계를 반복해야 하며 트레인으로 남아 있는 동안 다른 폴드를 테스트로 사용합니다.
마지막 단계는 모든 폴드 점수의 평균을 구하는 것입니다.

읽기: 초보자를 위한 기계 학습 프로젝트

교차 검증 유형

1. 홀드아웃 방식

이 기술은 훈련 데이터 세트의 일부를 제거하고 예측을 얻기 위해 나머지 데이터 세트에 대해 훈련된 모델로 보내는 작업입니다. 그런 다음 모델이 보이지 않는 데이터 세트에서 어떻게 작동하는지 알려주는 오류 추정을 계산합니다. 이를 홀드아웃 방법이라고 합니다.

장점

이 방법은 데이터와 완전히 독립적입니다.
이 방법은 한 번만 실행하면 되므로 계산 비용이 더 적게 듭니다.

단점

성능은 데이터 크기가 작을수록 더 큰 변동을 보일 수 있습니다.

2. K-폴드 교차 검증

Data-Driven World에서는 모델을 훈련시키기에 충분한 데이터가 없습니다. 게다가 검증을 위해 일부를 제거하는 것은 Underfitting의 더 큰 문제를 야기하고 우리는 데이터 세트의 중요한 패턴과 추세를 잃을 위험이 있습니다. 바이어스를 증가시킵니다. 따라서 이상적으로는 모델 훈련을 위한 충분한 양의 데이터를 제공하고 검증 세트를 위한 충분한 양의 데이터를 남겨두는 방법이 필요합니다.

K-Fold 교차 검증에서 데이터는 k 서브세트로 분할되거나 k 번 반복되는 홀드아웃 방법으로 사용할 수 있습니다. 따라서 매번 k 서브세트 중 하나가 검증 세트로 사용되고 다른 k-1 하위 집합을 훈련 세트로 사용합니다. 오류는 우리 모델의 총 효율성을 얻기 위해 모든 k 시도에 대해 평균을 냅니다.

우리는 각 데이터 포인트가 검증 세트에 정확히 한 번 있고 훈련 세트 k-1 시간에 있음을 알 수 있습니다. 이는 피팅에 대부분의 데이터를 사용하기 때문에 편향을 줄이는 데 도움이 되고 대부분의 데이터가 검증 세트에서도 사용되기 때문에 분산을 줄입니다.

장점

이것은 계산 능력의 문제를 극복하는 데 도움이 될 것입니다.
데이터에 이상치가 있는 경우 모델이 크게 영향을 받지 않을 수 있습니다.
변동성 문제를 극복하는 데 도움이 됩니다.

단점

불균형한 데이터 세트는 우리 모델에 영향을 미칩니다.

3. 계층화된 K-폴드 교차 검증

K Fold Cross Validation 기술은 불균형 데이터 세트에 대해 예상대로 작동하지 않습니다. 불균형한 데이터 세트가 있는 경우 각 폴드에 전체와 거의 동일한 각 출력 클래스 샘플 계층이 포함되도록 K 폴드 교차 검증 기술을 약간 변경해야 합니다. K 폴드 교차 검증에서 계층을 사용하는 이러한 변형을 계층화된 K 폴드 교차 검증이라고 합니다.

장점

하이퍼 파라미터 튜닝을 사용하여 다양한 모델을 개선할 수 있습니다.
모델을 비교하는 데 도움이 됩니다.
Bias와 Variance를 줄이는 데 도움이 됩니다.

4. 탈퇴 교차 검증

이 접근 방식에서 우리는 총 n개의 데이터 포인트 중 훈련 데이터에서 p개의 데이터 포인트를 남겨두고 np개의 샘플을 사용하여 모델을 훈련하고 p개의 포인트를 검증 세트로 사용합니다. 모든 조합에 대해 이를 반복한 다음 오류의 평균을 구합니다.

장점

무작위성이 0입니다.
편견은 더 낮을 것이다

단점

이 방법은 철저하고 계산적으로 불가능합니다.

더 읽어보기: 기계 학습 경력

결론

이 기사에서 우리는 데이터 과학 프로젝트 수명 주기에서 기계 학습 모델 검증의 중요성에 대해 배웠고, 검증과 교차 검증이 무엇인지, 다양한 유형의 교차 검증 기술을 탐구하고, 몇 가지를 알게 되었습니다. 해당 기술의 장점과 단점.

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

기계 학습에서 교차 검증이 필요한 이유는 무엇입니까?

교차 검증은 훈련 데이터가 훈련 세트와 테스트 세트의 두 부분으로 분할되는 기계 학습 기술입니다. 훈련 세트는 모델을 빌드하는 데 사용되며 테스트 세트는 프로덕션 환경에서 모델이 얼마나 잘 수행되는지 평가하는 데 사용됩니다. 이렇게 하는 이유는 자신이 구축한 모델이 실제 세계에서 잘 수행되지 않을 위험이 있기 때문입니다. 모델을 교차 검증하지 않으면 훈련 데이터에서는 잘 작동하지만 실제 데이터에서는 잘 수행되지 않는 모델을 구축할 위험이 있습니다.

k-겹 교차 검증이란 무엇입니까?

기계 학습 및 데이터 마이닝에서 k-겹 교차 검증(leave-one-out cross-validation)이라고도 하는 k-겹 교차 검증은 훈련 데이터가 k개의 대략 동일한 부분집합으로 나뉘고 각각의 k가 포함된 교차 검증의 한 형태입니다. 1개의 부분집합은 차례로 테스트 데이터로 사용되고 나머지 부분집합은 훈련 데이터로 사용됩니다. K는 종종 10 또는 5입니다. K-겹 교차 검증은 일반화 오류 추정치의 분산을 줄이기 때문에 모델 선택에 특히 유용합니다.

교차 검증의 장점은 무엇입니까?

교차 검증은 데이터 세트가 훈련 세트와 테스트 세트(또는 교차 검증 세트)로 분할되는 검증의 한 형태입니다. 이 세트는 모델의 정확도를 테스트하는 데 사용됩니다. 즉, 데이터 샘플을 기반으로 모델이 얼마나 좋은지 측정하는 방법론을 제공합니다. 예를 들어 훈련 입력과 테스트 입력의 불일치로 인해 발생하는 모델의 오류를 추정하는 데 사용됩니다.