33 기계 학습 인터뷰 질문 및 답변 – 로지스틱 회귀

게시 됨: 2018-07-05

기계 학습 알고리즘을 기반으로 하는 인터뷰 질문 시리즈의 두 번째 부분에 오신 것을 환영합니다. 선형 회귀 에 대한 이전 섹션 이 도움이 되었기를 바랍니다.

로지스틱 회귀에 대한 질문에 대한 답을 찾아보겠습니다.
- 1. 물류 기능이란 무엇입니까? 로지스틱 함수의 값 범위는 얼마입니까?
- 2. 로지스틱 회귀가 인기 있는 이유는 무엇입니까?
- 3. 로지스틱 회귀 함수의 공식은 무엇입니까?
- 4. 로지스틱 회귀 모델의 확률을 조건부 확률로 어떻게 표현할 수 있습니까?
- 5. 확률이란 무엇입니까?
- 6. 로지스틱 모델과 로지스틱 함수의 출력은 무엇입니까?
- 7. 로지스틱 회귀 모델의 결과를 어떻게 해석합니까? 또는 로지스틱 회귀 모델에서 알파와 베타의 의미는 무엇입니까?
- 8. 승산비란 무엇입니까?
- 9. 승산비를 계산하는 공식은 무엇입니까?
- 10. 이진 분류를 위한 로지스틱 회귀 대신 선형 회귀를 사용할 수 없는 이유는 무엇입니까?
- 11. 로지스틱 회귀 모델의 경우 결정 경계가 선형 또는 비선형입니까?
- 12. 우도 함수는 무엇입니까?
- 13. 최대 가능성 추정기(MLE)란 무엇입니까?
- 14. MLE의 다른 방법은 무엇이며 언제 각각의 방법이 선호됩니까?
- 15. MLE의 조건부 및 무조건적 방법의 장단점은 무엇입니까?
- 16. 표준 MLE 프로그램의 결과는 무엇입니까?
- 17. 로지스틱 회귀의 비용 함수로 평균 제곱 오차(MSE)를 사용할 수 없는 이유는 무엇입니까?
- 18. 정확도가 분류 문제에 대한 좋은 척도가 아닌 이유는 무엇입니까?
- 19. 분류 문제에서 기준선의 중요성은 무엇입니까?
- 20. 위양성 및 위음성이란 무엇입니까?
- 21. 참양성율(TPR), 참음성율(TNR), 위양성율(FPR) 및 위음성율(FNR)이란 무엇입니까?
- 22. 정밀도와 재현율이란 무엇입니까?
- 23. F-측정이란 무엇입니까?
- 24. 정확성이란 무엇입니까?
- 25. 민감도와 특이도는 무엇입니까?
- 26. 로지스틱 회귀 모델의 경우 컷오프 포인트를 선택하는 방법은 무엇입니까?
- 27. 로지스틱 회귀는 범주형 변수를 어떻게 처리합니까?
- 28. 누적 반응 곡선(CRV)이란 무엇입니까?
- 29. 리프트 곡선이란 무엇입니까?
- 30. 이상값 로지스틱 회귀 또는 SVM을 처리하는 데 더 나은 알고리즘은 무엇입니까?
- 31. 로지스틱 회귀를 사용하여 다중 클래스 분류 문제를 어떻게 다룰 것입니까?
- 32. ROC 곡선의 사용과 ROC 곡선의 AUC를 설명하십시오.
- 33. 다중 클래스 분류에서 ROC의 개념을 어떻게 사용할 수 있습니까?
누적 이득 및 리프트 차트는 무엇입니까?
로지스틱 회귀를 사용하는 동안 가정한 사항은 무엇입니까?
기계 학습에 대한 공정한 지식이 있으면 데이터 과학자 직업을 얻을 수 있습니까?

로지스틱 회귀에 대한 질문에 대한 답을 찾아보겠습니다.

1. 물류 기능이란 무엇입니까? 로지스틱 함수의 값 범위는 얼마입니까?

f(z) = 1/(1+e ^-z )
로지스틱 함수의 값은 0에서 1 사이입니다. Z 값은 -infinity에서 +infinity까지 다양합니다.

2. 로지스틱 회귀가 인기 있는 이유는 무엇입니까?

로지스틱 회귀는 -infinity에서 +infinity까지의 범위를 가질 수 있는 logits(logodds) 값을 0과 1 사이의 범위로 변환할 수 있기 때문에 유명합니다. 로지스틱 함수는 이벤트 발생 확률을 출력하므로 다음과 같이 적용할 수 있습니다. 많은 실제 시나리오. 이러한 이유로 로지스틱 회귀 모델이 매우 인기가 있습니다.

3. 로지스틱 회귀 함수의 공식은 무엇입니까?

f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} )
데이터 과학, 머신 러닝, 빅 데이터의 차이점!

4. 로지스틱 회귀 모델의 확률을 조건부 확률로 어떻게 표현할 수 있습니까?

P(대상 변수의 이산 값 | X1, X2, X3....Xk). 독립 변수 값이 주어졌을 때 목표 변수가 이산 값(이진 분류 문제의 경우 0 또는 1)을 차지할 확률입니다. 예를 들어, 직원이 나이, 급여, KRA 등과 같은 속성을 감안할 때 직원이 (목표 변수) 이직할 확률입니다.

5. 확률이란 무엇입니까?

사건이 일어나지 않을 확률에 대한 사건이 일어날 확률의 비율입니다. 예를 들어 복권에 당첨될 확률이 0.01이라고 가정해 봅시다. 그러면 당첨되지 않을 확률은 1-0.01 = 0.99입니다.
복권 당첨 확률 = (당첨 확률)/(당첨되지 않을 확률)
복권 당첨 확률 = 0.01/0.99
복권에 당첨될 확률은 1대 99이고, 당첨되지 않을 확률은 99대 1입니다.

6. 로지스틱 모델과 로지스틱 함수의 출력은 무엇입니까?

로지스틱 모델은 로지트, 즉 로그 확률을 출력합니다. 로지스틱 함수는 확률을 출력합니다.
로지스틱 모델 = α+1X1+2X2+….+kXk. 동일한 결과가 logits가 됩니다.
로지스틱 함수 = f(z) = 1/(1+e ^{-(α+1X1+2X2+….+kXk)} ) . 이 경우 출력은 확률이 됩니다.

7. 로지스틱 회귀 모델의 결과를 어떻게 해석합니까? 또는 로지스틱 회귀 모델에서 알파와 베타의 의미는 무엇입니까?

알파는 로지스틱 회귀 모델의 기준선입니다. 모든 속성(X1, X2,………….Xk)이 0인 경우의 로그 확률입니다. 실제 시나리오에서 모든 속성이 0일 확률은 매우 낮습니다. 다른 해석에서 알파는 속성이 고려되지 않은 경우의 로그 확률입니다.
베타는 다른 모든 속성을 고정 또는 변경하지 않고(제어 변수) 유지하여 특정 속성의 단위 변경에 따라 로그 확률이 변경되는 값입니다.

8. 승산비란 무엇입니까?

승산비는 두 그룹 간의 승산비입니다. 예를 들어, 약의 효과를 확인하려고 한다고 가정해 봅시다. 우리는 이 약을 '중재' 그룹에 투여하고 위약을 '대조' 그룹에 투여했습니다.
승산비(OR) = (개입군의 승산)/(대조군의 승산)
해석
승산비 = 1이면 중재 그룹과 통제 그룹 간에 차이가 없습니다.
승산비가 1보다 크면 통제 그룹이 중재 그룹보다 우수합니다.
승산비가 1보다 작으면 개입 그룹이 통제 그룹보다 나은 것입니다.
머신 러닝의 5가지 획기적인 애플리케이션

9. 승산비를 계산하는 공식은 무엇입니까?

위의 공식에서 X ₁ 과 X ₀ 은 승산비를 계산해야 하는 두 개의 다른 그룹을 나타냅니다. X _{1 i} 는 그룹 X ₁ 의 인스턴스 ' i '를 나타냅니다. X _{o i} 는 그룹 X ₀ 의 인스턴스 ' i '를 나타냅니다. 로지스틱 회귀 모델의 계수를 나타냅니다. 기준선은 이 공식에 포함되지 않습니다.

10. 이진 분류를 위한 로지스틱 회귀 대신 선형 회귀를 사용할 수 없는 이유는 무엇입니까?

이진 분류의 경우 선형 회귀를 사용할 수 없는 이유는 다음과 같습니다.
오차항 의 분포 : 선형 회귀와 로지스틱 회귀의 경우 데이터 분포가 다릅니다. 선형 회귀는 오차 항이 정규 분포를 따른다고 가정합니다. 이진 분류의 경우 이 가정은 사실이 아닙니다.
모델 출력 : 선형 회귀에서 출력은 연속적입니다. 이진 분류의 경우 연속 값의 출력이 의미가 없습니다. 이진 분류 문제의 경우 선형 회귀는 0과 1을 초과할 수 있는 값을 예측할 수 있습니다. 두 개의 다른 클래스에 매핑할 수 있는 확률 형식의 출력을 원하면 범위를 0과 1로 제한해야 합니다. 로지스틱 회귀 모델은 로지스틱/시그모이드 함수로 확률을 출력할 수 있으며 선형 회귀보다 선호됩니다.
잔차 오차의 분산 : 선형 회귀에서는 무작위 오차의 분산이 일정하다고 가정합니다. 이 가정은 로지스틱 회귀의 경우에도 위반됩니다.

11. 로지스틱 회귀 모델의 경우 결정 경계가 선형 또는 비선형입니까?

결정 경계는 대상 변수를 다른 클래스로 구분하는 선입니다. 결정 경계는 선형 또는 비선형일 수 있습니다. 로지스틱 회귀 모델의 경우 결정 경계는 직선입니다.
로지스틱 회귀 모델 공식 = α+1X1+2X2+….+kXk. 이것은 분명히 직선을 나타냅니다. 로지스틱 회귀는 직선이 다른 클래스를 분리할 수 있는 경우에만 적합합니다. 직선으로 할 수 없는 경우 더 나은 결과를 얻으려면 비선형 알고리즘을 사용해야 합니다.

12. 우도 함수는 무엇입니까?

우도 함수는 데이터를 관찰할 결합 확률입니다. 예를 들어, 동전을 100번 던졌다고 가정하고 60번의 앞면이 나올 확률을 알고 싶습니다. 이 예는 이항 분포 공식을 따릅니다.
p = 단일 동전 던지기에서 앞면이 나올 확률
n = 100(동전 던지기 횟수)
x = 60(머리의 수 – 성공)
nx = 30(꼬리 수)
Pr(X=60 |n = 100, p)
우도 함수는 100번의 동전 던지기에서 앞면이 나올 확률이 60일 확률이며, 여기서 각 동전 던지기에서 앞면이 나올 확률은 p입니다. 여기서 동전 던지기 결과는 이항 분포를 따릅니다.
이것은 다음과 같이 재구성할 수 있습니다.
Pr(X=60|n=100,p) = cx p60x(1-p)100-60
c = 상수
p = 알 수 없는 매개변수
우도 함수는 알려지지 않은 매개변수를 사용하여 결과를 관찰할 확률을 제공합니다.

13. 최대 가능성 추정기(MLE)란 무엇입니까?

MLE는 우도 함수를 최대화하는 알 수 없는 매개변수(추정기) 집합을 선택합니다. MLE를 찾는 방법은 미적분을 사용하고 미지의 매개변수에 대한 로지스틱 함수의 도함수를 0으로 설정하고 풀면 MLE가 됩니다. 이항 모델의 경우 이는 쉽지만 로지스틱 모델의 경우 계산이 복잡합니다. 컴퓨터 프로그램은 물류 모델에 대한 MLE를 유도하는 데 사용됩니다.
(질문에 답하는 또 다른 방법이 있습니다.)
MLE는 수학적 모델의 매개변수를 추정하기 위한 통계적 접근 방식입니다. 종속 변수가 정규 분포를 따른다고 가정하면 MLE와 일반 제곱 추정은 선형 회귀에 대해 동일한 결과를 제공합니다. MLE는 독립 변수에 대해 어떠한 가정도 하지 않습니다.

14. MLE의 다른 방법은 무엇이며 언제 각각의 방법이 선호됩니까?

물류 회귀의 경우 MLE에는 두 가지 접근 방식이 있습니다. 조건부 및 무조건적 방법입니다. 조건부 및 무조건적 방법은 서로 다른 우도 함수를 사용하는 알고리즘입니다. 무조건 공식은 양수(예: 이탈)와 음수(예: 이탈 없음)의 결합 확률을 사용합니다. 조건 공식은 모든 가능한 구성의 확률에 대한 관찰된 데이터의 확률의 비율입니다.
인스턴스 수에 비해 매개변수 수가 적은 경우 무조건 방법을 사용하는 것이 좋습니다. 인스턴스의 수에 비해 매개변수의 수가 많으면 조건부 MLE가 선호됩니다. 통계학자들은 의심스러운 경우 조건부 MLE를 사용해야 한다고 제안합니다. 조건부 MLE는 항상 편견 없는 결과를 제공합니다.
이 6가지 머신 러닝 기술은 의료 서비스를 개선합니다

15. MLE의 조건부 및 무조건적 방법의 장단점은 무엇입니까?

조건부 방법은 원하지 않는 매개변수를 추정하지 않습니다. 무조건적 방법은 원하지 않는 매개변수의 값도 추정합니다. 무조건 공식은 결합 확률로 직접 개발할 수 있습니다. 이것은 조건부 확률로 수행할 수 없습니다. 매개변수의 수가 인스턴스의 수에 비해 높으면 무조건적인 방법은 편향된 결과를 제공합니다. 이러한 경우 조건부 결과는 편향되지 않습니다.

16. 표준 MLE 프로그램의 결과는 무엇입니까?

표준 MLE 프로그램의 출력은 다음과 같습니다.
최대 가능도 값 : 우도 함수에서 미지의 모수 값을 MLE 모수 추정기로 대체하여 얻은 수치 값입니다.
추정된 분산-공분산 행렬 : 이 행렬의 대각선은 ML 추정값의 추정된 분산으로 구성됩니다. 비대각선은 ML 추정값 쌍의 공분산으로 구성됩니다.

17. 로지스틱 회귀의 비용 함수로 평균 제곱 오차(MSE)를 사용할 수 없는 이유는 무엇입니까?

로지스틱 회귀에서는 시그모이드 함수를 사용하고 비선형 변환을 수행하여 확률을 얻습니다. 이 비선형 변환을 제곱하면 국부 최소값으로 볼록하지 않습니다. 이러한 경우 경사하강법을 사용하여 전역 최소값을 찾는 것은 불가능합니다. 이러한 이유로 MSE는 로지스틱 회귀에 적합하지 않습니다. 교차 엔트로피 또는 로그 손실은 로지스틱 회귀의 비용 함수로 사용됩니다. 로지스틱 회귀에 대한 비용 함수에서 확신이 서지 않는 잘못된 예측은 무거운 패널티를 받습니다. 확신에 찬 올바른 예측은 보상을 덜 받습니다. 이 비용 함수를 최적화함으로써 수렴이 달성됩니다.

18. 정확도가 분류 문제에 대한 좋은 척도가 아닌 이유는 무엇입니까?

정확도는 가양성 및 가음성 모두에 동일한 중요성을 부여하기 때문에 분류 문제에 대한 좋은 척도가 아닙니다. 그러나 대부분의 비즈니스 문제는 그렇지 않을 수 있습니다. 예를 들어, 암 예측의 경우 환자에게 자신이 암에 걸렸다는 것을 잘못 알리는 것보다 암을 양성이라고 선언하는 것이 더 심각합니다. 정확도는 두 경우에 동일한 중요성을 부여하며 둘을 구분할 수 없습니다.

19. 분류 문제에서 기준선의 중요성은 무엇입니까?

대부분의 분류 문제는 불균형 데이터셋을 다룹니다. 예를 들면 통신 이탈, 직원 이탈, 암 예측, 사기 탐지, 온라인 광고 타겟팅 등이 있습니다. 이 모든 문제에서 포지티브 클래스의 수는 네거티브 클래스에 비해 매우 적습니다. 어떤 경우에는 전체 샘플의 1% 미만인 양성 클래스를 갖는 것이 일반적입니다. 이러한 경우 99%의 정확도는 매우 좋게 들리지만 실제로는 그렇지 않을 수 있습니다.
여기에서 음수는 99%이므로 기준선은 동일하게 유지됩니다. 알고리즘이 모든 인스턴스를 음수로 예측하면 정확도도 99%가 됩니다. 이 경우 모든 긍정적 인 것이 잘못 예측되며 이는 모든 비즈니스에 매우 중요합니다. 모든 긍정이 잘못 예측되더라도 99%의 정확도를 달성합니다. 따라서 베이스라인은 매우 중요하며 알고리즘은 베이스라인과 비교하여 평가되어야 합니다.

20. 위양성 및 위음성이란 무엇입니까?

거짓 긍정은 부정이 긍정으로 잘못 예측되는 경우입니다. 예를 들어 고객이 실제로 이탈하지 않을 때 이탈할 것이라고 예측합니다.
거짓 부정은 긍정이 부정으로 잘못 예측되는 경우입니다. 예를 들어 고객이 실제로 이탈할 때 이탈하지 않을 것이라고 예측합니다.

21. 참양성율(TPR), 참음성율(TNR), 위양성율(FPR) 및 위음성율(FNR)이란 무엇입니까?

TPR은 모든 실제 레이블에서 올바르게 예측된 양성의 비율을 나타냅니다. 간단히 말해서, 정확하게 예측된 실제 레이블의 빈도입니다.
TPR = TP/TP+FN
TNR은 모든 잘못된 레이블에서 올바르게 예측된 음성의 비율을 나타냅니다. 올바르게 예측된 잘못된 레이블의 빈도입니다.
TNR = TN/TN+FP
FPR은 모든 실제 레이블에서 잘못 예측된 양성 비율을 나타냅니다. 잘못 예측된 잘못된 레이블의 빈도입니다.
FPR = FP/TN+FP
FNR은 모든 잘못된 레이블에서 잘못 예측된 부정의 비율을 나타냅니다. 잘못 예측된 실제 레이블의 빈도입니다.
FNR = FN/TP+FN

22. 정밀도와 재현율이란 무엇입니까?

정밀도는 예측된 양성 중 참 양성의 비율입니다. 다시 말해서 예측의 정확성이다. '양성 예측값'이라고도 합니다.
정밀도 = TP/TP+FP
재현율은 TPR(진양성률)과 동일합니다.
비지도 머신 러닝은 어떻게 작동합니까?

23. F-측정이란 무엇입니까?

정밀도와 재현율의 조화 평균입니다. 경우에 따라 정밀도와 리콜 간에 균형이 유지됩니다. 이러한 경우 F-소절이 떨어집니다. 정밀도와 재현율이 모두 높을 때 높을 것입니다. 당면한 비즈니스 사례와 데이터 분석의 목표에 따라 적절한 메트릭을 선택해야 합니다.
F-측정 = 2 X(정밀도 X 재현율) / (정밀도+재현율)

24. 정확성이란 무엇입니까?

모든 예측 중에서 올바른 예측의 수입니다.
정확도 = (TP+TN)/(총 예측 수)

25. 민감도와 특이도는 무엇입니까?

특이성은 진음성 비율과 같거나 1과 같습니다. 위양성 비율입니다.
특이성 = TN/TN + FP.
감도는 진정한 양성률입니다.
감도 = TP/TP + FN

26. 로지스틱 회귀 모델의 경우 컷오프 포인트를 선택하는 방법은 무엇입니까?

컷오프 지점은 비즈니스 목표에 따라 다릅니다. 비즈니스 목표에 따라 컷오프 포인트를 선택해야 합니다. 예를 들어 대출 불이행을 생각해 봅시다. 비즈니스 목표가 손실을 줄이는 것이라면 특이성이 높아야 합니다. 목표가 이익을 늘리는 것이라면 완전히 다른 문제입니다. 예상되는 모든 채무 불이행 사례에 대해 대출을 제공하지 않음으로써 이익이 증가하지 않을 수도 있습니다. 그러나 기업이 이익을 늘리기 위해 약간 덜 위험한 채무 불이행 사례에 대출을 지급해야 하는 경우일 수 있습니다. 이 경우 이익을 극대화하는 다른 컷오프 포인트가 필요합니다. 대부분의 경우 기업은 많은 제약 조건을 따라 운영됩니다. 비즈니스 목표를 충족하는 컷오프 포인트는 제한이 있거나 없는 동일하지 않습니다. 이러한 모든 점을 고려하여 차단점을 선택해야 합니다. 일반적으로 데이터 세트의 양성 비율과 동일한 컷오프 값을 선택합니다.

머신 러닝이란 무엇이며 중요한 이유

27. 로지스틱 회귀는 범주형 변수를 어떻게 처리합니까?

로지스틱 회귀 모델에 대한 입력은 숫자여야 합니다. 알고리즘은 범주형 변수를 직접 처리할 수 없습니다. 따라서 알고리즘이 처리하기에 적합한 형식으로 변환해야 합니다. 범주형 변수의 다양한 수준에는 더미 변수라고 하는 고유한 숫자 값이 할당됩니다. 이러한 더미 변수는 로지스틱 회귀 모델에서 다른 숫자 값으로 처리됩니다.

28. 누적 반응 곡선(CRV)이란 무엇입니까?

분석 결과를 경영진에게 전달하기 위해 ROC 곡선보다 직관적인 '누적 반응 곡선'을 사용합니다. ROC 곡선은 데이터 과학 분야가 아닌 사람이 이해하기 매우 어렵습니다. CRV는 Y축에 정확하게 분류된 양성 비율 또는 실제 양성률과 X축을 대상으로 하는 모집단의 비율로 구성됩니다. 모집단의 백분율은 모델에 따라 내림차순으로 순위가 매겨집니다(확률 또는 예상 값). 모델이 양호하면 순위 목록의 상위 부분을 대상으로 하여 높은 비율의 긍정적인 모든 항목이 캡처됩니다. ROC 곡선과 마찬가지로 임의의 성능을 나타내는 대각선이 있습니다. 이 임의의 성능을 예로 이해해 보겠습니다. 목록의 50%가 대상이라고 가정하면 긍정적인 부분의 50%를 캡처할 것으로 예상됩니다. 이 기대치는 ROC 곡선과 유사한 대각선으로 포착됩니다.

29. 리프트 곡선이란 무엇입니까?

리프트는 무작위 성능과 비교할 때 모델 성능의 개선(진정성 비율 증가)입니다. 무작위 성능은 인스턴스의 50%가 대상이 되는 경우 양성의 50%를 감지할 것으로 예상됨을 의미합니다. 리프트는 모델의 무작위 성능과 비교됩니다. 모델의 성능이 임의의 성능보다 좋은 경우 리프트는 1보다 큽니다.
리프트 곡선에서 리프트는 Y축에 표시되고 인구 비율(내림차순 정렬)은 X축에 표시됩니다. 대상 모집단의 지정된 비율에서 상승도가 높은 모델이 선호됩니다.

30. 이상값 로지스틱 회귀 또는 SVM을 처리하는 데 더 나은 알고리즘은 무엇입니까?

로지스틱 회귀는 이상치를 수용하기 위해 존재하는 경우 선형 경계를 찾습니다. 로지스틱 회귀는 이상값을 수용하기 위해 선형 경계를 이동합니다. SVM은 개별 샘플에 둔감합니다. 이상치를 수용하기 위해 선형 경계에 큰 변화가 없을 것입니다. SVM에는 과적합을 처리하는 복잡한 제어 기능이 내장되어 있습니다. 로지스틱 회귀의 경우에는 그렇지 않습니다.

31. 로지스틱 회귀를 사용하여 다중 클래스 분류 문제를 어떻게 다룰 것입니까?

로지스틱 회귀를 사용하여 다중 클래스 분류를 처리하는 가장 유명한 방법은 일대일 접근 방식을 사용하는 것입니다. 이 접근 방식에서는 클래스 수와 동일한 수의 모델이 학습됩니다. 모델은 특정한 방식으로 작동합니다. 예를 들어, 첫 번째 모델은 데이터 포인트가 클래스 1에 속하는지 아니면 다른 클래스에 속하는지에 따라 데이터 포인트를 분류합니다. 두 번째 모델은 데이터 포인트를 클래스 2 또는 다른 클래스로 분류합니다. 이렇게 하면 모든 클래스에서 각 데이터 포인트를 확인할 수 있습니다.

32. ROC 곡선의 사용과 ROC 곡선의 AUC를 설명하십시오.

ROC(수신기 작동 특성) 곡선은 이진 분류 모델의 성능을 보여줍니다. 기본적으로 0에서 1 사이의 모든 임계값에 대한 TPR 대 FPR(진양성 비율 대 위양성 비율) 곡선입니다. ROC 곡선에서 ROC 공간의 각 점은 다른 혼동 행렬과 연결됩니다. ROC 그래프의 왼쪽 아래에서 오른쪽 위까지의 대각선은 무작위 추측을 나타냅니다. AUC(Area Under the Curve)는 분류기 모델이 얼마나 좋은지를 나타냅니다. AUC 값이 높으면(1에 가까움) 모델이 만족스럽게 작동하고 있는 반면 값이 낮으면(약 0.5) 모델이 제대로 작동하지 않고 무작위로 추측할 뿐입니다.

33. 다중 클래스 분류에서 ROC의 개념을 어떻게 사용할 수 있습니까?

ROC 곡선의 개념은 일대일 접근 방식을 사용하여 다중 클래스 분류에 쉽게 사용할 수 있습니다. 예를 들어 'a', 'b', 'c'라는 세 개의 클래스가 있다고 가정해 보겠습니다. 그런 다음 첫 번째 클래스는 클래스 'a'(true 클래스)로 구성되고 두 번째 클래스는 클래스 'b'와 클래스 'c'를 함께 포함(false 클래스)합니다. 따라서 ROC 곡선이 그려집니다. 마찬가지로 세 가지 클래스 모두에 대해 세 개의 ROC 곡선을 표시하고 AUC 분석을 수행합니다.
지금까지 가장 기본적인 두 가지 ML 알고리즘인 선형 및 로지스틱 회귀를 다루었으며 이 리소스가 도움이 되었기를 바랍니다.

세계 최고의 대학에서 ML 과정을 배우십시오. 석사, 이그 제 큐 티브 PGP 또는 고급 인증 프로그램을 획득하여 경력을 빠르게 추적하십시오.

기계 학습 엔지니어: 신화 대 현실

이 시리즈의 다음 부분은 또 다른 매우 중요한 ML 알고리즘인 클러스터링 을 기반으로 합니다. 아래의 의견 섹션에 의심 사항과 질문을 자유롭게 게시하십시오.
공동 저자 – Ojas Agarwal

누적 이득 및 리프트 차트는 무엇입니까?

이득 및 리프트 차트는 여러 기계 학습 모델의 효율성을 다양한 방식으로 평가하기 위한 시각적 접근 방식입니다. 예측 모델이 얼마나 성공적인지 평가하는 데 도움이 될 뿐만 아니라 대상 그룹의 응답률이 무작위로 선택된 그룹의 응답률과 어떻게 다른지 시각적으로 표시합니다. 이러한 다이어그램은 대상 마케팅과 같은 기업 설정에서 유용합니다. 위험 모델링, 공급망 분석 등과 같은 다른 분야에도 적용될 수 있습니다. 즉, 이득 및 리프트 차트는 불균형 데이터 세트와 관련된 분류 문제를 처리하는 두 가지 방법입니다.

로지스틱 회귀를 사용하는 동안 가정한 사항은 무엇입니까?

로지스틱 회귀를 사용하는 동안 몇 가지 가정이 이루어집니다. 그 중 하나는 연속형 예측 변수에 영향력 있는 값(극단값 또는 이상값)이 없다는 것입니다. 두 개의 클래스로 구분되는 로지스틱 회귀는 종속 변수가 이진 변수임을 전제로 하는 반면 정렬 로지스틱 회귀는 종속 변수를 정렬해야 합니다. 또한 예측자 간에 실질적인 상호 상관(즉, 다중 공선성)이 없다고 가정합니다. 또한 관측값이 서로 독립적인 것으로 간주합니다.

기계 학습에 대한 공정한 지식이 있으면 데이터 과학자 직업을 얻을 수 있습니까?

데이터 과학자는 기계 학습 및 예측 모델링과 같은 정교한 분석 기술을 사용하여 방대한 양의 데이터를 수집, 분석 및 해석합니다. 그런 다음 회사 리더는 이를 활용하여 최상의 비즈니스 선택을 합니다. 따라서 데이터 마이닝 및 통계 연구 방법론에 대한 이해와 같은 다른 기술 외에도 머신 러닝은 데이터 과학자에게 중요한 역량입니다. 그러나 데이터 과학자로 일하려면 Hadoop, Pig, Hive, Spark 등과 같은 빅 데이터 플랫폼 및 기술은 물론 SQL, Python 등과 같은 프로그래밍 언어에도 익숙해야 합니다.