로지스틱 회귀 인터뷰 질문 및 답변 [신입생 및 경험자용]

게시 됨: 2020-09-24

머신 러닝, 보다 구체적으로 분류에 관해서는 로지스틱 회귀가 아마도 가장 간단하고 가장 널리 사용되는 알고리즘일 것입니다. 로지스틱 회귀는 이해하고 구현하기가 매우 쉽기 때문에 이 알고리즘은 초보자와 기계 학습 또는 데이터 과학 여정을 막 시작하는 사람들에게 적합합니다.

로지스틱 회귀라는 이름이 회귀를 구현하는 데 사용할 수 있는 알고리즘처럼 들릴 수 있지만 진실은 그렇지 않습니다. 로지스틱 회귀는 미묘한 차이 때문에 실제로 회귀 작업을 수행하는 것보다 인스턴스를 잘 정의된 클래스로 분류하는 데 더 적합합니다.

간단히 말해서, 이 알고리즘은 선형 회귀 출력을 취하고 결과를 제공하기 전에 활성화 함수를 적용합니다. 로지스틱 회귀에서 사용하는 활성화 함수는 시그모이드 함수(로지스틱 함수라고도 함)입니다. 연속 값을 제공하는 대신 시그모이드 함수의 속성을 고수하면 0과 1 범위의 숫자만 제공됩니다. 임계값을 설정한 후 로지스틱 회귀의 출력에서 ​​분류를 만드는 것은 간단합니다.

우리 모두는 데이터 과학 및 기계 학습 분야가 어떻게 진화하고 있는지 알고 있습니다. 매일 더 많은 기회가 만들어지고 있습니다. 따라서 이 경쟁이 치열한 세상에서 올바른 지식을 가지고 있는지 확인하는 것이 꿈의 회사에 좋은 자리를 확보하는 데 중요합니다. 이러한 노력을 지원하기 위해 전문 데이터 과학자 또는 기계 학습 전문가가 되기 위한 여정을 준비하는 데 도움이 되는 로지스틱 회귀 인터뷰 질문 목록을 준비했습니다.

목차

로지스틱 회귀 인터뷰 질문 및 답변

Q1. TRUE 또는 FALSE를 사용하여 응답하십시오. 로지스틱 회귀는 지도 머신 러닝 알고리즘의 한 유형입니까?

앤. 예, 이 질문에 대한 대답은 참이 될 것입니다. 왜냐하면 실제로 로지스틱 회귀는 감독된 기계 학습 알고리즘이기 때문입니다. 간단한 이유는 이 알고리즘이 작동하는 방식에 있습니다. 로지스틱 회귀에서 출력을 얻으려면 먼저 데이터를 입력해야 합니다.

인스턴스에서 학습하고 정확한 예측을 할 수 있도록 인스턴스와 이러한 인스턴스의 올바른 레이블을 제공해야 합니다. 지도 머신 러닝 알고리즘에는 목표 변수(Y)와 클래스 인스턴스 또는 입력 정보(X)를 제공하는 데 사용되는 변수가 모두 필요하여 성공적으로 훈련하고 예측할 수 있습니다.

Q2. TRUE 또는 FALSE를 사용하여 응답하십시오. 로지스틱 회귀는 주로 분류에 사용됩니까?

앤. 예, 이 질문에 대한 대답은 TRUE입니다. 실제로 로지스틱 회귀는 실제 회귀보다 분류 작업에 주로 사용됩니다. 회귀에 선형 회귀를 사용합니다. 둘의 유사성 때문에 혼동하기 쉽습니다. 이런 실수를 하지 마십시오. 로지스틱 회귀에서는 분류 작업을 훨씬 더 편안하게 해주는 sigmoid 활성화 함수에 불과한 로지스틱 함수를 사용합니다.

Q3. TRUE 또는 FALSE를 사용하여 이 질문에 답하십시오. 로지스틱 회귀 알고리즘의 동작을 모방하는 신경망을 구현할 수 있습니까?

앤. 예, 대답은 TRUE일 것입니다. 신경망은 범용 근사기라고도 합니다. 거의 모든 기계 학습 알고리즘을 모방하는 데 사용할 수 있습니다. TensorFlow 2.0의 Keras API를 사용하는 경우 순차 모델에 하나의 레이어를 추가하고 이 레이어를 시그모이드 활성화 함수로 만들기만 하면 됩니다.

Q4. TRUE 또는 FALSE를 사용하여 이 질문에 답하십시오. 다중 클래스 분류 문제를 해결하기 위해 로지스틱 회귀를 사용할 수 있습니까?

앤. 짧은 대답은 TRUE입니다. 그러나 긴 대답은 당신이 조금 생각하게 할 것입니다. 단일 로지스틱 회귀 모델을 사용하여 다중 클래스 분류를 구현할 수 있는 방법은 없습니다. 소프트맥스 활성화 함수가 있는 신경망을 사용하거나 복잡한 기계 학습 알고리즘을 사용하여 입력 변수의 많은 클래스를 성공적으로 예측해야 합니다.

그러나 실제로 로지스틱 회귀를 사용하여 다중 클래스 분류 문제를 해결할 수 있는 한 가지 방법이 있습니다. 그것은 일대일 접근 방식을 사용하는 것입니다. n개의 분류기를 훈련시켜야 하며(여기서 n은 클래스 수), 각각은 하나의 클래스만 예측합니다. 따라서 3개 클래스 분류(A, B, C라고 합시다)의 경우 두 개의 분류기를 훈련하여 하나는 A가 아닌 A를 예측하고, 다른 하나는 B가 아닌 B를 예측하고, 최종 분류기를 훈련해야 합니다. C가 아니라 C를 예측합니다. 그런 다음 로지스틱 회귀만 사용하여 다중 클래스 분류를 수행할 수 있도록 이 세 가지 모델 모두의 출력을 함께 통합해야 합니다.

Q5. 아래 목록에서 옵션 중 하나를 선택하십시오. 로지스틱 회귀 알고리즘에서 훈련 데이터를 맞추는 데 사용되는 기본 방법은 무엇입니까?

  1. 자카드 거리
  2. 최대 가능성
  3. 최소 제곱 오차
  4. 위에서 언급한 옵션이 없습니다.

앤. 답은 B입니다. 선형회귀에서 사용하는 방법과 동일하기 때문에 최소제곱오차인 옵션 C를 선택하기 쉽습니다. 그러나 로지스틱 회귀에서는 훈련 인스턴스를 모델에 맞추기 위해 최소 제곱 근사를 사용하지 않습니다. 대신 최대 가능성을 사용합니다.

확인: 기계 학습 프로젝트 아이디어

Q6. 아래 목록에서 옵션 중 하나를 선택하십시오. 로지스틱 회귀 모델의 정확성을 측정하는 데 사용할 수 없는 메트릭은 무엇입니까?

  1. 수신기 작동 특성 곡선 아래 영역(또는 AUC-ROC 점수)
  2. 로그 손실
  3. 평균 제곱 오차(또는 MSE)
  4. 정확성

앤. 선택해야 하는 올바른 옵션은 C, 즉 평균 제곱 오차 또는 MSE입니다. 로지스틱 회귀 알고리즘은 실제로 기본 회귀 알고리즘이 아닌 분류 알고리즘이므로 Meas Square Error를 사용하여 작성한 로지스틱 회귀 모델의 성능을 결정할 수 없습니다. 주된 이유는 모델에서 받은 출력과 클래스 인스턴스에 의미 있는 숫자 값을 할당할 수 없기 때문입니다.

Q7. 아래 목록에서 옵션 중 하나를 선택하십시오. AIC는 로지스틱 회귀 모델의 성능을 판단하는 훌륭한 척도가 됩니다. AIC는 선형 회귀 알고리즘의 성능을 결정하는 데 사용되는 R-제곱 방법과 매우 유사합니다. 이 AIC에 대해 실제로 사실인 것은 무엇입니까?

  1. AIC 점수가 낮은 모델이 일반적으로 선호됩니다.
  2. AIC 점수가 큰 모델이 실제로 선호됩니다.
  3. AIC 점수를 기준으로 모델을 선택하는 것은 상황에 따라 크게 좌우됩니다.
  4. 위에서 언급한 옵션이 없습니다.

앤. AIC 값이 가장 작은 모델이 선호됩니다. 따라서 질문에 대한 답은 옵션 A가 될 것입니다. 우리가 AIC 값이 가장 낮은 모델을 선택하는 주된 이유는 모델의 성능을 규제하기 위해 추가되는 페널티가 실제로는 적합성을 권장하지 않기 때문입니다. 끝날. 예, AIC 또는 Akaike Information Criterion은 값이 낮을수록 적합성이 더 좋은 메트릭입니다.

실제로 우리는 과소 적합(우리가 선택한 모델이 데이터에 존재하는 복잡성을 찾을 만큼 충분히 복잡하지 않기 때문에 잘 일반화될 수 없음을 의미)도 과적합(모델이 훈련에 완벽하게 적합했음을 의미)도 아닌 모델을 선호합니다. 더 일반적인 예측을 할 수 있는 능력을 상실했습니다.) 그래서 우리는 underfitting과 overfitting을 모두 피하기 위해 합리적으로 낮은 점수를 선택합니다.

Q8. TRUE 또는 FALSE를 사용하여 응답하십시오. 데이터를 훈련 로지스틱 회귀 모델에 공급하기 전에 특성 열에 있는 값을 표준화해야 합니까?

앤. 아니요, 로지스틱 회귀 모델을 훈련하는 데 사용해야 하는 기능 공간에 있는 값을 표준화할 필요가 없습니다. 따라서 이 질문에 대한 대답은 FALSE가 될 것입니다. 우리는 알고리즘을 값에 수렴시키는 역할을 하는 함수(일반적으로 경사하강법)를 돕기 위해 모든 값을 표준화하기로 선택했습니다. 이 알고리즘은 상대적으로 간단하기 때문에 실제로 성능에 상당한 차이가 있기 위해 크기를 조정할 필요가 없습니다.

배우기: 초보자를 위한 상위 5가지 머신 러닝 모델 설명

Q9. 아래 목록에서 옵션 중 하나를 선택하십시오. 변수 선택 작업을 수행하는 데 사용하는 기술은 무엇입니까?

  1. 능선 회귀
  2. 라쏘 회귀
  3. 언급된 옵션 없음
  4. LASSO와 릿지 회귀 모두

앤. 이 질문에 대한 답은 B. LASSO 회귀입니다. 그 이유는 간단합니다. LASSO 회귀 함수에서 발생하는 l2 패널티는 일부 기능의 계수를 0으로 만드는 기능이 있습니다. 계수가 0이므로 함수의 최종 결과에 영향을 미치지 않습니다. 이는 이러한 변수가 우리가 생각하는 것만큼 중요하지 않다는 것을 의미하며, 이러한 방식으로 LASSO 회귀의 도움으로 변수 선택을 수행할 수 있습니다.

Q10. 아래 목록에서 옵션 중 하나를 선택하십시오. 앞면이 나올 확률을 알아보기 위해 공정한 동전을 소유하고 있다고 가정합니다. 계산된 확률은 어떻게 됩니까?

  1. 머리가 나올 확률이 0이 될까요?
  2. 머리가 될 확률은 1이 될까요?
  3. 머리가 나올 확률은 0.5입니까?
  4. 위에서 언급한 옵션이 없습니다.

앤. 이 질문에 성공적으로 답하려면 배당률의 의미와 정의를 이해해야 합니다. 승산은 실제로 두 가지 확률, 즉 특정 사건이 일어나지 않을 확률에 대한 확률의 비율로 정의됩니다. 공평한 동전의 경우 앞면이 나올 확률과 앞면이 나오지 않을 확률은 동일합니다. 따라서 선두를 차지할 확률은 1입니다.

Q11. 아래 옵션에서 정답을 선택하세요. 로짓 함수는 승산 함수의 로그로 정의됩니다. 이 로짓 함수의 범위가 [0,1]의 영역에 있다고 생각하십니까?

  1. (-무한, +무한)
  2. (0, +무한대)
  3. (-무한대, 0)
  4. (0, 1)

앤. 확률 함수는 전달된 값을 확률로 변환합니다. 모든 기능의 범위가 0과 1 사이에서 고정됨을 의미합니다. 그러나 확률 함수는 확률 함수에서 값을 가져와 0에서 무한대로 범위를 만드는 한 가지 작업을 수행합니다.

따라서 로그 함수에 대한 유효 입력은 0에서 무한대까지입니다. 우리는 이 영역의 로그 함수 범위가 전체 실수 라인 또는 음의 무한대에서 양의 무한대까지라는 것을 알고 있습니다. 따라서 이 질문에 대한 답은 옵션 A입니다.

Q12. 아래 목록에서 참이라고 생각하는 옵션을 선택하십시오.

  1. 선형 회귀의 경우 오차 값은 정규 분포를 따라야 하지만 로지스틱 회귀의 경우 값이 표준 정규 분포를 따를 필요는 없습니다.
  2. 로지스틱 회귀의 경우 오차 값은 정규 분포를 따라야 하지만 선형 회귀의 경우 값이 표준 정규 분포를 따를 필요는 없습니다.
  3. 선형 회귀와 로지스틱 회귀의 경우 오차 값은 정규 분포를 따라야 합니다.
  4. 선형 회귀와 로지스틱 회귀 모두의 경우 오류 값은 정규 분포를 따를 필요가 없습니다.

앤. 이 진술들 중 유일하게 진실한 진술은 첫 번째 진술입니다. 따라서 질문에 대한 답은 옵션 A가 됩니다.

Q13. 아래 옵션 목록에서 올바른 옵션을 선택하십시오. 따라서 주어진 데이터에 로지스틱 회귀 모델을 적용했다고 가정해 보겠습니다. 얻은 정확도 결과는 훈련 세트의 경우 X이고 테스트 세트의 경우 Y입니다. 이제 모델에 더 많은 데이터 요소를 추가하려고 합니다. 그래서, 당신에 따르면 어떤 일이 일어나야합니까?

  1. 훈련 데이터에서 얻은 정확도 X가 증가해야 합니다.
  2. 훈련 데이터에서 얻은 정확도 X는 감소해야 합니다.
  3. 테스트 데이터에서 얻은 정확도 Y는 감소해야 합니다.
  4. 테스트 데이터에서 얻은 정확도 Y는 증가하거나 동일하게 유지되어야 합니다.

앤. 훈련 정확도는 모델이 이미 보고 학습한 데이터에 대한 적합도에 크게 의존합니다. 따라서 모델에 제공되는 기능의 수를 늘리면 훈련 정확도 X가 증가한다고 가정합니다. 이 경우, 증가된 특징 수로 데이터를 적절하게 맞추기 위해 모델이 더 복잡해져야 하기 때문에 훈련 정확도가 증가할 것입니다.

반면에 테스트 정확도는 모델에 추가된 기능이 훌륭하고 중요한 기능인 경우에만 증가합니다. 그렇지 않으면 테스트하는 동안 모델의 정확도가 거의 동일하게 유지됩니다. 따라서 이 질문에 대한 답은 옵션 A와 D가 될 것입니다.

Q14. 로지스틱 회귀의 관점에서 일대다 방법과 관련하여 다음 옵션에서 올바른 옵션을 선택하십시오.

  1. n개의 클래스를 올바르게 분류하려면 총 n개의 모델이 필요합니다.
  2. n개의 클래스를 분류하려면 n-1개의 모델이 필요합니다.
  3. n개의 클래스를 성공적으로 분류하려면 단 하나의 모델만 있으면 됩니다.
  4. 위에서 언급한 옵션이 없습니다.

앤. n개의 서로 다른 클래스를 분류하려면 One vs. All 접근 방식에서 n개의 모델이 필요합니다.

Q15. 아래 그래프를 보고 아래 나열된 옵션 중 하나를 선택하여 질문에 답하십시오. 차트에서 극소값이 몇 개나 됩니까?

  1. 그래프에는 로컬 최소값이 하나만 있습니다.
  2. 이 그래프에는 두 개의 극소값이 있습니다.
  3. 이 그래프에는 세 개의 극소값이 있습니다.
  4. 이 그래프에는 4개의 극소값이 있습니다.

앤. 그래프의 기울기는 4개의 개별 지점(그래프가 U자 모양과 비슷함)에서 0이 되기 때문에 답이 D가 되도록 4개의 국소 최소값을 가질 것이라고 말하는 것이 안전합니다.

또한 읽기: 선형 회귀 대. 로지스틱 회귀

다음은?

기계 학습에 대해 자세히 알아보려면 IIIT-B 및 upGrad의 기계 학습 및 AI PG 디플로마를 확인하세요. 이 PG 디플로마는 일하는 전문가를 위해 설계되었으며 450시간 이상의 엄격한 교육, 30개 이상의 사례 연구 및 과제, IIIT- B 동문 자격, 5개 이상의 실용적인 실습 캡스톤 프로젝트 및 최고의 기업과의 취업 지원.

로지스틱 회귀는 배우기 어렵습니까?

데이터 과학과 관련하여 로지스틱 및 선형 회귀는 다양한 유형의 계산 문제를 해결하는 데 광범위하게 사용됩니다. 그리고 데이터 과학 분야에서 효율적으로 작업하려면 이러한 두 가지 회귀 모델을 모두 이해하고 익숙해야 합니다. 로지스틱 회귀는 방정식의 고급 모델을 사용한다는 이름을 추측할 수 있습니다. 따라서 선형 회귀에 비해 배우기가 더 어렵습니다. 그러나 수학이 작동하는 방식에 대한 기본적인 이해가 있는 경우 이를 기반으로 R 또는 Python 프로그래밍에서 패키지를 만들 수 있습니다.

데이터 과학에서 로지스틱 회귀는 얼마나 중요합니까?

성공적인 데이터 과학자가 되려면 데이터 수집 및 처리, 데이터 이해 및 모델 구축, 결과 평가 및 배포의 파이프라인을 이해하는 것이 필수적입니다. 그리고 로지스틱 회귀는 이 전체 파이프라인 개념을 이해하는 데 매우 중요합니다. 로지스틱 회귀를 이해하면 자동으로 기계 학습 개념을 훨씬 더 잘 이해할 수 있습니다. 또한, 특히 비선형 문제의 경우 로지스틱 회귀만 사용하여 매우 복잡한 문제를 쉽게 해결할 수 있습니다. 로지스틱 회귀는 중요한 통계 도구이며 통계는 기계 학습에서 떼려야 뗄 수 없는 부분입니다. 그리고 신경망을 연구하고 싶다면 로지스틱 회귀를 아는 것이 좋은 출발점이 될 것입니다.

로지스틱 회귀가 실제로 유용합니까?

로지스틱 회귀는 이름에도 불구하고 실제로는 회귀 이상의 분류 프레임워크입니다. 기계 학습에서 이진 분류 문제를 해결하는 데 사용할 수 있는 보다 효율적이고 간단한 방법 또는 알고리즘을 제시합니다. 선형으로 분리 가능한 클래스에 대해 쉽게 실현하고 우수한 성능을 얻을 수 있습니다. 그러나 비선형적인 결정 경계가 여러 개 있는 경우 로지스틱 회귀는 성능이 저하되는 경향이 있습니다. 어떤 경우에는 신경망과 같은 더 컴팩트한 알고리즘이 더 효율적이고 강력하다고 합니다.