데이터 과학 인터뷰 질문 및 답변 – 가장 자주 묻는 15가지

게시 됨: 2019-07-08

취업 면접은 항상 어렵다. 면접에 성공하려면 심층적인 주제 지식뿐만 아니라 자신감과 강한 마음가짐이 필요합니다. 데이터 과학을 준비하는 경우 특히 그렇습니다. 모든 능력을 시험하게 됩니다!

데이터 과학 인터뷰 중에 기본 데이터 과학 질문부터 통계, 데이터 분석, ML 및 딥 러닝에 이르기까지 다양한 주제에 이르는 수많은 질문에 직면해야 합니다. 하지만 그게 다가 아닙니다. 귀하의 소프트 스킬(커뮤니케이션, 팀워크 등)도 테스트됩니다.

준비 과정을 쉽게 하기 위해 가장 자주 묻는 데이터 과학 인터뷰 질문 15가지 목록을 선별했습니다. 우리는 기초부터 시작하여 더 고급 주제와 문제로 넘어갈 것입니다.

자, 더 이상 고민하지 않고 시작하겠습니다!

데이터 과학이란 무엇입니까? 지도 머신 러닝과 비지도 머신 러닝은 어떻게 다릅니까?

쉽게 말해 데이터 사이언스는 데이터를 연구하는 학문입니다. 여기에는 서로 다른 소스에서 데이터를 수집하고, 저장하고, 정리 및 구성하고, 이를 분석하여 의미 있는 정보를 찾아내는 작업이 포함됩니다. 데이터 과학은 수학, 통계 컴퓨터 과학, 기계 학습, 데이터 시각화, 클러스터 분석 및 데이터 모델링의 조합을 사용합니다. 원시 데이터(정형 및 비정형 모두)에서 귀중한 통찰력을 얻고 이러한 통찰력을 사용하여 비즈니스 및 IT 전략에 긍정적인 영향을 미치는 것을 목표로 합니다. 이러한 아이디어는 기업이 프로세스를 최적화하고, 생산성과 수익을 높이고, 마케팅 전략을 간소화하고, 고객 만족도를 높이는 데 도움이 될 수 있습니다.

지도 및 비지도 ML은 다음과 같은 점에서 서로 다릅니다.

지도 ML에서는 입력 데이터에 레이블이 지정됩니다. 비지도 ML에서 입력 데이터는 레이블이 지정되지 않은 상태로 유지됩니다.
지도 ML은 훈련 데이터 세트를 사용하는 반면 비지도 ML은 입력 데이터 세트를 사용합니다.
지도 ML은 예측 목적으로 사용되는 반면 비지도 ML은 분석 목적으로 사용됩니다.
지도 ML은 분류 및 회귀를 가능하게 합니다. 그러나 비지도 ML은 분류, 밀도 추정 및 차원 축소를 가능하게 합니다.

Python 또는 R – 텍스트 분석에 어느 것이 더 낫습니까?

텍스트 분석에 관해서는 Python이 가장 적합한 옵션인 것 같습니다. 사용자 친화적인 데이터 구조와 고성능 데이터 분석 도구가 포함된 Pandas 라이브러리와 함께 제공되기 때문입니다. 또한 Python은 모든 종류의 텍스트 분석 작업에 매우 효율적이고 빠릅니다. R의 경우 머신 러닝 애플리케이션에 가장 적합합니다.

Python에서 지원되는 데이터 유형은 무엇입니까?

Python에는 다음을 포함한 내장 데이터 유형의 배열이 있습니다.

부울
숫자(정수, Long, 부동 소수점, 복소수)
시퀀스(목록, 문자열, 바이트, 튜플)
세트
매핑(사전)
파일 개체

다른 분류 알고리즘은 무엇입니까?

중추적인 분류 알고리즘은 선형 분류기(로지스틱 회귀, 나이브 베이즈 분류기), 결정 트리, 부스트 트리, 랜덤 포레스트, SVM, 커널 추정, 신경망 및 최근접 이웃입니다.

정규 분포란 무엇입니까?

일반적으로 데이터는 왼쪽이나 오른쪽으로 치우쳐 다양한 방식으로 분산되거나 일부 상황에서는 뒤죽박죽이 될 수 있습니다. 그러나 데이터가 중앙값을 중심으로 좌우 치우침 없이 분포되어 종 모양의 곡선 형태로 정규 분포를 이루는 경우가 있을 수 있습니다.

원천

곡선은 대칭 종 모양의 곡선 형태로 확률 변수의 분포를 나타냅니다.

A/B 테스팅의 중요성은 무엇입니까?

A/B 테스팅은 A와 B라는 두 변수를 포함하는 무작위 실험에 대한 통계적 가설 테스팅입니다. A/B 테스팅은 관심 결과를 최대화하기 위해 웹 페이지에 대한 변경이나 변경을 식별하는 데 도움이 됩니다. 기업을 위한 최고의 온라인 판촉 및 마케팅 전략을 결정하는 훌륭한 방법입니다.

선택 편향이란 무엇입니까?

선택 편향은 연구자가 연구할 샘플을 결정할 때 발생하는 '활성' 오류입니다. 이 경우 샘플 데이터가 수집되고 데이터 모델링을 위해 준비되지만 모델이 고려할 미래의 사례 모집단을 실제로 대표하지 않는 특성을 가지고 있습니다. 선택 편향은 표본 데이터의 하위 집합이 체계적으로 선택되고 데이터 분석에서 포함/제외될 때 발생합니다. 선택 편향에는 세 가지 유형이 있습니다.

샘플링 편향: 데이터 세트의 무작위가 아닌 샘플로 인해 데이터 세트의 일부 구성원이 연구에 포함될 가능성이 낮아져 편향된 샘플이 생성될 때 발생하는 체계적인 오류.
시간간격: 데이터 분석 시도가 극단적인 값으로 조기 종료될 때 발생합니다. 그러나 극단값은 가장 큰 분산을 갖는 변수에 의해 더 많이 얻어질 수 있습니다(모든 변수가 유사한 평균을 가지고 있더라도).
소실: 소실 할인 또는 완료 전에 종료된 시험 중 참가자 손실 로 인해 발생합니다.

선형 회귀란 무엇입니까? 선형 회귀에 필요한 가정은 무엇입니까?

선형 회귀는 예측 분석에 사용되는 통계 도구입니다. 이 방법에서 변수(예: Y)의 점수는 다른 변수(예: X)의 점수에서 예측됩니다. 여기서 Y는 기준 변수이고 X는 예측 변수입니다.

선형 회귀에는 네 가지 기본 가정이 있습니다.

종속 변수와 회귀 변수 사이에는 선형 관계가 존재합니다. 따라서 생성된 데이터 모델은 데이터와 동기화됩니다.
데이터의 잔차는 서로 독립적이며 배포됩니다.
설명변수들 사이에는 최소한의 다중공선성이 존재한다.
회귀선 주변의 분산이 예측 변수의 모든 값에 대해 동일함을 의미하는 '등분산성'이 있습니다.

교차 검증이란 무엇입니까?

교차 검증은 모델 검증 절차에 사용됩니다. 여기서 목표는 과적합과 같은 문제를 제한하고 물론 모델이 독립 데이터 세트로 일반화되는 방식을 결정하기 위해 훈련 단계에서 모델을 테스트하기 위해 검증 데이터 세트를 명명하는 것입니다.

교차 검증(CV)은 기계 학습 모델의 효율성을 테스트하기 위해 사용되는 모델 검증 기술입니다. 제한된 데이터의 경우 모델을 평가하는 데 사용되는 재표본 방법이기도 합니다. 교차 검증 방법에서 데이터의 일부는 테스트 및 검증을 위해 따로 남겨두고 통계 분석 결과가 독립 데이터 세트로 일반화되는 방법을 결정하는 데 사용됩니다.

이항 확률 공식이란 무엇입니까?

이항 확률 분포는 각각 π(pi)의 발생 확률을 갖는 독립적인 사건에 대한 N번의 시행 중 각 가능한 성공 수의 확률을 고려합니다. 이항 확률 분포 공식은 다음과 같습니다.

일변량, 이변량 및 다변량 분석의 차이점은 무엇입니까?

일변량 분석은 특정 시점에 관련된 변수의 수(예: 특정 지역에서 제품의 판매를 나타내는 원형 차트)를 기반으로 차별화할 수 있는 기술 통계적 분석 기법을 말합니다. 이와 반대로 이변량 분석은 산점도에서와 같이 한 번에 두 변수 간의 차이를 이해하고 결정하는 것을 목표로 합니다(예: 판매량과 지출 간의 관계).

다변수 분석은 반응/결과에 대한 변수의 영향을 이해하기 위해 2개 이상의 변수에 대한 연구를 포함합니다.

인공 신경망이란 무엇입니까?

간단히 말해서 인공 신경망(ANN)은 인간의 두뇌를 본떠 설계된 컴퓨팅 시스템을 의미합니다. 인간의 뇌와 마찬가지로 ANN은 동물 종의 뉴런에서 영감을 받은 기능을 가진 인공 뉴런으로 알려진 수많은 단순 처리 요소로 구성됩니다. ANN은 경험을 통해 학습하고 변화하는 입력에 적응할 수 있으므로 네트워크가 출력 기준을 다시 설계하지 않고도 가능한 최상의 결과를 생성할 수 있습니다.

순환 신경망(RNN)이란 무엇입니까?

순환 신경망(RNN)은 노드 연결이 시간 순서를 따라 방향 그래프를 생성하여 시간 동적 동작을 나타내는 인공 신경망의 한 유형입니다. RNN을 이해하려면 먼저 피드포워드 네트의 작동을 이해해야 합니다. 피드포워드 네트워크는 동일한 노드를 두 번 터치하지 않고 직선으로 정보를 전달하는 반면 순환 신경망은 루프와 같은 프로세스를 통해 정보를 순환합니다. 피드포워드 신경망과 달리 RNN은 내부 메모리를 사용하여 입력 시퀀스를 처리할 수 있습니다. 따라서 RNN은 필기 인식 및 음성 인식과 같이 분할되지 않거나 연결된 작업에 가장 적합합니다.
상위 17개 데이터 분석가 인터뷰 질문 및 답변

역전파란?

역전파는 다층 신경망 훈련에 사용되는 지도 학습 알고리즘을 말합니다. 역전파를 통해 네트워크 끝에서 네트워크 내부의 모든 가중치로 오류를 이동할 수 있으므로 기울기를 효율적으로 계산할 수 있습니다. 기울기 하강법을 사용하여 가중치 공간에서 오차 함수의 최소값을 찾습니다. 오차 함수를 최소화하는 가중치는 학습 문제에 대한 솔루션으로 간주됩니다.

역전파에는 다음 단계가 포함됩니다.
훈련 데이터의 순방향 전파.
출력과 목표를 사용하여 도함수를 계산합니다.
오류의 파생물을 계산하기 위해 뒤로 전파합니다.
출력을 위해 이전에 계산된 도함수를 사용합니다.
업데이트된 가중치 값을 계산하고 가중치를 업데이트합니다.

경사하강법을 설명합니다.

Gradient Descent를 이해하려면 먼저 Gradient가 무엇인지 이해해야 합니다. 기울기는 입력의 작은 변화와 관련하여 특정 함수의 출력이 얼마나 변하는지 측정한 것입니다. 그것은 오류의 변화에 대한 응답으로 모든 가중치의 변화를 측정합니다. 즉, 기울기는 함수의 기울기입니다.

경사하강법은 비용 함수(cost)를 최소화하는 함수(f)의 매개변수(계수) 값을 찾는 데 도움이 되는 최적화 알고리즘입니다. 매개변수를 분석적으로 계산할 수 없는 경우에 가장 적합합니다.

결론

결론적으로 인터뷰를 준비하는 데 유일한 방법이나 최선의 방법은 없다는 것을 알아야 합니다. 지식 기반, 자신감과 접근 방식, 약간의 운에 관한 모든 것입니다. 이것은 데이터 과학 질문의 일부일 뿐이지만 데이터 과학 인터뷰에서 질문할 수 있는 유형의 질문에 대한 대략적인 아이디어를 제공하기를 바랍니다. 즉, 잘 준비하고 최선을 다하십시오!

세계 최고의 대학에서 데이터 과학 과정 을 배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

데이터 과학 인터뷰에서 몇 라운드가 있습니까?

1~2회의 프로그래밍 인터뷰가 필요할 수 있지만 이는 전적으로 지원하는 회사에 따라 다릅니다. 일부 회사에서는 인터뷰 프로세스를 최대 6라운드까지 진행합니다. 가장 자주 묻는 질문을 조사하고 가장 일반적이고 어려운 질문의 목록을 작성한 다음 인터뷰 전에 해당 질문을 분석하여 각 질문에 대한 답변을 준비할 수 있습니다.

데이터 과학 면접관이 찾는 자질은 무엇입니까?

데이터 과학 인터뷰에 응하려면 산술, 통계, 프로그래밍 언어, 비즈니스 인텔리전스 기초, 그리고 물론 기계 학습 기술에 대해 많이 알아야 합니다. 귀하의 데이터 능력이 회사 선택 및 전략과 어떤 관련이 있는지 보여달라는 요청을 가장 많이 받게 될 것입니다. 오늘날의 시장에서 거의 모든 데이터 과학 작업에는 코딩 인터뷰가 필요합니다. 데이터 과학자의 역할에는 많은 회사에서 데이터 파이프라인 및 기계 학습 모델과 같은 프로덕션 코드를 릴리스하는 것이 포함됩니다. 이러한 성격의 프로젝트의 경우 강력한 프로그래밍 능력도 필요하므로 인터뷰에서 SQL 및 Python 질문도 예상할 수 있습니다.

LinkedIn을 통해 데이터 과학자 직업을 얻을 수 있습니까?

요즘 LinkedIn의 힘을 간과해서는 안 됩니다. LinkedIn은 기본적으로 디지털 이력서입니다. 회사와 채용 담당자는 LinkedIn에서 자격이 있는 후보자를 계속 찾고 있으므로 인상적인 LinkedIn 프로필을 구축하고 계속해서 일자리를 찾고 LinkedIn에서 채용 공고에 지원하는 것이 중요합니다. 프로필에 관련 기술을 추가하고 계속해서 모든 직업적 성취를 추가하십시오. 이렇게 하면 LinkedIn에서 합당한 데이터 과학 직업을 얻을 가능성이 높습니다.