반드시 읽어야 하는 26개의 데이터 분석가 인터뷰 질문 및 답변: Ultimate Guide 2022
게시 됨: 2021-01-07데이터 분석가 인터뷰 에 참석하여 어떤 질문과 토론을 하게 될지 궁금하십니까? 데이터 분석 인터뷰에 참석하기 전에 데이터 분석가 인터뷰 질문 의 유형에 대한 아이디어를 가지고 마음속으로 답변을 준비할 수 있도록 하는 것이 좋습니다.
이 기사에서는 가장 중요한 데이터 분석가 인터뷰 질문과 답변 을 살펴보겠습니다. 데이터 과학과 데이터 분석은 현재 업계에서 번창하고 있는 분야입니다. 당연히 이러한 영역의 경력은 급증하고 있습니다. 데이터 과학 영역에서 경력을 쌓을 때 가장 좋은 점은 선택할 수 있는 다양한 직업 옵션을 제공한다는 것입니다!
전 세계의 조직은 빅데이터를 활용하여 전반적인 생산성과 효율성을 높이고 있으며, 이는 필연적으로 데이터 분석가, 데이터 엔지니어, 데이터 과학자와 같은 전문 데이터 전문가에 대한 수요도 기하급수적으로 증가하고 있음을 의미합니다. 그러나 이러한 일자리를 얻으려면 기본 자격만으로는 충분하지 않습니다. 데이터 과학 인증을 보유하면 프로필의 비중이 높아집니다.
가장 까다로운 부분인 면접을 치워야 합니다. 걱정하지 마세요. 이 데이터 분석가 인터뷰 질문 및 답변 가이드 는 질문의 깊이와 실제 의도를 이해하기 위해 만들었습니다.
목차
최고의 데이터 분석가 인터뷰 질문 및 답변
1. 데이터 분석가가 되기 위한 주요 요구 사항은 무엇입니까?
이 데이터 분석가 인터뷰 질문은 데이터 과학자가 되기 위해 필요한 기술에 대한 지식을 테스트합니다.
데이터 분석가가 되려면 다음이 필요합니다.
- 프로그래밍 언어(XML, Javascript 또는 ETL 프레임워크), 데이터베이스(SQL, SQLite, Db2 등)에 정통하고 보고 패키지(Business Objects)에 대한 광범위한 지식도 있어야 합니다.
- 빅 데이터를 효율적으로 분석, 구성, 수집 및 보급할 수 있습니다.
- 데이터베이스 설계, 데이터 마이닝 및 세분화 기술과 같은 분야에 상당한 기술 지식이 있어야 합니다.
- SAS, Excel 및 SPSS와 같은 대규모 데이터 세트를 분석하기 위한 통계 패키지에 대한 충분한 지식이 있어야 합니다.
2. 데이터 분석가의 중요한 책임은 무엇입니까?
데이터 분석가 인터뷰에서 가장 많이 받는 질문입니다. 당신의 직업이 무엇을 수반하는지에 대한 명확한 아이디어가 있어야 합니다.
수행하려면 데이터 분석가가 필요합니다.
다음 작업:
- 여러 소스에서 데이터를 수집 및 해석하고 결과를 분석합니다.
- 여러 소스에서 수집한 데이터를 필터링하고 "정리"합니다.
- 데이터 분석의 모든 측면을 지원합니다.
- 복잡한 데이터 세트를 분석하고 그 안에 숨겨진 패턴을 식별합니다.
- 데이터베이스를 안전하게 유지하십시오.
3. "데이터 정리"란 무엇을 의미합니까? 이것을 실천하는 가장 좋은 방법은 무엇입니까?
데이터 분석가 직업을 찾고 있다면 이것은 가장 자주 묻는 데이터 분석가 인터뷰 질문 중 하나입니다.
데이터 정리는 주로 데이터 품질을 향상시키기 위해 데이터에서 오류와 불일치를 감지하고 제거하는 프로세스를 말합니다.
데이터를 정리하는 가장 좋은 방법은 다음과 같습니다.
- 각각의 속성에 따라 데이터를 분리합니다.
- 큰 데이터 청크를 작은 데이터 세트로 나눈 다음 정리합니다.
- 각 데이터 열의 통계를 분석합니다.
- 일반적인 청소 작업을 처리하기 위한 유틸리티 기능 또는 스크립트 세트 생성.
- 필요한 경우 데이터 세트에서 쉽게 추가하거나 제거할 수 있도록 모든 데이터 정리 작업을 추적합니다.
4. 데이터 분석에 사용되는 가장 좋은 도구의 이름을 지정하십시오.
가장 많이 사용되는 도구에 대한 질문은 대부분의 데이터 분석 인터뷰 질문에서 찾을 수 있는 것입니다.
데이터 분석에 가장 유용한 도구는 다음과 같습니다.
- Tableau
- 구글 퓨전 테이블
- Google 검색 연산자
- 크나메
- RapidMiner
- 솔버
- 오픈리파인
- 노드XL
- 아이오
체크아웃: 인도의 데이터 분석가 급여
5. 데이터 프로파일링과 데이터 마이닝의 차이점은 무엇입니까?
데이터 프로파일링은 데이터의 개별 속성을 분석하는 데 중점을 두어 데이터 유형, 빈도, 길이와 같은 데이터 속성에 대한 귀중한 정보를 개별 값 및 값 범위와 함께 제공합니다. 반대로 데이터 마이닝은 몇 가지 예를 들어 비정상적인 레코드 식별, 데이터 클러스터 분석, 시퀀스 발견을 목표로 합니다.
6. KNN 전가법이란?
KNN 대치 방법은 누락된 속성 값에 가장 가까운 속성 값을 사용하여 누락된 속성의 값을 대치하려고 합니다. 두 속성 값 간의 유사성은 거리 함수를 사용하여 결정됩니다.
7. 데이터 분석가는 누락되거나 의심되는 데이터에 대해 어떻게 해야 합니까?
이러한 경우 데이터 분석가는 다음을 수행해야 합니다.
- 삭제 방법, 단일 대치 방법 및 모델 기반 방법과 같은 데이터 분석 전략을 사용하여 누락된 데이터를 감지합니다.
- 의심되거나 누락된 데이터에 대한 모든 정보가 포함된 검증 보고서를 준비합니다.
- 의심스러운 데이터를 면밀히 조사하여 유효성을 평가합니다.
- 모든 유효하지 않은 데이터(있는 경우)를 적절한 검증 코드로 교체하십시오.
8. 데이터 분석가가 사용하는 다양한 데이터 검증 방법의 이름을 지정하십시오.
데이터 세트의 유효성을 검사하는 방법에는 여러 가지가 있습니다. 데이터 분석가가 가장 일반적으로 사용하는 데이터 유효성 검사 방법은 다음과 같습니다.
- 필드 수준 유효성 검사 – 이 방법에서는 사용자가 데이터를 입력할 때 각 필드에서 데이터 유효성 검사가 수행됩니다. 진행하면서 오류를 수정하는 데 도움이 됩니다.
- 양식 수준 유효성 검사 – 이 방법에서는 사용자가 양식을 완성하고 제출한 후 데이터의 유효성을 검사합니다. 전체 데이터 입력 양식을 한 번에 확인하고 모든 필드의 유효성을 검사하고 오류(있는 경우)를 강조 표시하여 사용자가 수정할 수 있도록 합니다.
- 데이터 저장 유효성 검사 – 이 데이터 유효성 검사 기술은 실제 파일 또는 데이터베이스 레코드를 저장하는 과정에서 사용됩니다. 일반적으로 여러 데이터 입력 양식의 유효성을 검사해야 할 때 수행됩니다.
- 검색 기준 유효성 검사 – 이 유효성 검사 기술은 검색된 키워드 또는 구에 대해 사용자에게 정확하고 관련된 일치 항목을 제공하는 데 사용됩니다. 이 유효성 검사 방법의 주요 목적은 사용자의 검색어가 가장 관련성이 높은 결과를 반환할 수 있도록 하는 것입니다.
9. 이상값 정의
데이터 분석가 인터뷰 질문 및 답변 가이드는 이 질문 없이 완성되지 않습니다. 이상치는 데이터 분석가가 샘플의 세트 패턴에서 멀리 떨어져 있고 다른 것으로 보이는 값을 언급할 때 일반적으로 사용하는 용어입니다. 이상값에는 단변량과 다변량의 두 가지 종류가 있습니다.
이상값을 감지하는 데 사용되는 두 가지 방법은 다음과 같습니다.
- 상자 그림 방법 – 이 방법에 따르면 값이 1.5*IQR(사분위수 범위)보다 높거나 낮아서 상위 사분위수(Q3)보다 높거나 하위 사분위수(Q1)보다 낮으면 값이 이상값입니다. .
- 표준 편차 방법 – 이 방법은 값이 평균 ±(3*표준 편차)보다 높거나 낮으면 이상값임을 나타냅니다. 탐색적 데이터 분석 및 비즈니스에 대한 중요성
10. "클러스터링"이란 무엇입니까? 클러스터링 알고리즘의 속성 이름을 지정합니다.
클러스터링은 데이터를 클러스터와 그룹으로 분류하는 방법입니다. 클러스터링 알고리즘에는 다음과 같은 속성이 있습니다.

- 계층적 또는 플랫
- 단단하고 부드러움
- 반복적 인
- 접속사
11. K-평균 알고리즘이란 무엇입니까?
K-mean은 객체를 K개의 그룹으로 분류하는 분할 기법입니다. 이 알고리즘에서 클러스터는 구형이며 데이터 포인트는 해당 클러스터 주위에 정렬되며 클러스터의 분산은 서로 유사합니다.
12. "협업 필터링"을 정의합니다.
협업 필터링은 사용자의 행동 데이터를 기반으로 추천 시스템을 생성하는 알고리즘입니다. 예를 들어, 온라인 쇼핑 사이트는 일반적으로 검색 기록 및 이전 구매를 기반으로 "추천" 항목 목록을 작성합니다. 이 알고리즘의 중요한 구성 요소에는 사용자, 개체 및 관심이 포함됩니다.
13. 데이터 분석가에게 매우 유익한 통계 방법의 이름은 무엇입니까?
데이터 분석가가 주로 사용하는 통계 방법은 다음과 같습니다.
- 베이지안 방법
- 마르코프 과정
- 심플렉스 알고리즘
- 돌리기
- 공간 및 클러스터 프로세스
- 순위 통계, 백분위수, 이상값 감지
- 수학적 최적화
14. N-그램이란 무엇입니까?
n-gram은 주어진 텍스트 또는 음성에서 n개 항목의 연결된 시퀀스입니다. 정확히는 N-gram은 (n-1)과 같이 특정 시퀀스의 다음 항목을 예측하는 데 사용되는 확률적 언어 모델입니다.
15. 해시 테이블 충돌이란 무엇입니까? 어떻게 예방할 수 있습니까?
이것은 중요한 데이터 분석가 인터뷰 질문 중 하나입니다. 두 개의 개별 키가 공통 값으로 해시되면 해시 테이블 충돌이 발생합니다. 즉, 동일한 슬롯에 두 개의 다른 데이터를 저장할 수 없습니다.
해시 충돌은 다음을 통해 피할 수 있습니다.
- 개별 연결 – 이 방법에서 데이터 구조는 공통 슬롯에 해싱되는 여러 항목을 저장하는 데 사용됩니다.
- 개방형 주소 지정 – 이 방법은 빈 슬롯을 찾아 사용 가능한 첫 번째 빈 슬롯에 항목을 저장합니다.
16. "시계열 분석"을 정의합니다.
계열 분석은 일반적으로 시간 영역과 주파수 영역의 두 가지 영역에서 수행할 수 있습니다.
시계열 분석은 지수 평활화, 로그 선형 회귀 방법 등의 기법을 사용하여 과거에 수집된 데이터를 분석하여 프로세스의 출력 예측을 수행하는 방법입니다.
17. 다중 소스 문제를 어떻게 해결해야 합니까?
다중 소스 문제를 해결하려면 다음이 필요합니다.
- 유사한 데이터 레코드를 식별하고 중복성을 제외한 모든 유용한 속성을 포함하는 하나의 레코드로 결합합니다.
- 스키마 재구성을 통해 스키마 통합을 촉진합니다.
18. 데이터 분석 프로젝트의 단계를 언급하십시오.
데이터 분석 프로젝트의 핵심 단계는 다음과 같습니다.
- 데이터 분석 프로젝트의 가장 중요한 요구 사항은 비즈니스 요구 사항에 대한 심층적인 이해입니다.
- 두 번째 단계는 비즈니스 요구 사항에 가장 잘 맞는 가장 관련성이 높은 데이터 소스를 식별하고 신뢰할 수 있고 검증된 소스에서 데이터를 얻는 것입니다.
- 세 번째 단계는 데이터 세트를 탐색하고, 데이터를 정리하고, 데이터를 정리하여 당면한 데이터를 더 잘 이해하는 것입니다.
- 네 번째 단계에서 데이터 분석가는 데이터를 검증해야 합니다.
- 다섯 번째 단계는 데이터 세트를 구현하고 추적하는 것입니다.
- 마지막 단계는 가장 가능성 있는 결과 목록을 만들고 원하는 결과가 달성될 때까지 반복하는 것입니다.
19. 데이터 분석가가 데이터 분석을 수행하는 동안 발생할 수 있는 문제는 무엇입니까?
알아야 할 중요한 데이터 분석가 인터뷰 질문입니다. 데이터 분석가는 데이터 분석을 수행하는 동안 다음과 같은 문제에 직면할 수 있습니다.
- 중복 항목 및 철자 오류의 존재. 이러한 오류는 데이터 품질을 저하시킬 수 있습니다.
- 신뢰할 수 없는 출처에서 얻은 품질이 낮은 데이터. 이러한 경우 데이터 분석가는 데이터를 정리하는 데 상당한 시간을 소비해야 합니다.
- 여러 소스에서 추출한 데이터는 표현이 다를 수 있습니다. 수집된 데이터를 정제 및 정리한 후 결합하면 데이터 표현의 차이로 인해 분석 프로세스가 지연될 수 있습니다.
- 불완전한 데이터는 데이터 분석 프로세스의 또 다른 주요 과제입니다. 그것은 필연적으로 잘못된 또는 잘못된 결과로 이어질 것입니다.
20. 좋은 데이터 모델의 특징은 무엇입니까?
데이터 모델이 양호한 것으로 간주되고 개발되려면 다음 특성을 나타내야 합니다.
- 결과를 정확하게 또는 적어도 거의 정확하게 추정할 수 있도록 예측 가능한 성능을 가져야 합니다.
- 때때로 증가하는 비즈니스 요구 사항을 수용할 수 있도록 변화에 적응하고 대응해야 합니다.
- 데이터의 변화에 비례하여 확장할 수 있어야 합니다.
- 고객/고객이 가시적이고 수익성 있는 결과를 얻을 수 있도록 소모품이어야 합니다.
21. 분산과 공분산을 구별합니다.
분산과 공분산은 모두 통계적 용어입니다. 분산은 평균 값과 관련하여 두 숫자(수량)가 얼마나 멀리 떨어져 있는지 나타냅니다. 따라서 두 수량 간의 관계의 크기(데이터가 평균 주위에 얼마나 퍼져 있는지)만 알 수 있습니다. 반대로, 공분산은 두 확률 변수가 함께 어떻게 변할지를 나타냅니다. 따라서 공분산은 두 양이 서로에 대해 어떻게 변하는지에 대한 방향과 크기를 모두 제공합니다.
22. "정규 분포"를 설명하십시오.
인기있는 데이터 분석가 인터뷰 질문 중 하나입니다. 벨 곡선 또는 가우스 곡선으로 더 잘 알려진 정규 분포는 변수 값이 어떻게 분포하는지, 즉 평균과 표준 편차가 어떻게 다른지 설명하고 측정하는 확률 함수를 나타냅니다. 곡선에서 분포는 대칭입니다. 대부분의 관측값은 중심 피크 주변에 모여 있지만 값에 대한 확률은 평균에서 더 멀어져 양방향으로 균등하게 테이퍼링됩니다.
23. 일변량, 이변량 및 다변량 분석을 설명합니다.
일변량 분석은 단일 변수를 포함하는 데이터 세트에 적용되는 기술적인 통계 기법을 나타냅니다. 일변량 분석은 값의 범위와 값의 중심 경향을 고려합니다.
이변량 분석은 두 변수를 동시에 분석하여 이들 간의 경험적 관계 가능성을 탐색합니다. 두 변수 사이에 연관성이 있는지 여부와 연관성의 강도 또는 변수 간에 차이가 있는지, 그리고 이러한 차이의 중요성이 무엇인지 확인하려고 시도합니다.
다변수 분석은 이변수 분석의 확장입니다. 다변량 통계의 원리에 따라 다변량 분석은 여러 변수(2개 이상의 독립 변수)를 동시에 관찰 및 분석하여 개별 피험자에 대한 종속 변수 값을 예측합니다.
24. R-제곱과 조정된 R-제곱의 차이점을 설명합니다.
R-제곱 기법은 독립 변수로 설명되는 종속 변수의 변동 비율에 대한 통계적 측도입니다. 조정된 R-제곱은 기본적으로 모델의 예측 변수 수에 맞게 조정된 R-제곱의 수정된 버전입니다. 종속 변수에 직접적인 영향을 미치는 특정 독립 변수에 의해 설명되는 변동의 백분율을 제공합니다.
25. 버전 관리의 장점은 무엇입니까?
버전 관리의 주요 이점은 다음과 같습니다.
- 파일을 비교하고 차이점을 식별하며 변경 사항을 원활하게 통합할 수 있습니다.
- 개발, 테스트, QA 및 프로덕션과 같은 범주에 속하는 버전을 식별하여 애플리케이션 빌드를 추적하는 데 도움이 됩니다.
- 중앙 서버가 고장난 경우에 유용할 수 있도록 프로젝트 파일의 전체 기록을 유지 관리합니다.
- 코드 파일의 여러 버전과 변형을 안전하게 저장하고 유지하는 데 탁월합니다.
- 그것은 당신이 다른 파일의 내용에 적용된 변경 사항을 볼 수 있습니다.
26. 데이터 분석가는 Excel 시트에서 음수 값이 포함된 셀을 어떻게 강조 표시할 수 있습니까?
데이터 분석가 인터뷰 질문 및 답변 가이드의 마지막 질문입니다. 데이터 분석가는 조건부 서식을 사용하여 Excel 시트에서 음수 값이 있는 셀을 강조 표시할 수 있습니다. 조건부 서식의 단계는 다음과 같습니다.
- 먼저 음수 값이 있는 셀을 선택합니다.
- 이제 홈 탭으로 이동하여 조건부 서식 옵션을 선택합니다.
- 그런 다음 하이라이트 셀 규칙으로 이동하여 보다 작음 옵션을 선택합니다.
- 마지막 단계에서 보다 작음 옵션의 대화 상자로 이동하여 값으로 "0"을 입력해야 합니다.
결론
이것으로 데이터 분석가 인터뷰 질문 및 답변 가이드 목록이 끝났습니다. 이러한 데이터 분석가 인터뷰 질문은 가능한 질문의 방대한 풀에서 선택되지만 데이터 분석가 지망생이라면 직면할 가능성이 가장 높은 질문입니다. 이러한 질문은 모든 데이터 분석가 인터뷰의 기반이 되며, 이에 대한 답변을 아는 것은 분명 큰 도움이 될 것입니다!
심도 있는 데이터 분석, 빠르게 변화하는 기술 발전의 선두에 서기 위한 데이터 과학에 대해 배우고 싶다면 upGrad & IIIT-B의 데이터 과학 PG 프로그램을 확인하십시오.
데이터 분석 산업의 인재 동향은 무엇입니까?
데이터 과학이 점진적으로 성장함에 따라 일부 영역에서도 상당한 성장이 이루어지고 있습니다. 이러한 영역은 다음과 같습니다. 데이터 과학 및 데이터 분석 산업이 크게 성장함에 따라 점점 더 많은 데이터 엔지니어의 공석이 생성되고 이에 따라 더 많은 IT 전문가에 대한 수요가 증가합니다. 기술의 발전과 함께 데이터 과학자의 역할은 점차 진화하고 있습니다. 분석 작업이 자동화되고 있어 데이터 과학자들은 뒷걸음질을 치고 있습니다. 자동화는 데이터 과학자가 현재 시간의 70-80%를 소비하는 데이터 준비 작업을 차지할 수 있습니다.
클러스터 분석과 그 특성을 설명합니다.
레이블을 지정하지 않고 객체를 정의하는 프로세스를 클러스터 분석이라고 합니다. 판별 분석에서와 같이 데이터 마이닝을 사용하여 다양한 유사한 개체를 단일 클러스터로 그룹화합니다. 응용 분야에는 패턴 인식, 정보 분석, 이미지 분석, 머신 러닝, 컴퓨터 그래픽 및 기타 다양한 분야가 포함됩니다. 클러스터 분석은 여러 면에서 서로 다른 여러 알고리즘을 사용하여 클러스터를 생성하는 작업입니다. 다음은 클러스터 분석의 일부 특성입니다. 클러스터 분석은 확장성이 뛰어납니다. 다른 속성 집합을 처리할 수 있습니다. 그것은 높은 차원, 해석 가능성을 보여줍니다. 머신러닝, 정보수집 등 다양한 분야에서 유용합니다.
이상치는 무엇이며 어떻게 처리합니까?
이상치는 데이터의 이상 또는 약간의 편차를 나타냅니다. 데이터 수집 중에 발생할 수 있습니다. 데이터 세트에서 이상치를 감지하는 4가지 방법이 있습니다. 이러한 방법은 다음과 같습니다. Boxplot은 사분위수를 통해 데이터를 분리하는 이상값을 감지하는 방법입니다. 산점도는 데카르트 평면에 표시된 점 집합의 형태로 2개의 변수 데이터를 표시합니다. 한 변수의 값은 가로축(x-ais)을 나타내고 다른 변수의 값은 세로축(y-축)을 나타냅니다. Z-score를 계산할 때 중심에서 멀리 떨어져 있는 점을 찾아 이상치로 간주합니다.