초심자와 경험자를 위한 상위 28개 데이터 엔지니어 인터뷰 질문 및 답변

게시 됨: 2020-03-11

면접을 준비하고 있는데 어떻게 해야 할지 모르겠다고요? 데이터 엔지니어 인터뷰 질문 및 답변 목록으로 시작할 수 있습니다.

데이터 엔지니어 인터뷰 는 해독하기 가장 어려운 것 중 하나입니다. 당신이 알아야 할 것이 너무 많습니다. 그러나 인터뷰 질문 목록이 이와 관련하여 도움이 될 것이므로 걱정하지 마십시오. 이 목록을 살펴보고 나면 채용 담당자가 던질 수 있는 많은 중요한 질문에 대한 답변을 알게 될 것입니다. 또한 이 목록은 면접을 준비하는 동안 공부하고 배워야 할 사항에 대한 아이디어를 제공합니다.

시작하자.

최고의 데이터 엔지니어 인터뷰 질문 및 답변

Q.1 – 데이터 엔지니어링이란 무엇입니까?

데이터 엔지니어링은 정보 시스템을 개발하고 설계하기 위한 소프트웨어 엔지니어링 접근 방식입니다. 데이터 수집 및 분석에 중점을 두고 있습니다. 데이터 과학자가 빅데이터로 다양한 작업을 수행하는 동안 누군가는 이 모든 데이터를 먼저 수집해야 하고 데이터 엔지니어는 그 작업을 수행합니다. 데이터 엔지니어는 데이터베이스의 개발 및 유지 관리도 담당합니다. 데이터 엔지니어는 원시 데이터를 사용 가능한 데이터로 변환합니다.

Q.2 – 데이터 모델링이란 무엇을 이해합니까?

데이터를 추적할 수 있도록 정보 시스템에 대한 데이터 모델을 생성하는 것을 데이터 모델링이라고 합니다. 이러한 데이터 모델은 DB(데이터베이스)의 테이블이 됩니다. 예를 들어 고객 행동을 분석하려는 경우 데이터베이스의 모든 고객은 데이터 모델이 됩니다. 규칙과 관련된 데이터 값의 개념적 표현입니다.

Q.3 – Hadoop이란 무엇입니까?

Hadoop은 빅 데이터와 관련된 문제를 해결하기 위해 여러 컴퓨터의 네트워크를 사용할 수 있게 해주는 유틸리티의 오픈 소스 소프트웨어 모음입니다. 대량의 데이터를 처리할 수 있는 다양한 구성 요소가 있습니다. Hadoop의 개발자는 Apache 재단입니다. 광범위한 유틸리티 및 구성 요소 모음을 통해 많은 강력한 빅 데이터 응용 프로그램을 효율적으로 수행할 수 있습니다.

Q.4 – Hadoop의 다른 구성 요소는 무엇입니까?

Hadoop은 크게 HDFS, MapReduce, YARN, Hadoop Common의 4가지 구성요소로 구성되어 있습니다.

HDFS는 Hadoop의 모든 데이터를 저장하는 파일 시스템입니다. 분산 스토리지 시스템으로서 높은 대역폭을 가지고 있습니다.

MapReduce는 많은 양의 데이터를 처리합니다. YARN은 Hadoop의 자원 관리이며 그에 따라 필요한 자원을 할당합니다. Hadoop Common은 Hadoop에서 사용할 수 있는 라이브러리 및 유틸리티 그룹입니다.

Q.5 – HDFS는 무엇을 의미합니까?

HDFS는 Hadoop 구성 요소입니다. HDFS는 Hadoop 분산 파일 시스템을 의미합니다.

Q.6 – 네임노드란 무엇입니까?

NameNode는 HDFS의 데이터 저장소의 일부이며 클러스터에 있는 다양한 파일을 추적합니다. NameNode는 데이터를 저장하지 않습니다. HDFS가 실제 데이터를 저장하는 DataNode의 메타데이터를 저장합니다.

Q.7 – 비정형 데이터와 정형 데이터의 차이점은 무엇입니까?

시스템은 비정형 데이터를 관리되지 않는 파일 구조에 저장하는 반면 정형 데이터는 DBMS로 저장합니다. 구조화된 데이터의 스키마 확장은 어렵지만 구조화되지 않은 데이터로 수행하는 것은 매우 쉽습니다. 구조화된 데이터에는 ELT(추출, 변환 및 로드)를 사용합니다. 반면에 일괄 처리 또는 데이터 입력을 수행해야 합니다.

Q.8 – 데이터 모델링에는 몇 가지 유형의 디자인 스키마가 있습니까? 그들은 무엇인가?

데이터 모델링에는 Snowflake 스키마와 Star 스키마라는 두 가지 유형의 디자인 스키마가 있습니다.

Q.9 – 블록 스캐너가 손상된 데이터 블록을 찾으면 어떻게 됩니까? 설명.

이것은 인기 있는 데이터 엔지니어 인터뷰 질문 중 하나입니다. 따라서 Block Scanner가 손상된 데이터 블록을 찾을 때 DataNode가 이를 NameNode에 보고하기 전에 미리 준비하십시오. 그런 다음 NameNode는 기존 모델 중 하나를 사용하여 손상된 블록의 복제본을 만들기 시작합니다. 시스템이 손상된 데이터 블록을 삭제하지 않으면 복제 요소가 있는 만큼의 복제본을 생성합니다. 복제 횟수는 동일해야 합니다.

Q.10 – Hadoop에 있는 모든 XML 구성 파일의 이름을 지정하십시오.

Hadoop에 존재하는 XML 설정 파일은 HDFS-site, Mapred-site, Yarn-site, Core-site이다.

Q.11 – HDFS에서 블록이란 무엇입니까? 블록 스캐너 란 무엇입니까?

Hadoop에서 블록은 데이터의 가장 작은 단위입니다. 블록 스캐너는 DataNode에 있는 블록을 확인하고 확인하는 구성 요소입니다. Hadoop은 저장 용이성을 위해 큰 데이터 파일을 작은 데이터 블록으로 나눕니다.

Q.12- DataNode는 NameNode에 어떤 메시지를 보내나요?

DataNode는 NameNode에 신호를 보내 작동 중임을 알립니다. 이러한 신호의 이름은 Heartbeat입니다. 그리고 DataNodes가 하트비트를 보내지 못하면 NameNode는 그것이 죽고 작동을 멈췄다고 판단합니다.

Q.13 – 빅 데이터의 중심 V를 기술하십시오.

빅 데이터의 4가지 중심 V는 Velocity, Variety, Volume, Veracity입니다.

Q.14 – COSHH는 무엇을 의미합니까?

COSHH는 이기종 Hadoop 시스템에 대한 분류 및 최적화 기반 일정을 나타냅니다.

Q.15 – 스타 스키마를 설명할 수 있습니까?

스타 스키마는 스타와 유사한 구조를 가지고 있습니다. 그래서 이름이 있습니다. 별의 중심에는 관련된 다양한 차원 테이블이 있는 팩트 테이블이 있을 수 있습니다. 데이터 엔지니어는 이를 사용하여 상당한 데이터 세트를 쿼리합니다.

Q.16 – Snowflake 스키마란 무엇입니까?

눈송이 스키마는 스타 스키마의 한 형태입니다. 유일한 차이점은 추가 치수가 있으며 눈송이와 같은 구조에서 이름이 파생된다는 것입니다. 다른 테이블이 있기 때문에 정규화된 차원 테이블이 있습니다.

Q.17- Hadoop에서 Reducer의 핵심 메소드는 무엇입니까?

Reducer에는 몇 가지 핵심 메서드가 있습니다. 첫 번째는 매개변수를 구성하는 setup()이고, 임시 데이터 세트를 정리하는 cleanup()이며, Reducer는 모든 축소된 작업에 대해 reduce() 메서드를 실행합니다.

Q.18 – FSCK란 무엇입니까?

FSCK는 파일 시스템 검사를 의미합니다. HDFS의 명령으로 이 명령을 사용하여 파일의 문제와 불일치를 감지합니다.

Q.19 – Hadoop에는 여러 모드가 있습니까? 그렇다면 그들은 무엇입니까?

예, Hadoop에는 세 가지 고유한 모드가 있습니다. 독립 실행형 모드, 완전 분산 모드 및 의사 분산 모드입니다.

Q.20 – YARN은 무엇을 의미합니까?

YARN은 Yet Another Resource Negotiator의 약자입니다.

Q.21 – Hadoop을 어떻게 보호합니까?

이를 위해 먼저 저장 및 전송 중 암호화를 활성화합니다. Hadoop에서 사용하는 프로토콜의 보안 버전을 사용해야 합니다. SASL이 RPC 데이터를 보호하도록 허용합니다. hadoop.rpc.protection 속성을 통해 SASL을 활성화할 수 있습니다.

인증 채널도 보호합니다. 클라이언트는 서비스 티켓을 얻기 위해 인증 채널의 타임스탬프를 사용할 수 있으며, 그런 다음 자체 인증에 사용할 수 있습니다.

Q.22 – HDFS(Hadoop Distributed File System)에 대해 자세히 설명해 주시겠습니까?

Hadoop은 FS, HFTP 및 S3와 같은 분산 파일 시스템과 함께 작동할 수 있습니다. Google 파일 시스템은 HDFS의 기반이며 소규모 시스템의 대규모 클러스터에서 실행할 수 있습니다.

Q.23 – 눈송이와 스타 스키마의 차이점은 무엇입니까?

Star 스키마에서는 Snowflake 스키마의 경우가 아닌 데이터 중복 가능성이 더 높습니다. Star 스키마의 DB 설계는 Snowflake보다 간단합니다. Snowflake 스키마의 복잡한 조인은 Star 스키마에서는 발생하지 않는 큐브 처리 속도를 저하시킵니다.

Q.24 – Hadoop에서 하트비트란 무엇입니까?

Hadoop에는 NameNode와 DataNode의 두 가지 종류의 노드가 있습니다. NameNode는 DataNode의 메타데이터를 저장하고 상태를 추적할 책임이 있습니다. DataNode는 NameNode에 신호를 보내 그들이 살아 있고 작동 중임을 알립니다. 이 신호는 하트비트입니다.

Q.25 – 빅데이터로 무엇을 이해합니까?

기존의 방법으로는 처리할 수 없는 엄청난 양의 비정형 및 정형 데이터가 있는 경우 이를 빅 데이터라고 합니다. 빅 데이터는 정보 수집을 위해 매우 복잡한 데이터 세트를 분석하고 사용하는 분야입니다. 기존의 데이터 분석 방법은 그렇게 많은 양의 복잡한 데이터에 적합하지 않습니다. 빅 데이터에서 데이터 엔지니어는 원시 데이터를 분석하여 사용 가능한 데이터로 변환하는 작업을 수행합니다.

Q.26 – 데이터 엔지니어가 알아야 할 주제와 프로그래밍 언어는 무엇입니까?

데이터 엔지니어는 추세 분석, 기계 학습, SQL, Hive QL, 확률, 회귀 및 선형 대수학을 알고 있어야 합니다. 데이터 엔지니어는 다른 많은 주제를 알 수 있지만 이것은 필수입니다.

Q.27 – Hadoop에서 DAS와 NAS의 차이점은 무엇입니까?

이것은 가장 인기 있는 데이터 엔지니어 인터뷰 질문 중 하나이므로 답변에 특별한 주의를 기울이십시오. DAS는 Direct Attached Storage의 약자이고 NAS는 Network Attached Storage의 약자입니다. NAS의 저장 용량은 바이트 단위로 10^9 ~ 10^12입니다. 반면 DAS는 10^9바이트의 저장 용량을 갖는다. NAS의 관리 비용도 DAS보다 훨씬 적습니다.

Q.28 – Hadoop에서 노드 간 거리란 무엇을 의미합니까? 어떻게 계산하겠습니까?

Hadoop에서 두 노드 사이의 거리는 가장 가까운 노드까지의 길이의 합과 같습니다. getDistance()를 사용하여 Hadoop에서 두 노드 사이의 거리를 찾을 수 있습니다.

세계 최고의 대학에서 데이터 과학 과정 을 배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

결론

이 인터뷰 질문의 도움으로 우리는 당신이 아주 쉽게 준비할 것이라고 확신합니다. 데이터 엔지니어링 인터뷰는 스트레스를 받을 필요가 없습니다. 회의 전에 충분한 수면을 취하십시오. 많은 사람들이 너무 불안해합니다.

그리고 데이터 엔지니어링이나 인터뷰와 관련하여 질문이 있으면 언제든지 문의하십시오. 도와드리겠습니다.

데이터 엔지니어의 임무와 책임은 무엇입니까?

데이터 엔지니어의 주요 책임은 분석 또는 운영 목적으로 데이터를 준비하는 것입니다. IT 산업의 일부로서 이 엔지니어들은 여러 소스 시스템의 데이터를 연결하는 데이터 파이프라인을 만듭니다. 분석 애플리케이션에서 사용하기 위해 데이터를 구조화하기 전에 데이터를 결합, 통합 및 정제합니다. 회사의 대부분의 분석 팀은 데이터 액세스 가능성을 높이고 회사의 빅 데이터 환경을 극대화하는 데이터 엔지니어와 데이터 과학자로 구성됩니다. 엔지니어는 예측 분석, 기계 학습 및 데이터 마이닝 응용 프로그램을 위한 쿼리 및 알고리즘을 수행하는 데 정보를 사용하는 데이터 과학자에게 사용 가능한 형식의 데이터를 제공합니다.

데이터 엔지니어로 일하기 위해 필요한 기술은 무엇입니까?

데이터베이스 시스템의 개발 및 관리에 대한 지식은 데이터 엔지니어에게 필수입니다. SQL, Python, R 등과 같은 프로그래밍 언어에 능통해야 하며 기계 학습 및 알고리즘에 대한 기본 이해가 있어야 합니다. 데이터 엔지니어는 창고 솔루션 및 ETL(추출, 전송, 로드) 도구에 대해서도 알고 있어야 합니다. 데이터 과학은 고도로 협력적인 분야이며 데이터 엔지니어는 데이터 분석가에서 최고 기술 책임자에 이르기까지 다양한 이해 관계자와 협력합니다. 따라서 우수한 의사 소통 기술 및 높은 협력 기술과 같은 소프트 기술은 모든 데이터 엔지니어의 기술 세트의 일부여야 합니다.

데이터 엔지니어링은 좋은 경력 경로입니까? 데이터 엔지니어는 평균적으로 얼마를 버나요?

Dice 2020 Tech Job Report에 따르면 데이터 엔지니어링은 2019년 기술 분야에서 가장 빠르게 성장하는 직업 옵션이며 사용 가능한 기회의 수가 전년 대비 50% 증가했습니다. 기술 세계에서 중요성이 커지고 있으며 정보 관리에 대한 수요가 증가함에 따라 수익성 있는 직업 옵션이 되었습니다. 4,57,532루피의 초급 급여와 함께 데이터 엔지니어의 급여는 경험의 증가에 따라 올라갑니다. 1~4년 경력의 데이터 엔지니어는 평균 7,20,395루피의 급여를 받는 반면, 5~9년 경력의 중견 데이터 엔지니어와 10~19년 경력의 데이터 엔지니어는 평균 총액 500루피를 받습니다. 각각 12,94,336 및 18,67,992루피.