35 반드시 알아야 할 빅 데이터 인터뷰 질문 및 답변 2022: 신입 및 경험자

게시 됨: 2021-01-05

빅 데이터 인터뷰에 참석하여 어떤 질문과 토론을 하게 될지 궁금하십니까? 빅데이터 인터뷰에 참석하기 전에 빅데이터 인터뷰 질문의 유형에 대한 아이디어를 가지고 마음속으로 답변을 준비하는 것이 좋습니다.

여러분을 돕기 위해 빅 데이터 인터뷰 질문의 깊이와 실제 의도를 이해하기 위해 최고의 빅 데이터 인터뷰 질문 및 답변 가이드를 만들었습니다.

이 프로그램이 학생들의 경력을 어떻게 변화시켰는지 믿을 수 없을 것입니다.

우리는 빅데이터와 분석의 시대에 살고 있습니다. 데이터가 우리 주변의 모든 것을 구동하면서 숙련된 데이터 전문가에 대한 수요가 갑자기 급증했습니다. 조직은 데이터 더미를 이해하는 데 도움을 줄 수 있는 숙련된 개인을 항상 찾고 있습니다.

빅데이터 인터뷰 질문

여기서 키워드는 '숙련된'이고 따라서 빅 데이터 인터뷰는 실제로 케이크 워크가 아닙니다. 인터뷰에 참석하기 전에 반드시 알아야 하는 몇 가지 필수 빅 데이터 인터뷰 질문이 있습니다. 이것들은 당신이 길을 찾는 데 도움이 될 것입니다.

질문은 기본에서 선택하고 어느 정도 고급 수준에 도달하는 데 도움이 되는 순서로 배열되었습니다.

빅데이터 인터뷰 질문 및 답변

1. 빅 데이터를 정의하고 빅 데이터의 Vs를 설명합니다.

이것은 가장 입문적이면서도 중요한 빅 데이터 인터뷰 질문 중 하나입니다. 이에 대한 대답은 매우 간단합니다.

빅 데이터는 실행 가능한 통찰력을 제공할 가능성이 있는 복잡한 비정형 또는 반정형 데이터 세트의 모음으로 정의할 수 있습니다.


최고의 단기 코스

빅 데이터의 4가지 V는 다음과 같습니다.
볼륨 – 데이터의 양에 대해 이야기합니다.
Variety – 데이터의 다양한 형식에 대해 이야기합니다.
Velocity – 데이터가 증가하는 속도에 대해 설명합니다.
Veracity – 사용 가능한 데이터의 정확성 정도에 대해 설명합니다.

초보자를 위한 빅 데이터 튜토리얼: 알아야 할 모든 것

2. Hadoop은 빅 데이터와 어떤 관련이 있습니까?

빅 데이터에 대해 이야기할 때 하둡에 대해 이야기합니다. 따라서 이것은 인터뷰에서 확실히 직면하게 될 또 다른 빅 데이터 인터뷰 질문입니다.

Hadoop은 통찰력과 인텔리전스를 도출하기 위해 복잡한 비정형 데이터 세트를 저장, 처리 및 분석하기 위한 오픈 소스 프레임워크입니다.

3. HDFS와 YARN을 정의하고 각각의 구성 요소에 대해 이야기하십시오.

이제 Hadoop 영역에 있으므로 다음 빅 데이터 인터뷰 질문은 동일한 주제를 중심으로 진행됩니다.

HDFS는 Hadoop의 기본 저장 장치이며 분산 환경에서 다양한 유형의 데이터를 저장하는 역할을 합니다.

HDFS에는 다음 두 가지 구성 요소가 있습니다.

NameNode – HDFS의 모든 데이터 블록에 대한 메타데이터 정보가 있는 마스터 노드입니다.
DataNode – 슬레이브 노드 역할을 하며 데이터 저장을 담당하는 노드입니다.
YARN은 Yet Another Resource Negotiator의 약자로 리소스 를 관리하고 해당 프로세스를 위한 실행 환경을 제공하는 역할을 합니다.
YARN의 두 가지 주요 구성 요소는 다음과 같습니다.
ResourceManager – 필요에 따라 각 NodeManager에 리소스 할당을 담당합니다.
NodeManager – 모든 DataNode에서 작업을 실행합니다.
주의해야 할 7가지 흥미로운 빅 데이터 프로젝트

4. 상용 하드웨어란 무엇을 의미합니까?

이것은 면접에서 가장 많이 접하게 되는 또 다른 빅 데이터 면접 질문입니다.

Commodity Hardware는 Apache Hadoop 프레임워크를 실행하는 데 필요한 최소한의 하드웨어 리소스를 말합니다. Hadoop의 최소 요구 사항을 지원하는 모든 하드웨어를 '상품 하드웨어'라고 합니다.

5. FSCK라는 용어를 정의하고 설명합니다.

FSCK는 파일 시스템 검사를 의미합니다. HDFS의 상태를 설명하는 Hadoop 요약 보고서를 실행하는 데 사용되는 명령입니다. 오류만 확인하고 수정하지는 않습니다. 이 명령은 전체 시스템이나 파일의 하위 집합에서 실행할 수 있습니다.

6. Hadoop에서 JPS 명령의 목적은 무엇입니까?

JPS 명령은 모든 Hadoop 데몬의 작동을 테스트하는 데 사용됩니다. 특히 NameNode, DataNode, ResourceManager, NodeManager 등과 같은 데몬을 테스트합니다.
(빅 데이터 인터뷰에서 JPS와 그 중요성에 대한 한 가지 질문을 찾을 수 있습니다.)
빅 데이터: 반드시 알아야 할 도구와 기술

7. Hadoop 데몬을 시작 및 종료하기 위한 다양한 명령의 이름을 지정합니다.

이것은 면접관이 명령에 대한 지식을 측정하는 데 도움이 되는 가장 중요한 빅 데이터 면접 질문 중 하나입니다.

모든 데몬을 시작하려면:
./sbin/start-all.sh

모든 데몬을 종료하려면:
./sbin/stop-all.sh

8. 빅 데이터 분석에 Hadoop이 필요한 이유는 무엇입니까?

이 Hadoop 인터뷰 질문은 빅 데이터 및 분석의 실용적인 측면에 대한 인식을 테스트합니다.

대부분의 경우 Hadoop은 대규모 및 비정형 데이터 세트를 탐색하고 분석하는 데 도움이 됩니다. Hadoop은 분석에 도움이 되는 스토리지, 처리 및 데이터 수집 기능을 제공합니다.

9. Hadoop의 다양한 기능을 설명합니다.

많은 빅 데이터 인터뷰 질문과 답변에 나열되어 있으며 이에 대한 가장 좋은 답변은 다음과 같습니다.

오픈 소스 – Hadoop은 오픈 소스 플랫폼입니다. 사용자 및 분석 요구 사항에 따라 코드를 다시 작성하거나 수정할 수 있습니다.
확장성 – Hadoop은 새 노드에 하드웨어 리소스 추가를 지원합니다.
데이터 복구 – Hadoop은 장애 발생 시 데이터 복구를 허용하는 복제를 따릅니다.
데이터 지역성 – 이것은 Hadoop이 계산을 다른 방향이 아닌 데이터로 이동함을 의미합니다. 이렇게 하면 전체 프로세스의 속도가 빨라집니다.

10. NameNode, Task Tracker 및 Job Tracker에 대한 포트 번호를 정의합니다.

네임노드 – 포트 50070
작업 추적기 - 포트 50060
작업 추적기 - 포트 50030

11. HDFS에서 인덱싱한다는 것은 무엇을 의미합니까?

HDFS는 크기에 따라 데이터 블록을 인덱싱합니다. 데이터 블록의 끝은 데이터 블록의 다음 청크가 저장되는 주소를 가리킵니다. DataNode는 데이터 블록을 저장하고 NameNode는 이러한 데이터 블록을 저장합니다.
대중 문화의 빅 데이터 응용

12. Hadoop의 에지 노드란 무엇입니까?

Edge 노드는 Hadoop 클러스터와 외부 네트워크 간의 인터페이스 역할을 하는 게이트웨이 노드를 말합니다. 이러한 노드는 클라이언트 응용 프로그램 및 클러스터 관리 도구를 실행하며 스테이징 영역으로도 사용됩니다. 에지 노드에는 엔터프라이즈급 스토리지 기능이 필요하며 일반적으로 여러 Hadoop 클러스터에는 단일 에지 노드로 충분합니다.

13. Hadoop의 Edge Node와 함께 사용되는 데이터 관리 도구에는 어떤 것이 있습니까?

이 빅 데이터 인터뷰 질문은 다양한 도구 및 프레임워크에 대한 인식을 테스트하는 것을 목표로 합니다.

Oozie, Ambari, Pig 및 Flume은 Hadoop의 Edge Node와 함께 작동하는 가장 일반적인 데이터 관리 도구입니다.

14. Reducer의 핵심 메소드를 설명하라.

감속기의 세 가지 핵심 방법이 있습니다. 그들은-

setup() – 힙 크기, 분산 캐시 및 입력 데이터와 같은 다양한 매개변수를 구성하는 데 사용됩니다.
reduce() – 관련된 reduce 작업과 함께 키당 한 번 호출되는 매개변수
cleanup() – 모든 임시 파일을 지우고 감속기 작업이 끝날 때만 호출됩니다.

15. HBase에서 삭제 목적으로 사용되는 다양한 삭제 표시에 대해 이야기하십시오.

이 빅 데이터 인터뷰 질문은 HBase와 그 작업에 대한 지식을 다룹니다.
HBase에서 삭제에 사용되는 세 가지 주요 삭제 표시가 있습니다. 그들은-

Family Delete Marker – 컬럼 패밀리의 모든 컬럼을 표시합니다.
버전 삭제 마커 – 단일 열의 단일 버전을 표시합니다.
열 삭제 마커 – 단일 열의 모든 버전을 표시합니다.
빅 데이터 엔지니어: 신화 대 현실

16. 빅 데이터는 어떻게 비즈니스에 가치를 더할 수 있습니까?

가장 흔한 빅데이터 인터뷰 질문 중 하나. 현재 시나리오에서는 빅 데이터가 전부입니다. 데이터가 있다면 가장 강력한 도구를 사용할 수 있습니다. 빅 데이터 분석은 기업이 원시 데이터를 비즈니스 전략을 형성할 수 있는 의미 있고 실행 가능한 통찰력으로 변환하는 데 도움이 됩니다. 비즈니스에 대한 빅 데이터의 가장 중요한 기여는 데이터 기반 비즈니스 의사 결정입니다. 빅 데이터를 통해 조직은 유형의 정보와 통찰력을 기반으로 결정을 내릴 수 있습니다.

빅데이터 인터뷰 질문

또한 기업은 예측 분석을 통해 다양한 구매자 페르소나에 대한 맞춤형 추천 및 마케팅 전략을 세울 수 있습니다. 빅 데이터 도구와 기술은 함께 수익 증대, 비즈니스 운영 간소화, 생산성 증대 및 고객 만족도 향상에 도움이 됩니다. 사실, 오늘날 빅 데이터를 활용하지 않는 사람은 기회의 바다에서 놓치고 있는 것입니다.

17. 빅 데이터 솔루션을 어떻게 배포합니까?

빅 데이터 솔루션은 다음 세 단계로 배포할 수 있습니다.

  • 데이터 수집 – 빅 데이터 솔루션 배포의 첫 번째 단계입니다. 소셜 미디어 플랫폼, 로그 파일, 비즈니스 문서, 비즈니스와 관련된 모든 것 등 여러 소스에서 데이터를 수집하는 것으로 시작합니다. 데이터는 실시간 스트리밍이나 일괄 작업을 통해 추출할 수 있습니다.
  • 데이터 저장 – 데이터가 추출되면 데이터베이스에 데이터를 저장해야 합니다. HDFS 또는 HBase일 수 있습니다. HDFS 스토리지는 순차 액세스에 적합하지만 HBase는 임의 읽기/쓰기 액세스에 이상적입니다.
  • 데이터 처리 – 솔루션 배포의 마지막 단계는 데이터 처리입니다. 일반적으로 데이터 처리는 Hadoop, Spark, MapReduce, Flink 및 Pig와 같은 프레임워크를 통해 수행됩니다.

18. NFS는 HDFS와 어떻게 다릅니까?

NFS(Network File System)는 가장 오래된 분산 파일 저장 시스템 중 하나이며 HDFS(Hadoop Distributed File System)는 빅 데이터의 급증 이후에야 주목을 받았습니다.

아래 표는 NFS와 HDFS의 가장 눈에 띄는 차이점 중 일부를 보여줍니다.

NFS HDFS
소량의 데이터를 저장하고 처리할 수 있습니다. 빅 데이터를 저장하고 처리하도록 명시적으로 설계되었습니다.
데이터는 전용 하드웨어에 저장됩니다. 데이터는 하드웨어의 로컬 드라이브에 분산된 데이터 블록으로 나뉩니다.
시스템 장애의 경우 데이터에 액세스할 수 없습니다. 시스템 장애가 발생한 경우에도 데이터에 액세스할 수 있습니다.
NFS는 단일 시스템에서 실행되기 때문에 데이터 중복 가능성이 없습니다. HDFS는 시스템 클러스터에서 실행되므로 복제 프로토콜이 중복 데이터로 이어질 수 있습니다.

19. 파일 또는 디렉터리 수준에 대한 HDFS의 다양한 파일 권한을 나열합니다.

일반적인 빅 데이터 인터뷰 질문 중 하나입니다. HDFS(Hadoop 분산 파일 시스템)에는 파일 및 디렉터리에 대한 특정 권한이 있습니다. HDFS에는 소유자, 그룹 및 기타의 세 가지 사용자 수준이 있습니다. 각 사용자 수준에 대해 세 가지 사용 가능한 권한이 있습니다.

  • 읽기 (r)
  • 쓰다 (w)
  • 실행(x).

이 세 가지 권한은 파일 및 디렉터리에 대해 고유하게 작동합니다.

파일의 경우 –

  • r 권한은 파일을 읽기 위한 것입니다.
  • w 권한은 파일 쓰기를 위한 것입니다.

실행(x) 권한이 있지만 HDFS 파일을 실행할 수 없습니다.

디렉토리의 경우 –

  • r 권한은 특정 디렉토리의 내용을 나열합니다.
  • w 권한은 디렉토리를 생성하거나 삭제합니다.
  • X 권한은 하위 디렉토리에 액세스하기 위한 것입니다.

20. HDFS에서 복제 요소를 덮어쓰는 프로세스에 대해 자세히 설명합니다.

HDFS에는 파일 기반과 디렉터리 기반의 두 가지 복제 요소를 덮어쓰는 방법이 있습니다.

파일 기반

이 방법은 Hadoop FS 셸을 사용하여 파일에 따라 복제 인자가 변경됩니다. 이를 위해 다음 명령이 사용됩니다.

$hadoop fs – setrep –w2/my/test_file

여기서 test_file은 복제 계수가 2로 설정될 파일 이름을 나타냅니다.

디렉토리 기반

이 방법은 디렉토리에 따라 복제 계수를 변경하므로 특정 디렉토리에 있는 모든 파일에 대한 복제 계수가 변경됩니다. 이를 위해 다음 명령이 사용됩니다.

$hadoop fs –setrep –w5/my/test_dir

여기서 test_dir은 복제 팩터와 그 안에 포함된 모든 파일이 5로 설정될 디렉터리 이름을 나타냅니다.

21. Hadoop을 실행할 수 있는 세 가지 모드의 이름을 지정하십시오.

빅 데이터 인터뷰에서 가장 흔한 질문 중 하나입니다. 세 가지 모드는 다음과 같습니다.

  • 독립 실행형 모드 – 입력 및 출력 작업 모두에 로컬 파일 시스템을 사용하는 Hadoop의 기본 모드입니다. 독립 실행형 모드의 주요 목적은 디버깅입니다. HDFS를 지원하지 않으며 mapred-site.xml, core-site.xml 및 hdfs-site.xml 파일에 필요한 사용자 지정 구성도 부족합니다.
  • 의사 분산 모드 – 단일 노드 클러스터라고도 하는 의사 분산 모드에는 동일한 시스템 내에 NameNode와 DataNode가 모두 포함됩니다. 이 모드에서는 모든 Hadoop 데몬이 단일 노드에서 실행되므로 마스터 및 슬레이브 노드가 동일합니다.
  • 완전 분산 모드 – 이 모드는 여러 노드가 동시에 작동하여 Hadoop 작업 실행하는 다중 노드 클러스터로 알려져 있습니다 . 여기에서 모든 Hadoop 데몬은 서로 다른 노드에서 실행됩니다. 따라서 마스터 노드와 슬레이브 노드가 별도로 실행됩니다.

22. "과적합"을 설명합니다.

과적합은 함수가 제한된 데이터 포인트 집합에 의해 밀접하게 적합(영향)을 받을 때 발생하는 모델링 오류를 나타냅니다. 과적합은 지나치게 복잡한 모델을 초래하여 당면한 데이터의 특성이나 특이성을 설명하기 더 어렵게 만듭니다. 모델의 일반화 능력에 부정적인 영향을 미치기 때문에 과적합된 모델의 예측 지수를 결정하는 것이 어려워집니다. 이러한 모델은 외부 데이터(샘플 데이터의 일부가 아닌 데이터) 또는 새 데이터 세트에 적용될 때 수행되지 않습니다.

과적합은 머신러닝에서 가장 흔한 문제 중 하나입니다. 모델은 훈련 세트에서는 더 잘 수행되지만 테스트 세트에서는 비참하게 실패할 때 과적합된 것으로 간주됩니다. 그러나 교차 검증, 가지치기, 조기 정지, 정규화, 조립 등 과적합 문제를 방지하기 위한 많은 방법이 있습니다.

23. 기능 선택이란 무엇입니까?

특징 선택은 특정 데이터셋에서 필요한 특징만을 추출하는 과정을 의미합니다. 서로 다른 소스에서 데이터를 추출할 때 모든 데이터가 항상 유용한 것은 아닙니다. 비즈니스 요구 사항에 따라 서로 다른 데이터 통찰력이 필요합니다. 여기에서 특정 비즈니스 요구 사항 또는 데이터 처리 단계와 관련된 기능만 식별하고 선택하기 위해 기능 선택이 시작됩니다.

기능 선택의 주요 목표는 ML 모델을 단순화하여 분석 및 해석을 더 쉽게 만드는 것입니다. 특징 선택은 모델의 일반화 능력을 향상시키고 차원 문제를 제거하여 과적합 가능성을 방지합니다. 따라서 기능 선택은 연구 중인 데이터에 대한 더 나은 이해를 제공하고 모델의 예측 성능을 개선하며 계산 시간을 크게 단축합니다.

기능 선택은 세 가지 기술을 통해 수행할 수 있습니다.

  • 필터 방법

이 방법에서 선택한 기능은 지정된 분류기에 종속되지 않습니다. 변수 순위 기술은 순서 지정을 위해 변수를 선택하는 데 사용됩니다. 분류 과정에서 변수 순위 기술은 기능의 중요성과 유용성을 고려합니다. 카이제곱 검정, 분산 임계값 및 정보 이득은 필터 방법의 몇 가지 예입니다.

  • 래퍼 메서드

이 방법에서 특징 부분 집합 선택에 사용되는 알고리즘은 유도 알고리즘을 중심으로 '래퍼'로 존재합니다. 유도 알고리즘은 기능 분류에 추가로 사용될 분류기를 생성하는 '블랙 박스'와 같은 기능을 합니다. 래퍼 방법의 주요 단점 또는 제한 사항은 기능 하위 집합을 얻으려면 많은 계산 작업을 수행해야 한다는 것입니다. 유전 알고리즘, 순차 특징 선택 및 재귀 특징 제거는 래퍼 방법의 예입니다.

  • 임베디드 방법

임베디드 방법은 두 세계의 장점을 결합합니다. 여기에는 필터 및 래퍼 방법의 최고의 기능이 포함됩니다. 이 방법에서 변수 선택은 훈련 과정에서 이루어지므로 주어진 모델에 대해 가장 정확한 특징을 식별할 수 있습니다. L1 정규화 기법과 능선 회귀는 임베디드 방법의 두 가지 인기 있는 예입니다.

24. "이상치"를 정의하십시오.

이상치는 무작위 표본의 다른 값과 비정상적인 거리에 있는 데이터 포인트 또는 관측치를 나타냅니다. 즉, 이상치는 그룹에서 멀리 떨어진 값입니다. 데이터 세트의 특정 클러스터 또는 그룹에 속하지 않습니다. 이상값의 존재는 일반적으로 모델의 동작에 영향을 미치며 ML 알고리즘의 교육 프로세스를 오도할 수 있습니다. 이상값의 부정적인 영향에는 더 긴 훈련 시간, 부정확한 모델 및 좋지 않은 결과가 포함됩니다.

그러나 이상치는 때때로 귀중한 정보를 포함할 수 있습니다. 그렇기 때문에 철저히 조사하여 그에 따른 치료를 받아야 합니다.

25. 몇 가지 이상값 탐지 기술의 이름을 지정하십시오.

다시 말하지만, 가장 중요한 빅 데이터 인터뷰 질문 중 하나입니다. 다음은 6가지 이상값 감지 방법입니다.

  • 극단값 분석 – 이 방법은 데이터 분포의 통계적 꼬리를 결정합니다. 일변량 데이터에 대한 'z-점수'와 같은 통계적 방법은 극단값 분석의 완벽한 예입니다.
  • 확률 및 통계 모델 – 이 방법은 데이터의 '확률 모델'에서 '가능성이 없는 인스턴스'를 결정합니다. 좋은 예는 '기대-최대화'를 사용한 가우스 혼합 모델의 최적화입니다.
  • 선형 모델 – 이 방법은 데이터를 더 낮은 차원으로 모델링합니다. 근접 기반 모델 – 이 접근 방식에서 데이터 그룹에서 격리된 데이터 인스턴스는 클러스터, 밀도 또는 가장 가까운 이웃 분석에 의해 결정됩니다.
  • 정보 이론 모델 – 이 접근 방식은 데이터 세트의 복잡성을 증가시키는 잘못된 데이터 인스턴스로 이상값을 감지하려고 합니다.
  • 고차원 이상값 감지 – 이 방법은 더 높은 차원의 거리 측정값에 따라 이상값에 대한 부분 공간을 식별합니다.

26. Hadoop의 랙 인식을 설명합니다.

Rack Awareness는 인기 있는 빅 데이터 인터뷰 질문 중 하나입니다. 랙 인식은 랙 정보를 기반으로 NameNode에 더 가까운 DataNode를 식별하고 선택하는 알고리즘입니다. 데이터 블록과 해당 복제본이 배치되는 방식을 결정하기 위해 NameNode에 적용됩니다. 설치 프로세스 동안 기본 가정은 모든 노드가 동일한 랙에 속한다는 것입니다.

랙 인식은 다음을 지원합니다.

  • 데이터 신뢰성과 접근성을 향상시킵니다.
  • 클러스터 성능을 향상시킵니다.
  • 네트워크 대역폭을 향상시킵니다.
  • 가능하면 대량 흐름을 랙에 보관하십시오.
  • 완전한 랙 장애 시 데이터 손실을 방지합니다.

27. NameNode가 다운되었을 때 복구할 수 있습니까? 그렇다면 어떻게?

예, NameNode가 다운되었을 때 복구할 수 있습니다. 방법은 다음과 같습니다.

  • FsImage(파일 시스템 메타데이터 복제본)를 사용하여 새 NameNode를 시작합니다.
  • 새로 시작된 NameNode를 확인하고 참조할 수 있도록 클라이언트와 함께 DataNode를 구성합니다.
  • 새로 생성된 NameNode가 FsImage(이제 DataNode에서 충분한 블록 보고서를 수신함) 로드 프로세스의 마지막 체크포인트 로드를 완료하면 클라이언트 서비스를 시작할 준비가 된 것입니다.

그러나 NameNode의 복구 프로세스는 소규모 클러스터에서만 가능합니다. 대규모 Hadoop 클러스터의 경우 복구 프로세스는 일반적으로 상당한 시간을 소비하므로 상당히 어려운 작업이 됩니다.

28. MapReduce 프레임워크의 구성 매개변수 이름을 지정합니다.

MapReduce 프레임워크의 구성 매개변수는 다음과 같습니다.

  • 데이터의 입력 형식입니다.
  • 데이터의 출력 형식입니다.
  • 분산 파일 시스템에서 작업의 입력 위치입니다.
  • 분산 파일 시스템에서 작업의 출력 위치입니다.
  • 지도 함수를 포함하는 클래스
  • reduce 함수를 포함하는 클래스
  • 매퍼, 감속기 및 드라이버 클래스가 포함된 JAR 파일입니다.

29. 분산 캐시란 무엇입니까? 이점은 무엇입니까?

빅 데이터 인터뷰 질문 및 답변 가이드는 이 질문 없이는 완료되지 않습니다. Hadoop의 분산 캐시는 파일 캐싱에 사용되는 MapReduce 프레임워크에서 제공하는 서비스입니다. 특정 작업에 대해 파일이 캐시되면 Hadoop은 매핑 및 축소 작업이 동시에 실행되는 시스템과 메모리의 개별 DataNode에서 파일을 사용할 수 있도록 합니다. 이를 통해 캐시된 파일에 빠르게 액세스하고 읽을 수 있어 코드의 모든 컬렉션(배열, 해시맵 등)을 채울 수 있습니다.

분산 캐시는 다음과 같은 이점을 제공합니다.

  • 간단한 읽기 전용 텍스트/데이터 파일 및 jar, 아카이브 등과 같은 기타 복잡한 유형을 배포합니다.
  • 작업이 성공적으로 실행될 때까지 수정해서는 안 되는 파일을 강조 표시하는 캐시 파일의 수정 타임스탬프를 추적합니다.

30. Hadoop에서 SequenceFile이란 무엇입니까?

Hadoop에서 SequenceFile은 바이너리 키-값 쌍을 포함하는 플랫 파일입니다. MapReduce I/O 형식에서 가장 일반적으로 사용됩니다. 맵 출력은 판독기, 작성기 및 분류기 클래스를 제공하는 SequenceFile로 내부적으로 저장됩니다.

세 가지 SequenceFile 형식이 있습니다.

  • 압축되지 않은 키-값 레코드
  • 압축된 키-값 레코드를 기록합니다('값'만 압축됨).
  • 압축된 키-값 레코드를 차단합니다(여기서 키와 값 모두 '블록'에 별도로 수집된 다음 압축됨).

31. JobTracker의 역할을 설명하십시오.

일반적인 빅 데이터 인터뷰 질문 중 하나입니다. JobTracker의 주요 기능은 리소스 관리이며, 이는 본질적으로 TaskTracker 관리를 의미합니다. 이 외에도 JobTracker는 리소스 가용성을 추적하고 작업 수명 주기 관리를 처리합니다(작업 진행률 및 내결함성 추적).

JobTracker의 몇 가지 중요한 기능은 다음과 같습니다.

  • DataNode가 아닌 별도의 노드에서 실행되는 프로세스입니다.
  • NameNode와 통신하여 데이터 위치를 식별합니다.
  • MapReduce 워크로드의 실행을 추적합니다.
  • 사용 가능한 슬롯을 기반으로 TaskTracker 노드를 할당합니다.
  • 각 TaskTracker를 모니터링하고 전체 작업 보고서를 클라이언트에 제출합니다.
  • 특정 노드에서 특정 작업을 실행하는 데 가장 적합한 TaskTracker 노드를 찾습니다.

32. Hadoop에서 일반적인 입력 형식의 이름을 지정합니다.

Hadoop에는 세 가지 일반적인 입력 형식이 있습니다.

  • 텍스트 입력 형식 – Hadoop의 기본 입력 형식입니다.
  • 시퀀스 파일 입력 형식 – 이 입력 형식은 시퀀스의 파일을 읽는 데 사용됩니다.
  • 키-값 입력 형식 – 이 입력 형식은 일반 텍스트 파일(줄로 구분된 파일)에 사용됩니다.

33. Hadoop에서 Data Locality가 필요한 이유는 무엇입니까?

중요한 빅 데이터 인터뷰 질문 중 하나입니다. HDFS에서 데이터 세트는 Hadoop 클러스터의 DataNode에 블록으로 저장됩니다. MapReduce 작업이 실행 중일 때 개별 매퍼는 데이터 블록(입력 분할)을 처리합니다. Mapper가 작업을 실행하는 동일한 노드에 데이터가 없으면 네트워크를 통해 데이터가 상주하는 DataNode에서 Mapper DataNode로 데이터를 복사해야 합니다.

MapReduce 작업에 100개가 넘는 Mapper가 있고 각 Mapper DataNode가 클러스터의 다른 DataNode에서 동시에 데이터를 복사하려고 하면 네트워크 정체가 발생하여 시스템의 전체 성능에 부정적인 영향을 미칩니다. 여기에서 데이터 지역성이 시나리오에 들어갑니다. 많은 양의 데이터를 계산으로 이동하는 대신 Data Locality는 실제 데이터가 DataNode에 있는 위치에 가깝게 데이터 계산을 이동합니다. 이것은 불필요한 지연을 일으키지 않고 시스템의 전체 성능을 향상시키는 데 도움이 됩니다.

34. Hadoop에서 보안을 달성하기 위한 단계는 무엇입니까?

Hadoop에서 Kerberos(네트워크 인증 프로토콜)는 보안을 달성하는 데 사용됩니다. Kerberos는 비밀 키 암호화를 통해 클라이언트/서버 응용 프로그램에 대한 강력한 인증을 제공하도록 설계되었습니다.

Kerberos를 사용하여 서비스에 액세스할 때 세 단계를 거쳐야 하며 각 단계에는 서버와의 메시지 교환이 포함됩니다. 단계는 다음과 같습니다.

  • 인증 – 이것은 클라이언트가 인증 서버를 통해 인증되는 첫 번째 단계이며, 그 후 타임스탬프가 찍힌 TGT(Ticket Granting Ticket)가 클라이언트에 제공됩니다.
  • 권한 부여 – 두 번째 단계에서 클라이언트는 TGS(Ticket Granting Server)에서 서비스 티켓을 요청하기 위해 TGT를 사용합니다.
  • 서비스 요청 – 마지막 단계에서 클라이언트는 서비스 티켓을 사용하여 서버에 자신을 인증합니다.

35. 빅데이터의 결측값을 어떻게 처리할 수 있습니까?

빅 데이터 인터뷰 질문 및 답변 가이드의 마지막 질문입니다. 누락된 값은 열에 없는 값을 나타냅니다. 관찰에 변수에 대한 데이터 값이 없을 때 발생합니다. 누락된 값이 제대로 처리되지 않으면 잘못된 데이터가 생성되어 잘못된 결과가 생성될 수 있습니다. 따라서 데이터 세트를 처리하기 전에 누락된 값을 올바르게 처리하는 것이 좋습니다. 일반적으로 결측값의 수가 적으면 데이터가 삭제되지만 결측값이 많은 경우 데이터 대치가 선호되는 조치입니다.

통계에는 결측값을 추정하는 다양한 방법이 있습니다. 여기에는 회귀, 다중 데이터 대치, 목록별/쌍별 삭제, 최대 가능성 추정 및 근사 베이지안 부트스트랩이 포함됩니다.

결론

빅 데이터 질문 및 답변 가이드 가 도움이 되기를 바랍니다. 최신 정보를 제공하기 위해 가이드를 정기적으로 업데이트할 것입니다.

빅 데이터에 대해 더 알고 싶다면 PG 디플로마 빅 데이터 소프트웨어 개발 전문화 프로그램을 확인하십시오. 이 프로그램은 실무 전문가를 위해 설계되었으며 7개 이상의 사례 연구 및 프로젝트를 제공하고 14개 프로그래밍 언어 및 도구, 실용적인 실습을 다룹니다. 워크샵, 400시간 이상의 엄격한 학습 및 최고의 기업과의 취업 지원.

세계 최고의 대학에서 온라인으로 소프트웨어 개발 과정배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

데이터 주도 기술 혁명을 주도하다

400시간 이상의 학습. 14개 언어 및 도구. IIIT-B 동문 현황.
IIT Bangalore의 빅 데이터 고급 인증 프로그램