Hadoop 자습서: 빅 데이터를 배우기 위한 궁극적인 가이드 Hadoop 2022

게시 됨: 2021-01-05

Hadoop은 오늘날 " Hadoop tutorial "이 웹에서 가장 많이 검색되는 용어 중 하나가 될 정도로 빅 데이터 영역에서 널리 사용되는 이름입니다. 그러나 Hadoop을 모르는 경우 간단한 프로그래밍 모델을 활용하여 여러 컴퓨터 클러스터에 걸쳐 분산된 환경에서 방대한 양의 데이터를 저장하고 처리하도록 설계된 오픈 소스 빅 데이터 프레임워크입니다.

단일 서버에서 수백 수천 대의 머신으로 확장할 수 있는 방식으로 설계되었으며, 각각은 로컬 스토리지 및 계산을 제공합니다. 읽기: Hadoop의 미래 범위.

Doug Cutting 과 Mike Cafarella 는 Hadoop을 개발했습니다. Hadoop의 역사에 대한 흥미로운 사실은 Hadoop이 Cutting의 꼬마 장난감 코끼리의 이름을 따서 명명되었다는 것입니다. 커팅의 아이에게 Hadoop이라는 노란색 장난감 코끼리가 있었는데, 이것이 빅 데이터 프레임워크의 기원입니다!

Hadoop 튜토리얼 을 시작하기 전에 기본 사항을 올바르게 이해하는 것이 중요합니다. 기본적으로 빅 데이터를 의미합니다.

빅 데이터란 무엇입니까?

빅 데이터는 기존 데이터 처리 시스템의 처리 능력을 넘어서는 정형 및 비정형(매일 생성되는) 데이터의 대용량을 지칭하는 데 사용되는 용어입니다.

Gartner의 유명한 빅 데이터 정의에 따르면 이는 매우 다양하고 계속해서 증가하는 양과 빠른 속도로 에스컬레이션되는 데이터를 말합니다. 빅 데이터는 데이터 기반 비즈니스 의사 결정을 촉진할 수 있는 통찰력을 위해 분석될 수 있습니다. 여기에 빅데이터의 진정한 가치가 있습니다.

용량

매일 소셜 미디어, 디지털 기기, IoT, 기업 등 다양한 소스에서 엄청난 양의 데이터가 생성됩니다. 이 데이터는 의미 있는 통찰력을 식별하고 제공하기 위해 처리되어야 합니다.

속도

조직이 데이터를 수신하고 처리하는 속도를 나타냅니다. 모든 기업/조직에는 방대한 양의 데이터를 처리하기 위한 특정 시간 프레임이 있습니다. 일부 데이터에는 실시간 처리 기능이 필요하지만 일부 데이터는 필요에 따라 처리 및 분석할 수 있습니다.

다양성

데이터는 여러 이질적인 소스에서 생성되기 때문에 당연히 매우 다양하고 다양합니다. 기존의 데이터 유형은 대부분 구조화되어 관계형 데이터베이스에 적합했지만 빅 데이터는 반구조화 및 비구조화 데이터 유형(텍스트, 오디오 및 비디오도 가능합니다. 왜 필요한가요?

초보자를 위한 Hadoop 튜토리얼

빅 데이터에 대해 이야기할 때 세 가지 핵심 과제가 있었습니다.

저장

첫 번째 문제는 그 엄청난 양의 데이터를 어디에 저장할 것인가 하는 것이었습니다. 기존 시스템은 제한된 저장 용량을 제공하므로 충분하지 않습니다.

이기종 데이터

두 번째 문제는 빅데이터가 매우 다양하다는 것(정형, 반정형, 비정형)이었습니다. 따라서 다양한 형식으로 제공되는 이 데이터를 저장하는 방법에 대한 질문이 발생합니다.

처리 속도

마지막 문제는 처리 속도입니다. 빅 데이터는 계속해서 증가하는 대용량 데이터이기 때문에 방대한 양의 이기종 데이터를 처리하는 데 걸리는 시간을 단축하는 것이 과제였습니다.

이러한 핵심 과제를 극복하기 위해 Hadoop이 개발되었습니다. HDFS와 YARN이라는 두 가지 기본 구성 요소는 저장 및 처리 문제를 해결하는 데 도움이 되도록 설계되었습니다. HDFS가 데이터를 분산 저장하여 스토리지 문제를 해결한다면 YARN은 처리 시간을 획기적으로 줄여 처리 부분을 처리합니다.

Hadoop은 다음과 같은 이유로 고유한 빅 데이터 프레임워크입니다.

ETL 병목 현상을 제거하는 유연한 파일 시스템이 특징입니다.
경제적으로 확장하고 상용 하드웨어에 배포할 수 있습니다.
모든 유형의 데이터를 저장하고 마이닝할 수 있는 유연성을 제공합니다. 또한 단일 스키마의 제약을 받지 않습니다.
복잡한 데이터 세트를 처리하는 데 탁월합니다. 확장 아키텍처는 워크로드를 여러 노드로 나눕니다.

하둡의 핵심 구성 요소

Hadoop 클러스터는 HDFS(Hadoop Distributed File System)와 YARN(Yet Another Resource Negotiator)의 두 가지 기본 구성 요소로 구성됩니다.

HDFS

HDFS는 분산 스토리지를 담당합니다. 마스터-슬레이브 토폴로지가 특징이며 마스터는 고급 컴퓨터이고 슬레이브는 저렴한 컴퓨터입니다. Hadoop 아키텍처에서 마스터는 Hadoop 클러스터 의 중심을 구성하는 강력한 구성 하드웨어에 배포되어야 합니다.

HDFS는 빅 데이터를 여러 블록으로 나눈 다음 슬레이브 노드 클러스터에 분산 방식으로 저장합니다. 마스터는 슬레이브 관리, 유지 및 모니터링을 담당하지만 슬레이브는 실제 작업자 노드 역할을 합니다. Hadoop 클러스터에서 작업을 수행하려면 사용자가 마스터 노드에 연결해야 합니다.

HDFS는 두 개의 데몬으로 더 나뉩니다.

네임노드

마스터 머신에서 실행되며 다음 기능을 수행합니다.

DataNode를 유지, 모니터링 및 관리합니다.
하트비트 보고서를 수신하고 DataNode에서 보고서를 차단합니다.
위치, 파일 크기, 권한, 계층 구조 등을 포함하여 클러스터에 있는 모든 블록의 메타데이터를 캡처합니다.
편집 로그에 파일의 삭제, 생성 및 이름 변경과 같은 메타데이터에 대한 모든 변경 사항을 기록합니다.

데이터노드

슬레이브 머신에서 실행되며 다음 기능을 수행합니다.

실제 비즈니스 데이터를 저장합니다.
사용자의 읽기-쓰기 요청을 처리합니다.
NameNode의 명령에 따라 블록을 생성, 삭제, 복제합니다.
3초마다 NameNode에 하트비트 보고서를 보냅니다.

실

앞서 언급했듯이 YARN은 Hadoop에서 데이터 처리를 처리합니다. YARN의 핵심 아이디어는 리소스 관리와 작업 스케줄링 작업을 분리하는 것이었습니다. 두 가지 구성 요소가 있습니다.

리소스 관리자

마스터 노드에서 실행됩니다.
노드 관리자에서 하트비트를 추적합니다.
스케줄러 및 ApplicationManager의 두 가지 하위 부분이 있습니다. 스케줄러가 실행 중인 응용 프로그램에 리소스를 할당하는 동안 ApplicationManager는 작업 제출을 수락하고 응용 프로그램 실행을 위한 첫 번째 컨테이너를 협상합니다.

노드 관리자

개별 슬레이브 머신에서 실행됩니다.
컨테이너를 관리하고 각 컨테이너의 리소스 활용도를 모니터링합니다.
리소스 관리자에게 하트비트 보고서를 보냅니다.

Hadoop 자습서: Hadoop을 배우기 위한 전제 조건

Hadoop 자습서를 시작하고 프레임워크에 익숙해지려면 두 가지 필수 전제 조건이 있어야 합니다.

기본 Linux 명령에 익숙해지십시오.

Hadoop은 Linux OS(가장 바람직하게는 Ubuntu)를 통해 설정되므로 기초 수준의 Linux 명령에 정통해야 합니다.

기본 Java 개념에 익숙해지십시오.

Hadoop 자습서를 시작할 때 추상화, 캡슐화, 상속 및 다형성을 비롯한 Java의 기본 개념을 동시에 배우기 시작할 수도 있습니다.

하둡의 특징

인기 있는 Hadoop의 주요 기능은 다음과 같습니다.

1) 신뢰할 수 있는

Hadoop은 내결함성이 높고 신뢰할 수 있습니다. 노드가 다운되더라도 전체 클러스터가 붕괴되지 않고 다른 노드가 장애가 발생한 노드를 교체합니다. 따라서 Hadoop 클러스터는 흔들리지 않고 계속 작동할 수 있습니다.

2) 확장성

Hadoop은 확장성이 뛰어납니다. 프레임워크를 훨씬 더 확장할 수 있는 클라우드 플랫폼과 통합할 수 있습니다.

3) 경제성

Hadoop 프레임워크는 구성 하드웨어뿐만 아니라 상용 하드웨어(저렴한 시스템)에도 배포할 수 있습니다. 따라서 Hadoop은 확장을 원하는 중소기업에 경제적인 선택입니다.

4) 분산 저장 및 처리

Hadoop은 작업과 파일을 각각 여러 하위 작업과 블록으로 나눕니다. 이러한 하위 작업과 블록은 독립적으로 작동하며 시스템 클러스터 전체에 분산 방식으로 저장됩니다.

하둡을 배워야 하는 이유

최근 연구 보고서 에 따르면 Hadoop 빅 데이터 분석 시장은 CAGR 43.4%로 2016년 67억 1000만 달러에서 2022년 406억 9000만 달러로 성장할 것으로 추정됩니다. 이것은 앞으로 몇 년 동안 빅 데이터에 대한 투자가 상당할 것임을 보여줍니다. 당연히 빅 데이터 프레임워크와 Hadoop과 같은 기술에 대한 수요도 가속화될 것입니다.

그런 일이 발생하면 숙련된 Hadoop 전문가(Hadoop 개발자, Hadoop 설계자, Hadoop 관리자 등)의 필요성이 기하급수적으로 증가할 것입니다.

이것이 바로 지금이 Hadoop을 배우고 Hadoop 기술을 습득하고 Hadoop 도구를 마스터하기에 이상적인 시기인 이유입니다. 빅 데이터 인재의 수요와 공급에서 상당한 기술 격차를 감안할 때, 점점 더 많은 젊은 지망자들이 이 영역으로 이동하기 위한 완벽한 시나리오를 제시합니다.

인재 부족으로 인해 기업은 자격을 갖춘 전문가에게 막대한 연봉과 급여를 기꺼이 지불할 용의가 있습니다. 따라서 지금 Hadoop 기술을 습득하는 데 시간과 노력을 투자하면 가까운 장래에 경력 그래프가 확실히 상승할 것입니다.

결론: Hadoop은 미래의 기술입니다. 물론 커리큘럼의 필수적인 부분은 아닐 수도 있지만 조직 작업의 필수적인 부분이며 앞으로도 그렇게 될 것입니다. 따라서 이 파도를 잡는 데 시간을 낭비하지 마십시오. 번영하고 성취감 있는 경력이 마지막에 당신을 기다립니다.

빅 데이터에 대해 더 알고 싶다면 PG 디플로마 빅 데이터 소프트웨어 개발 전문화 프로그램을 확인하십시오. 이 프로그램은 실무 전문가를 위해 설계되었으며 7개 이상의 사례 연구 및 프로젝트를 제공하고 14개 프로그래밍 언어 및 도구, 실용적인 실습을 다룹니다. 워크샵, 400시간 이상의 엄격한 학습 및 최고의 기업과의 취업 지원.

세계 최고의 대학에서 온라인으로 소프트웨어 개발 과정 을 배우십시오 . 이그 제 큐 티브 PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램을 획득하여 경력을 빠르게 추적하십시오.

미래의 기술 마스터 - 빅 데이터

IIT Bangalore의 빅 데이터 고급 인증 프로그램