Ekosistem & Komponen Hadoop: Tutorial Komprehensif 2022

Diterbitkan: 2021-01-04

Hadoop adalah kerangka kerja sumber terbuka yang digunakan untuk proses data besar. Ini sangat besar dan memiliki banyak komponen. Masing-masing komponen tersebut melakukan serangkaian pekerjaan data besar tertentu. Koleksi besar solusi Hadoop telah menjadikannya bahan pokok industri. Dan jika Anda ingin menjadi ahli big data, Anda harus mengenal semua komponennya.

Namun jangan khawatir, karena dalam artikel ini, kita akan melihat semua komponen tersebut:

Daftar isi

Apa saja Komponen Inti Hadoop?

Komponen inti Hadoop mengatur kinerjanya dan Anda harus mempelajarinya sebelum menggunakan bagian lain dari ekosistemnya. Ekosistem Hadoop sangat luas dan dipenuhi dengan banyak alat. Nama lain untuk komponen intinya adalah modul. Terutama ada yang berikut ini:

Komponen inti Hadoop:

1. HDFS

Bentuk lengkap dari HDFS adalah Hadoop Distributed File System. Ini adalah komponen paling penting dari Hadoop karena berkaitan dengan penyimpanan data. HDFS memungkinkan Anda menyimpan data dalam jaringan perangkat penyimpanan terdistribusi. Ini memiliki seperangkat alat yang memungkinkan Anda membaca data yang tersimpan ini dan menganalisisnya sesuai dengan itu. HDFS memungkinkan Anda untuk melakukan akuisisi data Anda terlepas dari sistem operasi komputer Anda. Baca lebih lanjut tentang HDFS dan arsitekturnya.

Karena Anda tidak perlu khawatir tentang sistem operasi, Anda dapat bekerja dengan produktivitas yang lebih tinggi karena Anda tidak perlu memodifikasi sistem Anda setiap kali Anda menemukan sistem operasi baru. HDFS terdiri dari komponen-komponen berikut:

NamaNode
DataNode
Node Nama Sekunder

Name Node juga disebut 'Master' di HDFS. Ini menyimpan metadata dari node budak untuk melacak penyimpanan data. Ini memberitahu Anda apa yang disimpan di mana. Node master juga memantau kesehatan node slave. Itu juga dapat menetapkan tugas ke node data. Node data menyimpan data. Node data juga disebut 'Budak' di HDFS.

Node budak menanggapi permintaan node master untuk status kesehatan dan menginformasikan situasi mereka. Jika node budak tidak menanggapi permintaan status kesehatan dari node master, node master akan melaporkannya mati dan menetapkan tugasnya ke node data lain.

Terlepas dari node nama dan node budak, ada yang ketiga, Node Nama Sekunder. Ini adalah buffer ke node master. Ini memperbarui data ke gambar FinalFS ketika node master tidak aktif.

2. Pengurangan Peta

MapReduce adalah komponen inti kedua dari Hadoop, dan dapat melakukan dua tugas, Map dan Reduce. Mapreduce adalah salah satu alat Hadoop teratas yang dapat mempermudah perjalanan data besar Anda. Pemetaan mengacu pada membaca data yang ada dalam database dan mentransfernya ke format yang lebih mudah diakses dan fungsional. Pemetaan memungkinkan sistem untuk menggunakan data untuk analisis dengan mengubah bentuknya. Kemudian datang Pengurangan, yang merupakan fungsi matematika. Ini mengurangi data yang dipetakan menjadi satu set data yang ditentukan untuk analisis yang lebih baik.

Ini mem-parsing pasangan kunci dan nilai dan mereduksinya menjadi tupel untuk fungsionalitas. MapReduce membantu dengan banyak tugas di Hadoop, seperti menyortir data dan memfilter data. Kedua komponennya bekerja sama dan membantu dalam penyiapan data. MapReduce juga menangani pemantauan dan penjadwalan pekerjaan.

Ini bertindak sebagai simpul Komputer dari ekosistem Hadoop. Terutama, MapReduce menangani pemecahan tugas data besar menjadi sekelompok tugas kecil. Anda dapat menjalankan pekerjaan MapReduce secara efisien karena Anda dapat menggunakan berbagai bahasa pemrograman dengannya. Ini memungkinkan Anda untuk menggunakan Python, C++, dan bahkan Java untuk menulis aplikasinya. Ini cepat dan terukur, itulah sebabnya ini merupakan komponen penting dari ekosistem Hadoop.

3. BENANG

YARN adalah singkatan dari Yet Another Resource Negotiator. Ini menangani manajemen sumber daya di Hadoop. Manajemen sumber daya juga merupakan tugas penting. Itu sebabnya YARN adalah salah satu komponen Hadoop yang penting. Ini memantau dan mengelola beban kerja di Hadoop. BENANG sangat terukur dan gesit. Ini menawarkan solusi canggih untuk pemanfaatan cluster, yang merupakan keuntungan signifikan lainnya. Pelajari lebih lanjut tentang arsitektur Hadoop YARN.

BENANG terdiri dari beberapa komponen; yang paling penting di antara mereka adalah Resource Manager. Manajer sumber daya menyediakan kerangka kerja yang fleksibel dan umum untuk menangani sumber daya di Hadoop Cluster. Nama lain untuk pengelola sumber daya adalah Master. Pengelola simpul adalah komponen penting lainnya dalam YARN.

Ini memonitor status manajer aplikasi dan wadah di BENANG. Semua pemrosesan data berlangsung di penampung, dan pengelola aplikasi mengelola proses ini jika penampung memerlukan lebih banyak sumber daya untuk melakukan tugas pemrosesan datanya, pengelola aplikasi meminta hal yang sama dari pengelola sumber daya.

4. Hadoop Umum

Apache telah menambahkan banyak perpustakaan dan utilitas di ekosistem Hadoop yang dapat Anda gunakan dengan berbagai modulnya. Hadoop Common memungkinkan komputer untuk bergabung dengan jaringan Hadoop tanpa menghadapi masalah kompatibilitas sistem operasi atau perangkat keras. Komponen ini menggunakan alat Java untuk membiarkan platform menyimpan datanya dalam sistem yang diperlukan.

Itu mendapat nama Hadoop Common karena menyediakan sistem dengan fungsionalitas standar.

Komponen Hadoop Menurut Peran

Sekarang setelah kita melihat komponen inti Hadoop, mari kita mulai membahas bagian lainnya. Seperti yang kami sebutkan sebelumnya, Hadoop memiliki banyak koleksi alat, jadi kami membaginya sesuai dengan perannya dalam ekosistem Hadoop. Mari kita mulai:

Penyimpanan Data

Penjaga kebun binatang

Zookeeper membantu Anda mengelola konvensi penamaan, konfigurasi, sinkronisasi, dan informasi lain dari cluster Hadoop. Ini adalah server ekosistem sumber terbuka yang terpusat.

Katalog H

HCatalog menyimpan data dalam format Biner dan menangani Manajemen Tabel di Hadoop. Ini memungkinkan pengguna untuk menggunakan data yang disimpan dalam HIVE sehingga mereka dapat menggunakan alat pemrosesan data untuk tugas-tugas mereka. Ini memungkinkan Anda untuk melakukan otentikasi berdasarkan Kerberos, dan membantu dalam menerjemahkan dan menafsirkan data.

HDFS

Kami sudah membahas HDFS. HDFS adalah singkatan dari Hadoop Distributed File System dan menangani penyimpanan data di Hadoop. Ini mendukung skalabilitas horizontal dan vertikal. Ini toleran terhadap kesalahan dan memiliki faktor replikasi yang menyimpan salinan data jika Anda kehilangan salah satunya karena beberapa kesalahan.

Mesin Eksekusi

Percikan

Anda akan menggunakan Spark untuk pemrosesan mikro-batch di Hadoop. Itu dapat melakukan ETL dan streaming data waktu nyata. Ini sangat gesit karena dapat mendukung 80 operator tingkat tinggi. Ini adalah kerangka kerja komputasi cluster. Pelajari lebih lanjut tentang aplikasi percikan Apache.

PetaKurangi

Modul bahasa-independen ini memungkinkan Anda mengubah data yang kompleks menjadi data yang dapat digunakan untuk analisis. Ini melakukan pemetaan dan pengurangan data sehingga Anda dapat melakukan berbagai operasi di atasnya, termasuk pengurutan dan pemfilteran yang sama. Ini memungkinkan Anda untuk melakukan pemrosesan data lokal juga.

Tezo

Tez memungkinkan Anda untuk melakukan beberapa tugas MapReduce secara bersamaan. Ini adalah kerangka kerja pemrosesan data yang membantu Anda melakukan pemrosesan data dan pemrosesan batch. Itu dapat merencanakan konfigurasi ulang dan dapat membantu Anda membuat keputusan yang efektif mengenai aliran data. Ini sempurna untuk manajemen sumber daya.

Manajemen Basis Data

impala

Anda akan menggunakan Impala di kluster Hadoop. Itu dapat bergabung dengan toko meta Hive dan berbagi informasi yang diperlukan dengannya. Sangat mudah untuk mempelajari antarmuka SQL dan dapat meminta data besar tanpa banyak usaha.

Sarang lebah

Pengembang komponen Hadoop ini adalah Facebook. Ini menggunakan HiveQL, yang sangat mirip dengan SQL dan memungkinkan Anda melakukan analisis data, ringkasan, kueri. Melalui pengindeksan, Hive membuat tugas kueri data lebih cepat.

HBase

HBase menggunakan HDFS untuk menyimpan data. Ini adalah database yang berfokus pada kolom. Ini memungkinkan database NoSQL untuk membuat tabel besar yang dapat memiliki ratusan ribu (atau bahkan jutaan) kolom dan baris. Anda harus menggunakan HBase jika Anda memerlukan akses baca atau tulis ke kumpulan data. Facebook menggunakan HBase untuk menjalankan platform pesannya.

Latihan Apache

Apache Drill memungkinkan Anda menggabungkan beberapa set data. Ini dapat mendukung berbagai database NoSQL, itulah sebabnya ini sangat berguna. Ini memiliki skalabilitas tinggi, dan dapat dengan mudah membantu banyak pengguna. Ini memungkinkan Anda melakukan semua tugas analitik seperti SQL dengan mudah. Ini juga memiliki solusi otentikasi untuk menjaga keamanan ujung-ke-ujung dalam sistem Anda.

Abstraksi

Apache Sqoop

Anda dapat menggunakan Apache Sqoop untuk mengimpor data dari sumber eksternal ke penyimpanan data Hadoop, seperti HDFS atau HBase. Anda dapat menggunakannya untuk mengekspor data dari penyimpanan data Hadoop ke penyimpanan data eksternal juga. Kemampuan Sqoop untuk mentransfer data secara paralel mengurangi beban berlebihan pada sumber daya dan memungkinkan Anda mengimpor atau mengekspor data dengan efisiensi tinggi. Anda dapat menggunakan Sqoop untuk menyalin data juga.

Babi Apache

Dikembangkan oleh Yahoo, Apache pig membantu Anda menganalisis kumpulan data besar. Ia menggunakan bahasanya, Pig Latin, untuk melakukan tugas yang diperlukan dengan lancar dan efisien. Anda dapat memparalelkan struktur program Pig jika Anda perlu menangani kumpulan data yang sangat besar, yang menjadikan Pig sebagai solusi luar biasa untuk analisis data. Manfaatkan tutorial babi Apache kami untuk memahami lebih lanjut.

Aliran Data

Saluran

Flume memungkinkan Anda mengumpulkan data dalam jumlah besar. Ini adalah solusi pengumpulan data yang mengirimkan data yang dikumpulkan ke HDFS. Ini memiliki tiga bagian, yaitu saluran, sumber, dan akhirnya, tenggelam. Flume memiliki agen yang menjalankan aliran data. Data yang ada dalam aliran ini disebut peristiwa. Twitter menggunakan Flume untuk streaming tweetnya.

Kafka

Apache Kafka adalah solusi yang tahan lama, cepat, dan skalabel untuk perpesanan publik terdistribusi. LinkedIn berada di balik pengembangan alat canggih ini. Itu memelihara umpan besar pesan dalam suatu topik. Banyak perusahaan menggunakan Kafka untuk streaming data. MailChimp, Airbnb, Spotify, dan FourSquare adalah beberapa pengguna terkemuka dari alat canggih ini.

Pelajari lebih lanjut – Komponen Hadoop

Dalam panduan ini, kami mencoba menyentuh setiap komponen Hadoop secara singkat untuk membuat Anda terbiasa dengannya secara menyeluruh. Jika Anda ingin mengetahui lebih lanjut tentang komponen Hadoop dan arsitekturnya, maka kami sarankan untuk mengunjungi blog kami, yang penuh dengan artikel ilmu data yang bermanfaat.

Jika Anda tertarik untuk mengetahui lebih banyak tentang Big Data, lihat Diploma PG kami dalam Spesialisasi Pengembangan Perangkat Lunak dalam program Big Data yang dirancang untuk para profesional yang bekerja dan menyediakan 7+ studi kasus & proyek, mencakup 14 bahasa & alat pemrograman, praktik langsung lokakarya, lebih dari 400 jam pembelajaran yang ketat & bantuan penempatan kerja dengan perusahaan-perusahaan top.

Pelajari Kursus Pengembangan Perangkat Lunak online dari Universitas top dunia. Dapatkan Program PG Eksekutif, Program Sertifikat Lanjutan, atau Program Magister untuk mempercepat karier Anda.

Kuasai Teknologi Masa Depan - Big Data

7 Studi Kasus & Proyek. Bantuan Pekerjaan dengan Perusahaan Top. Mentor Mahasiswa Berdedikasi.

Program Sertifikat Tingkat Lanjut dalam Data Besar dari IIIT Bangalore