Hadoop Ekosistemi ve Bileşenleri: Kapsamlı Eğitim 2022

Yayınlanan: 2021-01-04

Hadoop, büyük veri süreçleri için kullanılan açık kaynaklı bir çerçevedir. Muazzamdır ve birçok bileşeni vardır. Bu bileşenlerin her biri belirli bir dizi büyük veri işi gerçekleştirir. Hadoop'un geniş çözüm koleksiyonu onu bir endüstri elyafı haline getirdi. Ve bir büyük veri uzmanı olmak istiyorsanız, tüm bileşenlerine aşina olmalısınız.

Ancak endişelenmeyin, çünkü bu makalede tüm bu bileşenlere bir göz atacağız:

İçindekiler

Hadoop Çekirdek Bileşenleri nelerdir?

Hadoop çekirdek bileşenleri performansını yönetir ve ekosisteminin diğer bölümlerini kullanmadan önce onlar hakkında bilgi edinmeniz gerekir. Hadoop'un ekosistemi çok geniştir ve birçok araçla doludur. Çekirdek bileşenleri için başka bir isim modüllerdir. Öncelikle aşağıdakiler vardır

Hadoop çekirdek bileşenleri:

1. HDFS

HDFS'nin tam biçimi Hadoop Dağıtılmış Dosya Sistemidir. Veri depolamayla ilgili olduğu için Hadoop'un en kritik bileşenidir. HDFS, verileri dağıtılmış depolama aygıtlarından oluşan bir ağda depolamanıza olanak tanır. Bu saklanan verileri okumanıza ve buna göre analiz etmenize izin veren kendi araçlarına sahiptir. HDFS, bilgisayarınızın işletim sisteminden bağımsız olarak verilerinizin alınmasını gerçekleştirmenizi sağlar. HDFS ve mimarisi hakkında daha fazlasını okuyun.

İşletim sistemi konusunda endişelenmenize gerek olmadığı için, her yeni işletim sistemiyle karşılaştığınızda sisteminizi değiştirmek zorunda kalmayacağınız için daha yüksek verimlilikle çalışabilirsiniz. HDFS aşağıdaki bileşenlerden oluşur:

AdDüğümü
Veri Düğümü
İkincil AdDüğümü

Ad Düğümü, HDFS'de 'Master' olarak da adlandırılır. Veri depolamayı takip etmek için bağımlı düğümlerin meta verilerini depolar. Neyin nerede saklandığını söyler. Ana düğüm, bağımlı düğümlerin sağlığını da izler. Veri düğümlerine de görevler atayabilir. Veri düğümleri verileri depolar. Veri düğümleri, HDFS'de 'Slave' olarak da adlandırılır.

Bağımlı düğümler, ana düğümün sağlık durumu talebine yanıt verir ve durumu hakkında bilgilendirir. Bir bağımlı düğümün, ana düğümün sağlık durumu talebine yanıt vermemesi durumunda, ana düğüm, onun öldüğünü bildirecek ve görevini başka bir veri düğümüne atayacaktır.

Ad düğümü ve bağımlı düğümlerin yanı sıra üçüncü bir tane, İkincil Ad Düğümü var. Ana düğüm için bir arabellektir. Ana düğüm etkin olmadığında, verileri FinalFS görüntüsüne günceller.

2. Harita Küçültme

MapReduce, Hadoop'un ikinci temel bileşenidir ve Harita ve Azaltma olmak üzere iki görevi gerçekleştirebilir. Mapreduce, büyük veri yolculuğunuzu kolaylaştırabilecek en iyi Hadoop araçlarından biridir. Haritalama, bir veritabanında bulunan verilerin okunması ve daha erişilebilir ve işlevsel bir formata aktarılması anlamına gelir. Haritalama, sistemin şeklini değiştirerek verileri analiz için kullanmasını sağlar. Ardından matematiksel bir fonksiyon olan İndirgeme gelir. Daha iyi analiz için eşlenen verileri bir dizi tanımlanmış veriye indirger.

Anahtar ve değer çiftlerini ayrıştırır ve işlevsellik için bunları demetlere indirger. MapReduce, Hadoop'ta verileri sıralama ve verileri filtreleme gibi birçok görevde yardımcı olur. İki bileşeni birlikte çalışır ve verilerin hazırlanmasına yardımcı olur. MapReduce, işlerin izlenmesini ve planlanmasını da yönetir.

Hadoop ekosisteminin Bilgisayar düğümü olarak işlev görür. Temel olarak, MapReduce, büyük bir veri görevini bir grup küçük göreve bölmekle ilgilenir. MapReduce ile çeşitli programlama dillerini kullanabileceğiniz için MapReduce işlerini verimli bir şekilde çalıştırabilirsiniz. Uygulamalarını yazmak için Python, C++ ve hatta Java kullanmanıza izin verir. Hızlı ve ölçeklenebilirdir, bu yüzden Hadoop ekosisteminin hayati bir bileşenidir.

3. İPLİK

YARN, Yet Another Resource Negotiator anlamına gelir. Hadoop'ta kaynak yönetimini yönetir. Kaynak yönetimi de çok önemli bir görevdir. Bu nedenle YARN, temel Hadoop bileşenlerinden biridir. Hadoop'taki iş yüklerini izler ve yönetir. YARN, yüksek düzeyde ölçeklenebilir ve çeviktir. Bir diğer önemli avantaj olan küme kullanımı için size gelişmiş çözümler sunar. Hadoop YARN mimarisi hakkında daha fazla bilgi edinin.

İPLİK birden çok bileşenden oluşur; bunlardan en önemlisi Kaynak Yöneticisidir. Kaynak yöneticisi, bir Hadoop Kümesindeki kaynakları işlemek için esnek ve genel çerçeveler sağlar. Kaynak yöneticisinin diğer adı Master'dır. Düğüm yöneticisi, YARN'deki bir diğer hayati bileşendir.

YARN'deki uygulama yöneticisinin ve kapsayıcının durumunu izler. Tüm veri işleme kapsayıcıda gerçekleşir ve kapsayıcı veri işleme görevlerini gerçekleştirmek için daha fazla kaynağa ihtiyaç duyarsa uygulama yöneticisi bu süreci yönetir, uygulama yöneticisi de aynı şeyi kaynak yöneticisinden ister.

4. Hadoop Ortak

Apache, çeşitli modülleri ile kullanabileceğiniz Hadoop ekosistemine birçok kütüphane ve yardımcı program eklemiştir. Hadoop Common, bir bilgisayarın işletim sistemi uyumluluğu veya donanımıyla ilgili herhangi bir sorunla karşılaşmadan Hadoop ağına katılmasını sağlar. Bu bileşen, platformun verilerini gerekli sistem içinde depolamasına izin vermek için Java araçlarını kullanır.

Sisteme standart işlevsellik sağladığı için Hadoop Common adını alır.

Role Göre Hadoop Bileşenleri

Şimdi Hadoop çekirdek bileşenlerine bir göz attığımıza göre, diğer kısımlarını tartışmaya başlayalım. Daha önce bahsettiğimiz gibi, Hadoop'un geniş bir araç koleksiyonu var, bu yüzden onları Hadoop ekosistemindeki rollerine göre ayırdık. Başlayalım:

Verilerin Depolanması

hayvan bakıcısı

Zookeeper, Hadoop kümelerinin adlandırma kurallarını, yapılandırmasını, senkronizasyonunu ve diğer bilgi parçalarını yönetmenize yardımcı olur. Ekosistemin açık kaynaklı merkezi sunucusudur.

HCatalog

HCatalog, verileri Binary biçiminde depolar ve Hadoop'ta Tablo Yönetimini yönetir. Kullanıcıların, görevleri için veri işleme araçlarını kullanabilmeleri için HIVE'da depolanan verileri kullanmalarını sağlar. Kerberos'a dayalı kimlik doğrulaması yapmanızı sağlar ve verilerin çevrilmesine ve yorumlanmasına yardımcı olur.

HDFS

HDFS'yi zaten tartıştık. HDFS, Hadoop Dağıtılmış Dosya Sistemi anlamına gelir ve Hadoop'ta veri depolamayı yönetir. Yatay ve dikey ölçeklenebilirliği destekler. Hataya dayanıklıdır ve bir hata nedeniyle herhangi birini kaybetmeniz durumunda verilerin kopyalarını tutan bir çoğaltma faktörüne sahiptir.

Yürütme Motoru

Kıvılcım

Hadoop'ta mikro toplu işleme için Spark'ı kullanırsınız. ETL ve gerçek zamanlı veri akışı gerçekleştirebilir. 80 üst düzey operatörü destekleyebildiği için oldukça çeviktir. Bu bir küme bilgi işlem çerçevesidir. Apache kıvılcım uygulamaları hakkında daha fazla bilgi edinin.

Harita indirgeme

Bu dilden bağımsız modül, karmaşık verileri analiz için kullanılabilir verilere dönüştürmenize olanak tanır. Verileri eşleme ve küçültme işlemlerini gerçekleştirir, böylece sıralama ve filtreleme de dahil olmak üzere üzerinde çeşitli işlemler gerçekleştirebilirsiniz. Verileri yerel olarak işlemenizi de sağlar.

tez

Tez, aynı anda birden fazla MapReduce görevi gerçekleştirmenize olanak tanır. Veri işleme ve toplu işleme gerçekleştirmenize yardımcı olan bir veri işleme çerçevesidir. Yeniden yapılandırmayı planlayabilir ve veri akışıyla ilgili etkili kararlar almanıza yardımcı olabilir. Kaynak yönetimi için mükemmeldir.

Veritabanı Yönetimi

İmpala

Hadoop kümelerinde Impala kullanırsınız. Hive'ın meta mağazasına katılabilir ve gerekli bilgileri onunla paylaşabilir. SQL arayüzünü öğrenmek kolaydır ve büyük verileri fazla çaba harcamadan sorgulayabilir.

kovan

Bu Hadoop bileşeninin geliştiricisi Facebook'tur. SQL'e oldukça benzeyen ve veri analizi, özetleme, sorgulama yapmanızı sağlayan HiveQL'yi kullanır. Hive, indeksleme yoluyla veri sorgulama görevini daha hızlı hale getirir.

HBase

HBase, verileri depolamak için HDFS kullanır. Sütun odaklı bir veritabanıdır. NoSQL veritabanlarının yüz binlerce (hatta milyonlarca) sütun ve satır içerebilecek devasa tablolar oluşturmasına olanak tanır. Veri kümelerine okuma veya yazma erişimine ihtiyacınız varsa HBase kullanmalısınız. Facebook, mesaj platformunu çalıştırmak için HBase'i kullanır.

Apaçi Tatbikatı

Apache Drill, birden çok veri kümesini birleştirmenize olanak tanır. Çeşitli NoSQL veritabanlarını destekleyebilir, bu yüzden oldukça kullanışlıdır. Yüksek ölçeklenebilirliğe sahiptir ve çok sayıda kullanıcıya kolayca yardımcı olabilir. SQL benzeri tüm analitik görevlerini kolaylıkla gerçekleştirmenizi sağlar. Ayrıca, sisteminizde uçtan uca güvenliği sağlamak için kimlik doğrulama çözümlerine sahiptir.

Soyutlama

Apache Sqoop'u

Harici kaynaklardan gelen verileri HDFS veya HBase gibi Hadoop'un veri deposuna aktarmak için Apache Sqoop'u kullanabilirsiniz. Hadoop'un veri deposundaki verileri harici veri depolarına aktarmak için de kullanabilirsiniz. Sqoop'un verileri paralel olarak aktarma yeteneği, kaynaklar üzerindeki aşırı yükleri azaltır ve verileri yüksek verimlilikle içe veya dışa aktarmanıza olanak tanır. Sqoop'u verileri kopyalamak için de kullanabilirsiniz.

Apaçi Domuzu

Yahoo tarafından geliştirilen Apache pig, büyük veri kümelerinin analizinde size yardımcı olur. Gerekli görevleri sorunsuz ve verimli bir şekilde gerçekleştirmek için kendi dili olan Pig Latin'i kullanır. Çok büyük veri kümelerini işlemeniz gerekiyorsa, Pig programlarının yapısını paralel hale getirebilirsiniz, bu da Pig'i veri analizi için olağanüstü bir çözüm haline getirir. Daha fazlasını anlamak için apache domuz öğreticimizi kullanın.

Veri Akışı

kanal

Flume, büyük miktarda veri toplamanıza olanak tanır. Toplanan verileri HDFS'ye gönderen bir veri toplama çözümüdür. Kanallar, kaynaklar ve son olarak lavabolar olmak üzere üç bölümü vardır. Flume, veri akışını çalıştıran aracılara sahiptir. Bu akışta bulunan verilere olaylar denir. Twitter, tweetlerinin akışı için Flume kullanır.

Kafkas

Apache Kafka, dağıtılmış genel mesajlaşma için dayanıklı, hızlı ve ölçeklenebilir bir çözümdür. Bu güçlü aracın geliştirilmesinin arkasında LinkedIn var. Bir konu içinde büyük mesaj beslemelerini korur. Birçok kuruluş, veri akışı için Kafka'yı kullanır. MailChimp, Airbnb, Spotify ve FourSquare bu güçlü aracın önde gelen kullanıcılarından bazılarıdır.

Daha fazla bilgi edinin – Hadoop Bileşenleri

Bu kılavuzda, sizi tam olarak tanımak için her Hadoop bileşenine kısaca dokunmaya çalıştık. Hadoop bileşenleri ve mimarisi hakkında daha fazla bilgi edinmek istiyorsanız, faydalı veri bilimi makaleleriyle dolu blogumuza gitmenizi öneririz.

Büyük Veri hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 7+ vaka çalışması ve proje sağlayan, 14 programlama dili ve aracını kapsayan, pratik uygulamalı Büyük Veride Yazılım Geliştirme Uzmanlığı programında PG Diplomamıza göz atın çalıştaylar, en iyi firmalarla 400 saatten fazla titiz öğrenim ve işe yerleştirme yardımı.

Dünyanın En İyi Üniversitelerinden Online Yazılım Geliştirme Kursları öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Geleceğin Teknolojisinde Ustalaşın - Büyük Veri

7 Vaka Çalışmaları ve Projeler. En İyi Firmalarla İş Yardımı. Özel Öğrenci Mentoru.

IIIT Bangalore'den Büyük Veride Gelişmiş Sertifika Programı