Yeni Başlayanlar İçin Apache Hive Ultimate Eğitimi: Hive'ı Sıfırdan Öğrenin

Yayınlanan: 2020-03-20

Apache kovanı, Hadoop'un üzerine inşa edilmiş açık kaynaklı bir veri ambarı sistemidir. Hadoop dosyalarında depolanan büyük veri kümelerini sorgulamak ve analiz etmek için kullanılır. Bu Apache Hive öğreticisi , temellerini, özelliklerini ve kullanımını anlamanıza yardımcı olacaktır.

Dijital çağda, her gün yaklaşık 2,5 kentilyon bayt veri üretiliyor. Bu veri patlamasını kontrol altına almak için yenilikçi teknolojilere ihtiyacımız var. Ve Hive, endüstri lideri Hadoop ekosisteminde yapılandırılmış ve yarı yapılandırılmış verileri işleyen böyle bir araçtır. Gittikçe daha fazla sayıda işveren, büyük verilerin yeteneklerinden yararlanmaya çalışırken, Hadoop araçları konusunda bilgili kişileri arıyorlar. Bu nedenle, bir Hadoop Hive öğreticisi , yeni başlayanlar için herhangi bir büyük veri kursunun önemli bir bileşenidir.

İçindekiler

Hive nedir? Basit terimlerle açıklayın.

Apache Hive, geliştiricilerin verileri özetlemesine, sorgular çalıştırmasına ve büyük veri kümelerini analiz etmesine olanak tanır. Hadoop Dağıtılmış Dosya Sistemi (HDFS) üzerine inşa edilmiş olup, verileri tablolar halinde düzenleyerek daha fazla yapı sağlar. Ayrıca Hive, veriler üzerinde SQL benzeri sorgular gerçekleştirmek için HiveQL veya HQL dilini kullanır.

SQL geleneksel veritabanlarında yürütülürken, HQL sorguları otomatik olarak MapReduce işlerine çevirebilir. Hive, SQL sorgularını Hadoop kümesinde yürütülecek bir dizi işe dönüştürerek Hadoop'un karmaşıklığını özetler. Bu nedenle, Apache Hive'da ustalaşmak için SQL ile temel bir aşinalığa ihtiyacınız var. Ancak Java öğrenmenize gerek yoktur.

Apache Hive eğitimimizde devam ederek, modern işyeri ortamlarındaki kullanımlarını tartışalım.

Neden Hive'ı kullanmanız gerekiyor?

Geleneksel veritabanı sistemleri, günümüzde büyük veri uygulamaları tarafından üretilen büyük miktarda veriyi işlemek için donatılmamıştır. Ve Hadoop bu sorunu çözen bir çerçevedir. Çeşitli araçlar Hadoop modüllerine yardımcı olur, Hive bunlardan biridir. Apache Hive ile aşağıdaki görevleri gerçekleştirebilirsiniz:

Tablolar bölümlere ayrılabilir ve gruplanabilir, bu da Hadoop Dağıtılmış Dosya Sisteminde (HDFS) depolanan verilerin işlenmesini mümkün kılar. Tablolar doğrudan HDFS'de tanımlanır
Geleneksel teknolojilerle entegrasyon için JDBC/ODBC sürücüleri mevcuttur
Veri özetleme ile birlikte şema esnekliği ve evrimi sağlayarak daha kolay analizleri kolaylaştırır
Sizi karmaşık Hadoop MapReduce işleri yazmaktan kurtarır
Bölme ve kova konsepti, hızlı veri alımını sağlar
SQL geliştiricileri için öğrenmesi ve uygulaması çok kolay
Hızlı ve ölçeklenebilir sistem
Hive, Metin dosyası, Sıra dosyası, RC dosyası, ORF dosyası, Parke dosyası ve AVRO dosyası gibi farklı dosya türlerini destekler.

Hive mimarisinin ana bileşenleri nelerdir?

1. Kullanıcı arabirimi: Bir sorgu göndermenize, talimatları işlemenize ve yönetmenize olanak tanır. Komut Satırı Arayüzü (CLI) ve web kullanıcı arayüzü, harici kullanıcıların Hive ile bağlantı kurmasına izin verir.

2. Metastore: Adından da anlaşılacağı gibi, metastore, veritabanının meta verilerini tutar. Tabloların düzeni ve konumu hakkında bilgi içerir. Ayrıca bölüm meta verilerini de depolar. Geleneksel ilişkisel veritabanında bulunur, kümedeki dağıtılmış verileri izlemenizi sağlar. Verileri izler, çoğaltır ve yedekleme sağlar.

3. Sürücü: İşlem motorunun HiveQL deyimlerini alan kısmıdır. Sürücü, ifadeyi yürütmek için oturumlar oluşturur ve yaşam döngüsünü izler. Ayrıca, ifadenin yürütülmesi sırasında oluşturulan meta verileri de depolar.

4. Derleyici: HiveQL işlem motorunun bu kısmı, sorguyu Soyut Sözdizimi Ağacı (AST) ve Yönlendirilmiş Döngüsel Grafik (DAG) gibi MapReduce girdilerine dönüştürür.

5. Optimize Edici: Hive mimarisinin bu bileşeni, optimize edilmiş bir DAG sağlamak için yürütme planında dönüşümler gerçekleştirir. Daha iyi performans için görevleri böler.

6. Yürütücü: Yürütme sürecini tamamlamak için görevleri planlar veya sıralar. Bunun için Hadoop iş izleyicisi ile etkileşime girer.

Okuyun: Yeni Başlayanlar için Hadoop Eğitimi

Bu Apache Hive öğreticisi , bu Hive bileşenlerinin sorguları yürütmek için birbirleriyle nasıl etkileşime girdiği tartışılmadan tamamlanamaz. Bu nedenle, aşağıdaki adımları listeledik.

Adım 1: Kullanıcı, sorguyu sürücüye ileten CLI veya Web UI'ye bir sorgu girer.

Adım 2: Sürücü, sorguyu kontrol için derleyiciye iletir. Derleyici, sözdiziminin doğruluğunu sağlar.

Adım 3: Derleyici, daha fazla ilerlemek için gerekli meta veriler için Metastore'u ister.

Adım 4: Meta verileri aldıktan sonra, derleyici yürütme planını sürücüye yeniden gönderir.

Adım 5: Sürücü bu planı yürütme motoruna iletir.

Adım 6: Yürütme motoru son aşamaları gerçekleştirir. Görevi, Hadoop'un MapReduce modülü içindeki JobTracker'a (Ad düğümü) gönderir.

Adım 7: JobTracker ayrıca görevi TaskTracker'a (Veri düğümü) atar.

Adım 8: Sorgu yürütülür ve yürütücüye geri gönderilir.

Adım 9: Yürütücü sonuçları sürücüye gönderir.

Adım 10: Sürücü, sonuçları Hive'ın kullanıcı arayüzüne iletir.

Okuyun: Hindistan'da Hadoop Geliştirici Maaşı

Hive Shell hakkında ne biliyorsunuz?

Hive Shell, kullanıcıların HQL sorguları çalıştırmasını sağlar. Hive'ın komut satırı arayüzüdür. Hive Shell'i iki modda çalıştırabilirsiniz:

Etkileşimsiz: -f seçeneğiyle HQL sorgularını içeren dosyanın konumunu belirtin. Örneğin, Hive -f my-script.q
Etkileşimli: Doğrudan Hive Shell'e gidin ve sonucu almak için sorguları manuel olarak gönderin. Örneğin, $bin/hive, kovan kabuğuna gidin

Hive'ın bazı sınırlamalarını listeleyin

Sınırlı alt sorgu desteği sunar
Kovan sorguları yüksek gecikme süresine sahiptir
Apache Hive'da gerçekleştirilmiş görünümlere izin verilmez
Gerçek zamanlı sorgular, satır düzeyinde güncellemeler, güncelleme ve silme işlemleri sağlamaz.
Apache Hive, çevrimiçi geçiş süreci veya OLTP için uygun değildir

Özetliyor

Bu Hadoop Hive eğitiminde Hive'ın farklı yönlerini, kullanımını ve mimarisini ele aldık. Ayrıca çalışmasını inceledik ve sınırlamalarını tartıştık. Tüm bu bilgiler, Hive öğrenme yolculuğunuza başlamanıza yardımcı olacaktır. Sonuçta, en yaygın kullanılan ve en güvenilir büyük veri çerçevelerinden biridir!

Büyük Veri hakkında daha fazla bilgi edinmek istiyorsanız, çalışan profesyoneller için tasarlanmış ve 7+ vaka çalışması ve proje sağlayan, 14 programlama dili ve aracını kapsayan, pratik uygulamalı Büyük Veride Yazılım Geliştirme Uzmanlığı programında PG Diplomamıza göz atın çalıştaylar, en iyi firmalarla 400 saatten fazla titiz öğrenim ve işe yerleştirme yardımı.

Dünyanın En İyi Üniversitelerinden Online Yazılım Geliştirme Kursları öğrenin . Kariyerinizi hızlandırmak için Yönetici PG Programları, Gelişmiş Sertifika Programları veya Yüksek Lisans Programları kazanın.

Veriye Dayalı Teknolojik Devrime Öncülük Edin

7 Vaka Çalışmaları ve Projeler. En İyi Firmalarla İş Yardımı. Özel Öğrenci Mentoru.

IIIT Bangalore'den Büyük Veride Gelişmiş Sertifika Programı