Apache Hive Ultimate Tutorial dla początkujących: Naucz się Hive od podstaw

Opublikowany: 2020-03-20

Apache Hive to system hurtowni danych typu open source zbudowany na platformie Hadoop. Służy do odpytywania i analizowania dużych zbiorów danych przechowywanych w plikach Hadoop. Ten samouczek Apache Hive pomoże Ci zrozumieć jego podstawy, cechy i zastosowanie.

W erze cyfrowej każdego dnia generowanych jest około 2,5 tryliona bajtów danych. Potrzebujemy innowacyjnych technologii, aby powstrzymać tę eksplozję danych. A Hive jest jednym z takich narzędzi, które przetwarza ustrukturyzowane i częściowo ustrukturyzowane dane w wiodącym w branży ekosystemie Hadoop. Ponieważ coraz więcej pracodawców stara się wykorzystać możliwości big data, poszukuje osób, które dobrze znają się na narzędziach Hadoop. Dlatego samouczek Hadoop Hive jest niezbędnym elementem każdego kursu Big Data dla początkujących.

Spis treści

Co to jest ul? Wyjaśnij w prosty sposób.

Apache Hive umożliwia programistom podsumowywanie danych, uruchamianie zapytań i analizowanie dużych zestawów danych. Zbudowany na bazie rozproszonego systemu plików Hadoop (HDFS), zapewnia większą strukturę danych, organizując je w tabele. Ponadto Hive używa swojego języka HiveQL lub HQL do wykonywania zapytań podobnych do SQL na danych.

Podczas gdy SQL jest wykonywany na tradycyjnych bazach danych, HQL może automatycznie tłumaczyć zapytania na zadania MapReduce. Hive abstrahuje złożoność Hadoop, konwertując zapytania SQL na serię zadań do wykonania w klastrze Hadoop. Tak więc, aby opanować Apache Hive, potrzebujesz podstawowej znajomości języka SQL. Ale nie ma potrzeby uczyć się Javy.

Przechodząc dalej w naszym samouczku Apache Hive , omówmy jego zastosowania w nowoczesnych środowiskach pracy.

Dlaczego musisz używać Hive?

Tradycyjne systemy baz danych nie są obecnie przystosowane do obsługi dużej ilości danych generowanych przez aplikacje do obsługi dużych zbiorów danych. A Hadoop to framework, który rozwiązuje ten problem. Różne narzędzia wspomagają moduły Hadoop, jednym z nich jest Hive. Dzięki Apache Hive możesz wykonywać następujące zadania:

  • Tabele można dzielić na porcje i dzielić, co umożliwia przetwarzanie danych przechowywanych w rozproszonym systemie plików Hadoop (HDFS). Tabele są zdefiniowane bezpośrednio w HDFS
  • Sterowniki JDBC/ODBC są dostępne do integracji z tradycyjnymi technologiami
  • Zapewnia elastyczność i ewolucję schematu wraz z podsumowaniem danych, ułatwiając analizę
  • Oszczędza Ci pisania złożonych zadań Hadoop MapReduce
  • Koncepcja partycji i zasobnika umożliwia szybkie wyszukiwanie danych
  • Bardzo łatwy do nauczenia i wdrożenia dla programistów SQL
  • Szybki i skalowalny system
  • Hive obsługuje różne rodzaje plików, takie jak plik tekstowy, plik sekwencji, plik RC, plik ORF, plik Parquet i plik AVRO

Jakie są główne elementy architektury Hive?

1. Interfejs użytkownika: umożliwia przesyłanie zapytań, przetwarzanie instrukcji i zarządzanie nimi. Interfejs wiersza poleceń (CLI) i internetowy interfejs użytkownika umożliwiają użytkownikom zewnętrznym łączenie się z Hive.

2. Metastore: Jak sama nazwa wskazuje, metastore przechowuje metadane bazy danych. Zawiera informacje o schemacie i lokalizacji tabel. Przechowuje również metadane partycji. Obecny na tradycyjnej relacyjnej bazie danych, pozwala na monitorowanie danych rozproszonych w klastrze. Śledzi dane, replikuje je i zapewnia kopię zapasową.

3. Sterownik: jest to ta część silnika procesów, która otrzymuje instrukcje HiveQL. Sterownik tworzy sesje w celu wykonania instrukcji i monitoruje jej cykl życia. Przechowuje również metadane generowane podczas wykonywania instrukcji.

4. Kompilator: Ta część mechanizmu przetwarzania HiveQL konwertuje zapytanie na dane wejściowe MapReduce, takie jak abstrakcyjne drzewo składni (AST) i ukierunkowany wykres acykliczny (DAG)

5. Optymalizator: Ten składnik architektury Hive wykonuje przekształcenia w planie wykonania, aby zapewnić zoptymalizowany DAG. Dzieli zadania dla lepszej wydajności.

6. Wykonawca: planuje lub potoczy zadania w celu zakończenia procesu wykonywania. W tym celu współdziała z narzędziem do śledzenia zadań Hadoop.

Przeczytaj: samouczek Hadoop dla początkujących

Ten samouczek Apache Hive nie może być kompletny bez omówienia, w jaki sposób te składniki Hive współdziałają ze sobą w celu wykonywania zapytań. Tak więc wymieniliśmy poniższe kroki.

Krok 1: Użytkownik wprowadza zapytanie do interfejsu CLI lub internetowego interfejsu użytkownika, który przekazuje zapytanie do sterownika.

Krok 2: Sterownik przekazuje zapytanie do kompilatora w celu sprawdzenia. Kompilator zapewnia dokładność składni.

Krok 3: Kompilator żąda od Metastore wymaganych metadanych, aby przejść dalej.

Krok 4: Po otrzymaniu metadanych kompilator ponownie wysyła plan wykonania do sterownika.

Krok 5: Kierowca przekazuje ten plan do silnika wykonawczego.

Krok 6: Silnik wykonawczy wykonuje ostatnie etapy. Wysyła zadanie do JobTracker (węzeł nazwy) w module MapReduce Hadoop.

Krok 7: JobTracker dalej przypisuje zadanie do TaskTracker (węzeł danych).

Krok 8: Zapytanie jest wykonywane i odsyłane do executora.

Krok 9: Wykonawca wysyła wyniki do sterownika.

Krok 10: Sterownik przekazuje wyniki do interfejsu użytkownika programu Hive.

Przeczytaj: Wynagrodzenie programisty Hadoop w Indiach

Co wiesz o Hive Shell?

Hive Shell umożliwia użytkownikom uruchamianie zapytań HQL. Jest to interfejs wiersza poleceń Hive. Możesz uruchomić Hive Shell w dwóch trybach:

  • Nieinteraktywny: Określ lokalizację pliku zawierającego zapytania HQL za pomocą opcji -f. Na przykład hive -f mój-skrypt.q
  • Interaktywne: przejdź bezpośrednio do powłoki Hive i ręcznie przesyłaj zapytania, aby uzyskać wynik. Na przykład $bin/hive, przejdź do powłoki ula

Wymień niektóre ograniczenia Hive

  • Oferuje ograniczoną obsługę podzapytań
  • Zapytania Hive mają duże opóźnienia
  • Widoki zmaterializowane nie są dozwolone w Apache Hive
  • Nie zapewnia zapytań w czasie rzeczywistym, aktualizacji na poziomie wiersza, aktualizacji i operacji usuwania
  • Apache Hive nie nadaje się do procesu przejściowego online ani OLTP

Podsumowując

W tym samouczku Hadoop Hive omówiliśmy różne aspekty Hive, jego użycie i architekturę. Zagłębiliśmy się również w jego działanie i omówiliśmy jego ograniczenia. Wszystkie te informacje pomogą Ci rozpocząć przygodę z nauką Hive. W końcu jest to jeden z najczęściej używanych i zaufanych frameworków Big Data!

Jeśli chcesz dowiedzieć się więcej o Big Data, sprawdź nasz program PG Diploma in Software Development Specialization in Big Data, który jest przeznaczony dla pracujących profesjonalistów i zawiera ponad 7 studiów przypadków i projektów, obejmuje 14 języków programowania i narzędzi, praktyczne praktyczne warsztaty, ponad 400 godzin rygorystycznej pomocy w nauce i pośrednictwie pracy w najlepszych firmach.

Ucz się kursów rozwoju oprogramowania online z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Poprowadź rewolucję technologiczną opartą na danych

7 studiów przypadku i projektów. Pomoc w pracy z najlepszymi firmami. Dedykowany mentor studencki.
Zaawansowany program certyfikacji w Big Data z IIIT Bangalore