Apache Hive Tutorial final pentru începători: Învață Hive de la zero

Publicat: 2020-03-20

Apache hive este un sistem open-source de depozit de date construit pe Hadoop. Este folosit pentru interogarea și analiza seturi de date mari stocate în fișierele Hadoop. Acest tutorial Apache Hive vă va ajuta să înțelegeți elementele de bază, caracteristicile și utilizarea acestuia.

În era digitală, aproximativ 2,5 chintilioane de octeți de date sunt generați în fiecare zi. Avem nevoie de tehnologii inovatoare pentru a limita această explozie de date. Și Hive este un astfel de instrument care procesează date structurate și semi-structurate în ecosistemul Hadoop, lider în industrie. Pe măsură ce din ce în ce mai mulți angajatori caută să valorifice capacitățile datelor mari, ei caută oameni familiarizați cu instrumentele Hadoop. Prin urmare, un tutorial Hadoop Hive este o componentă esențială a oricărui curs de date mari pentru începători.

Cuprins

Ce este Hive? Explicați în termeni simpli.

Apache Hive permite dezvoltatorilor să rezume date, să execute interogări și să analizeze seturi mari de date. Construit pe baza sistemului de fișiere distribuit Hadoop (HDFS), oferă mai multă structură datelor, organizându-le în tabele. De asemenea, Hive își folosește limbajul HiveQL sau HQL pentru a efectua interogări asemănătoare SQL asupra datelor.

În timp ce SQL este executat pe baze de date tradiționale, HQL poate traduce automat interogările în joburi MapReduce. Hive retrage complexitatea Hadoop prin conversia interogărilor SQL într-o serie de joburi care urmează să fie executate pe clusterul Hadoop. Deci, pentru a stăpâni Apache Hive, aveți nevoie de o familiaritate de bază cu SQL. Dar nu este nevoie să înveți Java.

Continuând în tutorialul nostru Apache Hive , să discutăm despre utilizările sale în mediile moderne de la locul de muncă.

De ce trebuie să utilizați Hive?

Sistemele tradiționale de baze de date nu sunt echipate pentru a gestiona cantitatea mare de date generate de aplicațiile de date mari în prezent. Și Hadoop este un cadru care rezolvă această problemă. Diverse instrumente ajută modulele Hadoop, Hive fiind unul dintre ele. Cu Apache Hive, puteți efectua următoarele sarcini:

Tabelele pot fi porționate și împărțite, făcând posibilă procesarea datelor stocate în sistemul de fișiere distribuit Hadoop (HDFS). Tabelele sunt definite direct în HDFS
Driverele JDBC/ODBC sunt disponibile pentru integrarea cu tehnologiile tradiționale
Oferă flexibilitate și evoluție schemei împreună cu rezumarea datelor, facilitând analize mai ușoare
Vă scutește de la scrierea unor lucrări complexe Hadoop MapReduce
Conceptul de partiție și găleată permite recuperarea rapidă a datelor
Foarte ușor de învățat și implementat pentru dezvoltatorii SQL
Sistem rapid și scalabil
Hive acceptă diferite tipuri de fișiere, cum ar fi fișierul text, fișierul secvență, fișierul RC, fișierul ORF, fișierul Parquet și fișierul AVRO

Care sunt componentele majore ale arhitecturii Hive?

1. Interfață cu utilizatorul: Vă permite să trimiteți o interogare, să procesați instrucțiunile și să le gestionați. Interfața de linie de comandă (CLI) și interfața de utilizare web permit utilizatorilor externi să se conecteze la Hive.

2. Metamagazin: După cum sugerează și numele, metamagazinul deține metadatele bazei de date. Conține informații despre schema și locația tabelelor. De asemenea, stochează metadatele partiției. Prezent pe baza de date relațională tradițională, vă permite să monitorizați datele distribuite în cluster. Acesta urmărește datele, le reproduce și oferă backup.

3. Driver: este acea parte a motorului de proces care primește instrucțiuni HiveQL. Driverul creează sesiuni pentru a executa instrucțiunea și îi monitorizează ciclul de viață. De asemenea, stochează metadatele generate în timpul execuției instrucțiunii.

4. Compilator: această parte a motorului de proces HiveQL convertește interogarea în intrări MapReduce, cum ar fi Arborele de sintaxă abstractă (AST) și Graficul aciclic direcționat (DAG)

5. Optimizer: Această componentă a arhitecturii Hive efectuează transformări în planul de execuție pentru a oferi un DAG optimizat. Împarte sarcinile pentru o performanță mai bună.

6. Executor: Programează sau canalizează sarcinile pentru a finaliza procesul de execuție. Pentru aceasta, interacționează cu instrumentul de urmărire a locurilor de muncă Hadoop.

Citiți: Tutorial Hadoop pentru începători

Acest tutorial Apache Hive nu poate fi complet fără a discuta modul în care aceste componente Hive interacționează între ele pentru a efectua interogări. Deci, am enumerat pașii de mai jos.

Pasul 1: Utilizatorul introduce o interogare în CLI sau Web UI, care redirecționează interogarea către driver.

Pasul 2: Driverul transmite interogarea compilatorului pentru verificare. Compilatorul asigură acuratețea sintaxei.

Pasul 3: compilatorul solicită Metastore-ului metadatele necesare pentru a continua.

Pasul 4: După primirea metadatelor, compilatorul retrimite planul de execuție către driver.

Pasul 5: șoferul transmite acest plan către motorul de execuție.

Pasul 6: Motorul de execuție realizează etapele finale. Trimite sarcina către JobTracker (nodul Nume) din modulul MapReduce al Hadoop.

Pasul 7: JobTracker atribuie în continuare sarcina lui TaskTracker (nodul de date).

Pasul 8: Interogarea este executată și trimisă înapoi executorului.

Pasul 9: Executorul trimite rezultatele șoferului.

Pasul 10: Driverul transmite rezultatele către interfața cu utilizatorul Hive.

Citiți: Salariu pentru dezvoltatori Hadoop în India

Ce știi despre Hive Shell?

Hive Shell permite utilizatorilor să execute interogări HQL. Este interfața de linie de comandă a lui Hive. Puteți rula Hive Shell în două moduri:

Non-interactiv: specificați locația fișierului care conține interogări HQL cu opțiunea -f. De exemplu, hive -f my-script.q
Interactiv: Accesați direct Hive Shell și trimiteți interogări manual pentru a obține rezultatul. De exemplu, $bin/hive, mergeți la hive shell

Enumerați câteva limitări ale Hive

Oferă suport limitat pentru subinterogare
Interogările Hive au o latență ridicată
Vizualizările materializate nu sunt permise în Apache Hive
Nu oferă interogări în timp real, actualizări la nivel de rând, operațiuni de actualizare și ștergere
Apache Hive nu este potrivit pentru procesul de tranziție online sau OLTP

Rezumând

În acest tutorial Hadoop Hive , am acoperit diferite aspecte ale Hive, utilizarea și arhitectura acestuia. De asemenea, am aprofundat în funcționarea acestuia și am discutat despre limitările sale. Toate aceste informații vă vor ajuta să vă începeți călătoria de învățare Hive. La urma urmei, este unul dintre cele mai utilizate și de încredere cadre de date mari!

Dacă sunteți interesat să aflați mai multe despre Big Data, consultați programul nostru PG Diploma în Dezvoltare Software Specializare în Big Data, care este conceput pentru profesioniști care lucrează și oferă peste 7 studii de caz și proiecte, acoperă 14 limbaje și instrumente de programare, practică practică. ateliere de lucru, peste 400 de ore de învățare riguroasă și asistență pentru plasarea unui loc de muncă cu firme de top.

Învață cursuri de dezvoltare software online de la cele mai bune universități din lume. Câștigați programe Executive PG, programe avansate de certificat sau programe de master pentru a vă accelera cariera.

Conduceți revoluția tehnologică bazată pe date

7 Studii de caz și proiecte. Asistență pentru locuri de muncă cu firme de top. Mentor student dedicat.

Program de certificat avansat în Big Data de la IIIT Bangalore