Grundlegende Fragen und Antworten zu Hive-Interviews 2022

Veröffentlicht: 2021-01-08

Big-Data-Interviews können allgemein geführt werden (wobei Sie eine allgemeine Vorstellung von den gängigen Big-Data-Frameworks und -Tools haben müssen) oder sie können sich auf ein bestimmtes Framework oder Tool konzentrieren. Heute konzentrieren wir uns auf ein weit verbreitetes Big-Data-Framework – Apache Hive.

Wir haben diese Liste mit Apache Hive-Interviewfragen erstellt, damit Sie sich ein besseres Bild von der Art der Fragen machen können, die Arbeitgeber normalerweise während Hadoop-Interviews zu Hive stellen.

Wenn Sie also jemand sind, der ein Hive-Interview nageln möchte, lesen Sie bis zum Ende weiter!

Was ist Apache Hive?

Apache Hive ist ein Data-Warehousing-Framework, das auf Hadoop aufbaut. Es wird hauptsächlich zur Analyse strukturierter und halbstrukturierter Daten verwendet. Hive wurde entwickelt, um eine Struktur auf die Daten zu projizieren und Abfragen auszuführen, die in HQL (Hive Query Language) geschrieben sind, ähnlich wie SQL-Anweisungen. Außerdem wandelt der Hive-Compiler diese Abfragen in Map-Reduce-Jobs um.

Welche Art von Anwendungen kann Hive unterstützen?

Hive kann jede Anwendung unterstützen, die in Python, Java, C++, Ruby und PHP geschrieben ist.

Was meinst du mit einem Metastore? Warum speichert Hive die Metadaten nicht in HDFS?

Metastore ist ein Repository in Hive, das die Metadateninformationen speichert. Dies geschieht durch die Nutzung von RDBMS zusammen mit einer Open-Source-ORM-Schicht (Object Relational Model) namens Data Nucleus, die die Objektdarstellung in das relationale Schema umwandelt und umgekehrt.

Hive speichert Metadateninformationen mit RDBMS und nicht mit HDFS, da Lese-/Schreibvorgänge mit HDFS ein zeitaufwändiger Prozess sind. RDBMS hat einen Vorteil gegenüber ihm, da es hilft, eine niedrige Latenz zu erreichen.

Unterscheiden Sie zwischen lokalem und Remote-Metastore.

Ein lokaler Metastore wird in derselben JVM ausgeführt, in der der Hive-Dienst ausgeführt wird. Es kann entweder eine Verbindung zu einer Datenbank herstellen, die in einer separaten JVM auf demselben Computer oder einem Remote-Computer ausgeführt wird. Im Gegenteil, ein Remote-Metastore wird in einer separaten JVM ausgeführt und nicht in der, in der der Hive-Dienst ausgeführt wird.

Was meinst du mit einer Partition in Hive? Was ist seine Bedeutung?

In Hive werden Tabellen klassifiziert und in Partitionen organisiert, um ähnliche Datentypen zusammen zu organisieren, entweder nach einem Spalten- oder Partitionsschlüssel. Eine Partition ist also eigentlich ein Unterverzeichnis im Tabellenverzeichnis. Eine Tabelle kann mehr als einen Partitionsschlüssel für eine bestimmte Partition haben.

Durch Partitionierung können Sie Granularität in einer Hive-Tabelle erreichen. Dies trägt dazu bei, die Abfragelatenz zu reduzieren, da nur relevante partitionierte Daten anstelle des gesamten Datensatzes gescannt werden.

Was ist eine Hive-Variable?

Eine Hive-Variable wird in der von Hive-Skriptsprachen entwickelten Hive-Umgebung erstellt. Mit dem Quellbefehl werden Werte an Hive-Abfragen übertragen, wenn die Abfrage mit der Ausführung beginnt.

Für welche Art von Data-Warehouse-Anwendungen eignet sich Hive?

Die Designvorschriften von Hadoop und HDFS schränken die Fähigkeiten von Hive ein. Außerdem verfügt es nicht über die für OLTP (Online Transaction Processing) erforderlichen Funktionen. Hive eignet sich am besten für Data-Warehouse-Anwendungen in riesigen Datensätzen, die Folgendes erfordern:

Analyse der relativ statischen Daten.
Weniger Reaktionszeit.
Keine dynamischen Datenänderungen.

Was ist ein Hive-Index?

Der Hive-Index ist eine Optimierungsmethode für Hive-Abfragen. Es wird verwendet, um den Zugriff auf eine bestimmte Spalte oder einen Satz von Spalten in einer Hive-Datenbank zu beschleunigen. Durch die Verwendung eines Hive-Index muss das Datenbanksystem nicht alle Zeilen in einer Tabelle lesen, um die ausgewählten Daten zu finden.

Warum brauchen Sie Hcatolog?

Hcatalog ist für die gemeinsame Nutzung von Datenstrukturen mit externen Systemen erforderlich. Es bietet Zugriff auf den Hive-Metastore, sodass Sie Daten in Hive Data Warehouse lesen/schreiben können.

Nennen Sie die Komponenten eines Hive-Abfrageprozessors?

Die Komponenten eines Hive-Abfrageprozessors sind:

Logischer Plan der Generation.
Physischer Plan der Generation.
Ausführungs-Engine.
UDFs und UDAFs.
Betreiber.
Optimierer.
Parser.
Semantischer Analysator.
Geben Sie Überprüfung ein.

Wie helfen Tabellen im ORC-Format Hive, die Leistung zu verbessern?

Mit dem ORC-Dateiformat (Optimized Row Columnar) können Sie die Hive-Daten effizient speichern, da es hilft, zahlreiche Einschränkungen des Hive-Dateiformats zu vereinfachen.

Welche Funktion hat der Objekt-Inspektor?

In Hive hilft der Objekt-Inspektor, die interne Struktur eines Zeilenobjekts und die individuelle Struktur von Spalten zu analysieren. Darüber hinaus bietet es auch Zugriffsmöglichkeiten auf komplexe Objekte, die in verschiedenen Formaten im Speicher abgelegt werden können.

Was ist der Unterschied zwischen Hive und HBase?

Die wichtigsten Unterscheidungsmerkmale zwischen Hive und HBase sind:

Hive ist ein Data-Warehouse-Framework, während HBase eine NoSQL-Datenbank ist.
Während Hive die meisten SQL-Abfragen ausführen kann, lässt HBase keine SQL-Abfragen zu.
Hive unterstützt keine Einfüge-, Aktualisierungs- und Löschvorgänge auf Datensatzebene für eine Tabelle, aber HBase unterstützt diese Funktionen.
Hive läuft auf MapReduce, aber HBase läuft auf HDFS.

Was ist eine verwaltete Tabelle und eine externe Tabelle?

In einer verwalteten Tabelle werden sowohl die Metadateninformationen als auch die Tabellendaten aus dem Hive-Warehouse-Verzeichnis gelöscht, wenn Sie eine verwaltete Tabelle verlassen/beenden. In einer externen Tabelle werden jedoch nur die mit der Tabelle verknüpften Metadateninformationen gelöscht, während die Tabellendaten im HDFS beibehalten werden.

Nennen Sie die verschiedenen Komponenten einer Hive-Architektur.

Es gibt 5 Komponenten einer Hive-Architektur:

Benutzeroberfläche – Ermöglicht es dem Benutzer, Abfragen und andere Vorgänge an das Hive-System zu senden. Die Benutzeroberfläche unterstützt die Hive-Web-UI, die Hive-Befehlszeile und Hive HD Insight.
Treiber – Er erstellt ein Sitzungshandle für die Abfragen und sendet die Abfragen dann an den Compiler, um einen Ausführungsplan dafür zu erstellen.
Metastore – Enthält die strukturierten Daten zusammen mit allen Informationen zu verschiedenen Tabellen und Partitionen im Warehouse (mit Attributen). Beim Empfang der Metadatenanforderung sendet es die Metadaten an den Compiler, um die Abfragen auszuführen.
Compiler – Er generiert den Ausführungsplan, um die Abfragen zu analysieren, eine semantische Analyse für verschiedene Abfrageblöcke durchzuführen und einen Abfrageausdruck zu generieren.
Ausführungsmodul – Während der Compiler den Ausführungsplan erstellt, implementiert das Ausführungsmodul ihn. Es verwaltet die Abhängigkeiten der verschiedenen Phasen des Plans.

Offensichtlich gibt es bei Hive mehr als nur diese 15 Fragen. Dies sind nur die grundlegenden Konzepte, die Ihnen den Einstieg in Hive erleichtern werden.

Wenn Sie mehr über Big Data erfahren möchten, schauen Sie sich unser PG Diploma in Software Development Specialization in Big Data-Programm an, das für Berufstätige konzipiert ist und mehr als 7 Fallstudien und Projekte bietet, 14 Programmiersprachen und Tools abdeckt und praktische praktische Übungen enthält Workshops, mehr als 400 Stunden gründliches Lernen und Unterstützung bei der Stellenvermittlung bei Top-Unternehmen.

Viel Spaß beim Lernen!

Führen Sie die datengesteuerte technologische Revolution an

Über 400 Lernstunden. 14 Sprachen & Tools. IIIT-B Alumni-Status.

Advanced Certificate Program in Big Data vom IIIT Bangalore