Основные вопросы и ответы интервью Hive 2022

Опубликовано: 2021-01-08

Интервью с большими данными могут проводиться в общих чертах (при этом вы должны иметь общее представление о популярных платформах и инструментах больших данных) или они могут быть сосредоточены на конкретной структуре или инструменте. Сегодня мы сосредоточимся на одном широко используемом фреймворке для работы с большими данными — Apache Hive.

Мы создали этот список вопросов для собеседования по Apache Hive, чтобы помочь вам лучше понять, какие вопросы работодатели обычно задают во время собеседований по Hadoop, касающихся Hive.

Итак, если вы тот, кто хочет пройти интервью с Hive, продолжайте читать до конца!

Что такое Apache Hive?

Apache Hive — это платформа хранения данных, построенная на основе Hadoop. Он в основном используется для анализа структурированных и полуструктурированных данных. Hive предназначен для проецирования структуры данных и выполнения запросов, написанных на языке HQL (язык запросов Hive), подобно операторам SQL. Кроме того, компилятор Hive преобразует эти запросы в задания по уменьшению карты.

Какие приложения поддерживает Hive?

Hive может поддерживать любое приложение, написанное на Python, Java, C++, Ruby и PHP.

Что вы подразумеваете под метастором? Почему Hive не хранит метаданные в HDFS?

Metastore — это репозиторий в Hive, в котором хранится информация о метаданных. Это достигается за счет использования СУБД вместе со слоем ORM (объектно-реляционной модели) с открытым исходным кодом, называемым Data Nucleus, который превращает представление объекта в реляционную схему и наоборот.

Hive хранит метаданные с использованием СУБД, а не HDFS, поскольку операции чтения/записи с использованием HDFS занимают много времени. РСУБД имеет преимущество перед ним, поскольку помогает добиться низкой задержки.

Различие между локальным и удаленным хранилищем метаданных.

Локальное хранилище метаданных работает на той же JVM, что и служба Hive. Он может либо подключаться к базе данных, работающей в отдельной JVM на том же компьютере, либо на удаленном компьютере. Наоборот, удаленное хранилище метаданных работает на отдельной JVM, а не на той, где работает служба Hive.

Что вы подразумеваете под разделом в Hive? Какова его важность?

В Hive таблицы классифицируются и организуются в разделы, чтобы упорядочивать данные аналогичного типа вместе либо в соответствии с столбцом, либо с ключом раздела. Таким образом, раздел на самом деле является подкаталогом в каталоге таблицы. Таблица может иметь более одного ключа раздела для определенного раздела.

Благодаря секционированию вы можете добиться детализации в таблице Hive. Это помогает уменьшить задержку запроса, поскольку он сканирует только соответствующие секционированные данные, а не весь набор данных.

Что такое переменная Hive?

Переменная Hive создается в среде Hive, разработанной языками сценариев Hive. Используя исходную команду, он передает значения в запросы куста, когда запрос начинает выполняться.

Для каких приложений хранилища данных подходит Hive?

Правила проектирования Hadoop и HDFS накладывают определенные ограничения на возможности Hive. Кроме того, он не имеет необходимых функций, необходимых для OLTP (онлайн-обработка транзакций). Hive лучше всего подходит для приложений хранилища данных в больших наборах данных, которые требуют:

Анализ относительно статических данных.
Меньшее время отклика.
Никаких динамических изменений данных.

Что такое индекс улья?

Индекс Hive — это метод оптимизации запросов Hive. Он используется для ускорения доступа к определенному столбцу или набору столбцов в базе данных Hive. Используя индекс Hive, системе базы данных не требуется читать все строки в таблице, чтобы найти выбранные данные.

Зачем нужен Хкатолог?

Hcatalog необходим для обмена структурами данных с внешними системами. Он предоставляет доступ к хранилищу метаданных Hive, поэтому вы можете читать и записывать данные в хранилище данных Hive.

Назовите компоненты обработчика запросов Hive?

Компоненты процессора запросов Hive:

Логический план генерации.
Физический план генерации.
Исполнительный движок.
UDF и UDAF.
Операторы.
Оптимизатор.
Парсер.
Семантический анализатор.
Проверка типа.

Как таблицы формата ORC помогают Hive повысить производительность?

Используя формат файла ORC (Optimized Row Columnar), вы можете эффективно хранить данные Hive, поскольку это помогает упростить многочисленные ограничения формата файла Hive.

Какова функция Object-Inspector?

В Hive Инспектор объектов помогает анализировать внутреннюю структуру объекта строки и индивидуальную структуру столбцов. Кроме того, он также предлагает способы доступа к сложным объектам, которые могут храниться в памяти в различных форматах.

В чем разница между Hive и HBase?

Ключевые различия между Hive и HBase:

Hive — это структура хранилища данных, тогда как HBase — это база данных NoSQL.
Хотя Hive может выполнять большинство запросов SQL, HBase не разрешает запросы SQL.
Hive не поддерживает операции вставки, обновления и удаления на уровне записи в таблице, но HBase поддерживает эти функции.
Hive работает поверх MapReduce, но HBase работает поверх HDFS.

Что такое управляемая таблица и внешняя таблица?

В управляемой таблице как метаданные, так и данные таблицы удаляются из каталога хранилища Hive, если вы выходите из управляемой таблицы. Однако во внешней таблице удаляется только информация метаданных, связанная с таблицей, в то время как данные таблицы сохраняются в HDFS.

Назовите различные компоненты архитектуры Hive.

Архитектура Hive состоит из 5 компонентов:

Пользовательский интерфейс — позволяет пользователю отправлять запросы и другие операции в систему Hive. Пользовательский интерфейс поддерживает веб-интерфейс Hive, командную строку Hive и Hive HD Insight.
Драйвер — создает дескриптор сеанса для запросов, а затем отправляет запросы компилятору для создания плана выполнения для них.
Хранилище метаданных — содержит структурированные данные вместе со всей информацией о различных таблицах и разделах хранилища (с атрибутами). При получении запроса метаданных он отправляет метаданные компилятору для выполнения запросов.
Компилятор — генерирует план выполнения для разбора запросов, выполнения семантического анализа различных блоков запроса и создания выражения запроса.
Механизм выполнения — пока компилятор составляет план выполнения, механизм выполнения реализует его. Он управляет зависимостями различных этапов плана.

Очевидно, что Hive — это нечто большее, чем просто эти 15 вопросов. Это лишь основные понятия, которые помогут вам легче изучить Hive.

Если вам интересно узнать больше о больших данных, ознакомьтесь с нашей программой PG Diploma в области разработки программного обеспечения со специализацией в области больших данных, которая предназначена для работающих профессионалов и включает более 7 тематических исследований и проектов, охватывает 14 языков и инструментов программирования, практические занятия. семинары, более 400 часов интенсивного обучения и помощь в трудоустройстве в ведущих фирмах.

Приятного обучения!

Возглавьте технологическую революцию, основанную на данных

400+ часов обучения. 14 языков и инструментов. Статус выпускника IIIT-B.

Расширенная программа сертификации в области больших данных от IIIT Bangalore