30 лучших вопросов и ответов на собеседованиях по хранилищам данных в 2022 году [для новичков и опытных]

Опубликовано: 2021-01-06

Вопросы для собеседования в хранилище данных , перечисленные в этой статье, будут полезны тем, кто работает с хранилищем данных и бизнес-аналитикой. С появлением машинного обучения необходимо анализировать большие объемы данных, чтобы получать информацию и быстрее реализовывать результаты. Прошли те дни, когда этапами обработки данных были хранение, усвоение, выборка и обработка данных. Но по мере увеличения объема данных такие данные необходимо обрабатывать и показывать мгновенные результаты.

Все предприятия, такие как здравоохранение, BFSI, коммунальные услуги и многие правительственные организации, переходят на хранилище данных в науке о данных. В результате нанимается больше специалистов, имеющих опыт работы с хранилищем данных, чтобы они могли анализировать большие объемы данных и предоставлять соответствующую информацию. Таким образом, вопросы интервью хранилища данных становятся уместными, чтобы легко взломать интервью и получить важные знания.

Если вы увлечены обработкой больших объемов данных и управлением базами данных, то хранилище данных — отличный вариант карьеры для вас. В этой статье вы получите вопросы для собеседования по хранилищу данных , которые помогут вам подготовиться к следующему собеседованию. Вопросы варьируются от начального до экспертного уровня, поэтому как новички, так и опытные профессионалы получат пользу от этих вопросов для интервью с хранилищем данных .

Оглавление

Вопросы для собеседования по хранилищу данных

Q1: Что такое аналитика данных с точки зрения хранилища данных?

Аналитика данных — это наука о проверке необработанных данных, чтобы делать из них выводы, ориентированные на бизнес. Хранилище данных позволяет анализировать данные.

Q2: Дайте определение предметно-ориентированному хранилищу данных?

Тематические хранилища данных хранят данные по определенной точке, такой как продажи, клиент и продукт.

Q3: Что означает OLAP и каковы его типы?

OLAP — это система, которая обрабатывает, управляет и собирает многомерные данные для управления. Это расшифровывается как онлайн-аналитическая обработка.

Ниже приведены четыре типа серверов OLAP:

Гибридный OLAP
Реляционный OLAP
Специализированные SQL-серверы
Многомерный OLAP

Q4: В чем разница между OLAP и OLTP?

OLAP — это программный инструмент, используемый для анализа данных, который помогает принимать бизнес-решения, а OLTP — это приложение, ориентированное на транзакции, используемое в трехуровневой архитектуре. Ниже приведены некоторые различия между OLAP и OLTP:

OLAP (онлайн-аналитическая обработка)	OLTP (онлайн-обработка транзакций)
Он содержит исторические данные, собранные из разных баз данных.	Он содержит оперативные данные.
Он используется в аналитике данных, интеллектуальном анализе данных и принятии решений.	Он ориентирован на приложения и используется для решения различных бизнес-задач.
Он хранит огромное количество данных и находится в ТБ.	Он хранит небольшой объем данных и хранится в МБ, ГБ и т. Д.
Работает медленно из-за большого размера данных.	Работает очень быстро и запросы проходят на 5% хранимых данных.
Резервное копирование данных требуется только время от времени.	Резервное копирование и восстановление данных происходят регулярно.
Он в основном используется для операции чтения, а операция записи происходит редко.	Он используется как для операций чтения, так и для записи.

Q5: Какие функции выполняет OLAP?

Некоторые из основных функций, выполняемых OLAP, — это Pivot, Drill-down, Roll-up, Slice и Dice.

Q6: Что такое диаграмма ER?

Диаграмма ER расшифровывается как Entity-Relationship Diagram, которая показывает взаимосвязи между сущностями в базе данных.

Q7: Что такое SCD?

SCD расшифровывается как медленно изменяющиеся измерения и применяется в тех случаях, когда записи изменяются с течением времени.

Q8: Определите типы SCD.

Существует 3 типа SCD, как указано ниже:

SCD 1: новая запись заменяет исходную запись.

SCD 2: новая запись добавляется в существующую клиентскую таблицу.

SCD 3: исходные данные изменяются для ввода новых данных.

Q9: Что такое схема снежинки?

Схема снежинки — это схема, имеющая первичную таблицу измерений. Одно или несколько измерений могут быть объединены в основную таблицу измерений. Это единственная таблица, которая может соединяться с таблицей фактов.

Вопрос 10: Определите схему звезды.

Схема «звезда» относится к управлению таблицей таким образом, чтобы результаты можно было легко восстановить в среде хранилища данных.

Q11: Определите схему BUS.

Схема BUS включает набор стандартизированных определений и подтвержденных измерений, если имеется таблица фактов.

Вопрос 12: Определите метаданные.

Это относится к данным о данных. Метаданные состоят из деталей, таких как порядок полей, несколько используемых столбцов, типы данных полей, ограниченная ширина и фиксированная ширина.

Q13: Определите основное измерение.

Основное измерение — это таблица измерений, которая в основном используется для витрины данных или отдельной таблицы фактов.

Q14: Определите циклы в хранилище данных.

Эти циклы существуют между таблицами в хранилище данных. Если между таблицами есть циклы, то генерация запроса занимает больше времени и создает загадку. Поэтому всегда рекомендуется избегать циклов между таблицами.

Q15: Объясните XMLA.

XMLA называется XML для анализа и предлагает стандартный метод доступа к данным из OLAP, интеллектуального анализа данных и других источников данных, доступных через Интернет. Это простой протокол доступа к объектам, который использует методы обнаружения и выполнения. Метод обнаружения извлекает данные из Интернета, а метод выполнения используется для выполнения приложений с использованием различных источников данных.

Читайте: вопросы интервью по науке о данных

Q16: Объясните разницу между базой данных и хранилищем данных.

База данных отличается от хранилища данных тем, что база данных использует реляционную модель для хранения данных. Напротив, хранилище данных использует другие схемы, и начальная схема является одной из них. Ниже приведены некоторые различия между базой данных и хранилищем данных:

Характерная черта	База данных	Хранилище данных
Тип данных	Реляционные данные или объектно-ориентированные данные	Данные большого объема
Операции	Обработка транзакции	Моделирование данных и анализ данных
Габаритные размеры	Двумерные данные	Многомерные данные
Дизайн данных	ER на основе	Схема звезды и снежинки
Размер данных	Небольшой	Большой
Функциональность	Высокая производительность и доступность	Высокая гибкость

Q17: Определите куб в хранилище данных.

Кубы в хранилище данных — это представление многомерных данных. Тело куба состоит из значений данных, а ребро куба содержит элементы измерения.

Q18. Объясните типы хранилища данных?

Хранилище данных бывает трех типов:

Корпоративное хранилище данных: в корпоративном хранилище данных организационные данные из различных функциональных областей объединяются централизованно. Это помогает в извлечении и преобразовании данных, что обеспечивает подробный обзор любого объекта в модели данных.
Оперативное хранилище данных: это хранилище данных помогает получать доступ к данным непосредственно из базы данных, а также поддерживает обработку транзакций. Он объединяет контрастные данные из разных источников, что впоследствии поддерживает различные бизнес-операции.
Витрина данных: в этом хранилище данных хранятся данные для определенной функциональной области. Кроме того, он содержит данные в виде подмножеств, которые затем сохраняются в хранилище данных. Это уменьшает большой объем данных, чтобы пользователи могли эффективно анализировать их и получать ценную информацию.

Q19: Что работает быстрее между многомерным OLAP и реляционным OLAP?

Многомерный OLAP работает быстрее, чем реляционный OLAP.

Многомерный OLAP: в MOLAP данные хранятся в многомерном кубе. Хранение данных происходит в проприетарных форматах, таких как файл PowerOLAP.olp. Эти продукты совместимы с Excel и упрощают взаимодействие с данными.
Реляционный OLAP. В продуктах реляционного OLAP к реляционной базе данных можно получить доступ с помощью SQL, который является стандартным языком, используемым для управления данными в СУБД. При выполнении обработки он принимает запросы клиентов, которые затем преобразуются в SQL-запросы, а затем передаются в СУБД.

Вопрос 20. Объясните разницу между разделяющей иерархической кластеризацией и агломеративной кластеризацией.

В методе агломеративной иерархической кластеризации кластеры считываются снизу вверх, что означает, что программа сначала считывает подкомпонент, а затем родительский. С другой стороны, разделительная иерархическая кластеризация использует подход сверху вниз, при котором сначала считываются данные на родительском уровне, а затем на дочернем уровне.

В агломеративном иерархическом методе объекты присутствуют, и каждый объект строит свой кластер, и все эти кластеры вместе составляют большой кластер. Этот метод в основном состоит из непрерывного слияния, которое происходит до тех пор, пока не будет создан один большой кластер, тогда как в методе разделительной кластеризации происходит разделение кластеров. Родительский кластер делится на более мелкие кластеры. Это деление кластеров продолжается до тех пор, пока каждый кластер не будет состоять из одного объекта.

Узнать больше: Наука о данных и интеллектуальный анализ данных: разница между наукой о данных и интеллектуальным анализом данных

Q21: Что такое метод хамелеона в хранилище данных?

Chameleon — это метод иерархической кластеризации в хранилище данных. Этот метод работает с разреженным графом, состоящим из узлов и ребер. Эти узлы представляют элементы данных, а ребра представляют веса. При таком представлении наборы данных можно легко создавать и получать к ним доступ, преодолевая недостатки существующих методов. Метод работает в два этапа:

На первом этапе граф разделяется, в рамках которого элементы данных делятся на множество подкластеров.
На втором этапе осуществляется поиск подлинных кластеров, которые затем можно объединить с другими подкластерами, созданными на первом этапе.

Q22: Что такое план выполнения и какой подход использует оптимизатор во время выполнения плана?

План выполнения — это план, используемый оптимизатором для выбора комбинации шагов для выполнения SQL-запросов. Оптимизатор выбирает наиболее эффективную комбинацию шагов для выполнения SQL-запросов. Оптимизатор использует два подхода в плане выполнения, т. е. на основе правил и на основе затрат.

Вопрос 23. Какие инструменты используются в ETL (извлечение, преобразование и загрузка)?

Ниже приведен список инструментов ETL:

Информатика
Оракул
Стадия данных
Перекресток данных
Ab initio
Строитель склада

Q24: Чем отличаются метаданные и словари данных?

Метаданные описывают данные. Он содержит всю информацию о данных, такую как источник данных, кто собирал данные и формат данных. Крайне важно понимать информацию о данных, хранящихся в хранилищах данных. С другой стороны, словарь данных является основным определением базы данных. Словарь данных состоит из файлов, присутствующих в базе данных, количества записей, присутствующих в каждом файле, и всей информации о полях в базе данных.

Q25: Определите виртуальное хранилище данных.

Виртуальное хранилище данных предлагает коллективное представление полных данных. Это похоже на логическую модель метаданных, и в ней нет исторических данных. Виртуальное хранилище данных — это лучший способ перевести необработанные данные и представить их в такой форме, которую могут использовать лица, принимающие решения. Данные представлены в виде семантической карты, которая позволяет конечным пользователям просматривать данные в виртуализированной форме.

Читайте также: Вопросы и ответы на собеседовании с аналитиком данных

Q26: Какие подходы используются для проектирования хранилища данных?

При проектировании хранилища данных в основном используются два подхода:

Подход Inmon: это нисходящий подход, при котором сначала создается хранилище данных, а затем строятся витрины данных. В этом подходе хранилище данных действует как центр Фабрики корпоративной информации, а хранилище данных действует как логическая структура.
Подход Кимбалла: это восходящий подход, при котором сначала создается витрина данных. Затем витрина данных интегрируется, образуя полное хранилище данных. Интеграция различных витрин данных называется архитектурой шины хранилища данных.

Q27: Что такое хранилище данных в реальном времени и каковы его преимущества?

Хранилище данных в реальном времени — это концепция хранилища данных, которая собирает данные в реальном времени, как только они появляются, и делает их доступными в хранилище данных.

Преимущества хранилища данных в реальном времени:

Это помогает легко принимать решения.
Он удаляет пакетное окно.
Это решает проблему, связанную с идеальной загрузкой данных.
Он предлагает оптимизированный способ запуска преобразований в базе данных.
Предлагает быстрое восстановление данных.

Q28: Объясните трехуровневую архитектуру цикла ETL.

Цикл ETL состоит из следующих трех уровней:

Промежуточный слой: на этом уровне хранятся данные, извлеченные из нескольких структур данных.
Уровень интеграции данных: данные из промежуточного уровня передаются в базу данных с помощью уровня интеграции. Затем эти данные организуются в иерархические группы, также называемые измерениями, агрегатами и фактами. Измерения и факты вместе образуют схему.
Уровень доступа: конечные пользователи получают доступ к данным через уровень доступа и выполняют анализ данных.

Q29: Что такое очистка данных?

Очистка данных — это метод безвозвратного удаления данных из хранилища данных. Это отличается от удаления данных, поскольку удаление данных удаляет данные только временно, в то время как очистка данных удаляет данные навсегда, а свободное пространство используется для других целей. Для очистки данных используются разные методы. Очищенные данные при необходимости можно заархивировать.

Q30: Определите этапы тестирования в проекте.

Тест ETL состоит из пяти этапов, как указано ниже:

Идентификация требований и источников данных
Получение данных
Реализация бизнес-логики
Создание и публикация данных
Составление отчетов

Также проверьте: Наука о данных против больших данных: разница между наукой о данных и большими данными

Подведение итогов

Это были наиболее часто задаваемые вопросы об интервью с хранилищем данных , которые, несомненно, помогут вам при подготовке к следующему собеседованию. Если вы хотите узнать больше о хранилище данных, вы можете посетить upGrad и получить более глубокие знания. Вы можете найти соответствующую информацию, которая поможет вам правильно понять вопросы интервью в хранилище данных .

Если вам интересно узнать о науке о данных, ознакомьтесь с программой IIIT-B & upGrad Executive PG по науке о данных, которая создана для работающих профессионалов и предлагает более 10 тематических исследований и проектов, практические семинары, наставничество с отраслевыми экспертами, 1 -на-1 с отраслевыми наставниками, более 400 часов обучения и помощи в трудоустройстве в ведущих фирмах.

Как начать карьеру в сфере хранения данных?

Хранилище данных оказалось востребованной вакансией из-за растущего сбора и использования данных для каждой организации. Каждая организация ищет профессионалов, которые могут обрабатывать данные и преобразовывать их в действенные идеи для получения информации из данных.

Вот некоторые из необходимых навыков для работы с хранилищами данных:

1. Первоклассные навыки исследования, решения проблем и анализа.
2. Степень бакалавра в области компьютерных наук или любой другой смежной области, такой как информационные технологии.
3. Надлежащее знание теории реляционных баз данных
4. Опыт работы с системами баз данных от 3-5 лет
5. Опыт работы с моделированием данных и архитектурой
6. Владение устным и письменным общением.
7. Хорошо слушает, чтобы понять информацию, предоставленную техническими и нетехническими участниками.

Вот некоторые из навыков, над которыми нужно начать работать, чтобы построить свою карьеру в области хранилищ данных.

Как начать карьеру в сфере хранения данных?

Существуют определенные требования, которые необходимо выполнить для построения своей карьеры в области хранилищ данных.

1. Во-первых, любой человек должен иметь степень бакалавра в области компьютерных наук или смежных областях.
2. Важен опыт программирования и администрирования SQL-сервера не менее 2 лет.
3. Понимание серверной интеграции и работы с ETL-инструментами
4. Надлежащее знание методов хранения данных и моделирования данных
5. Базовые навыки MS Office

Прохождение курса может сделать весь процесс довольно простым для вас. Существует множество учебных программ, предлагаемых различными университетами и платформами для управления базами данных и администрирования баз данных. Позже вы можете устроиться на работу начального уровня, чтобы набраться опыта и понять все тонкости этой области.

Каковы различные этапы хранения данных в любой компании?

В зависимости от размера компании, возраста и отрасли, этапы хранения данных будут в пределах четырех, указанных ниже.

1. Автономная база данных
2. Автономное хранилище данных
3. Хранилище данных в реальном времени
4. Интегрированное хранилище данных

Каждая компания начинает с 1-го этапа и пытается достичь 4-го этапа, чтобы интегрировать все в бизнес-системы. Надлежащее функционирование хранилищ данных может упростить для менеджера хранилища данных анализ данных и получение из них полезных сведений.