28 лучших вопросов и ответов на собеседовании Data Engineer для начинающих и опытных

Опубликовано: 2020-03-11

Готовитесь к собеседованию, но не знаете, как это сделать? Вы можете начать с нашего списка вопросов и ответов для интервью с инженером данных.

Собеседование с дата-инженером — одно из самых сложных. Ты так много должен знать. Но не волнуйтесь, наш список вопросов для собеседования поможет вам в этом. Изучив этот список, вы узнаете ответы на многие важные вопросы, которые может задать рекрутер. Кроме того, этот список даст вам представление о том, что вы должны изучить и узнать при подготовке к собеседованию.

Давайте начнем.

Вопросы и ответы на собеседовании с ведущими инженерами данных

Q.1 – Что такое инженерия данных?

Инжиниринг данных - это подход к разработке программного обеспечения для разработки и проектирования информационных систем. Основное внимание уделяется сбору и анализу данных. В то время как специалисты по данным выполняют различные задачи с большими данными, кто-то должен собрать все эти данные заранее, и эту задачу выполняют инженеры по данным. Инженеры данных также несут ответственность за разработку и обслуживание баз данных. Инженеры данных преобразуют необработанные данные в пригодные для использования данные.

Q.2 – Что вы понимаете под моделированием данных?

Когда вы создаете модель данных для информационной системы, чтобы вы могли отслеживать их данные, это называется моделированием данных. Эти модели данных становятся таблицами в БД (базе данных). Например, если вы хотите проанализировать поведение ваших клиентов, каждый клиент в вашей базе данных будет моделью данных. Это концептуальное представление значений данных, связанных с правилами.

Q.3 — Что такое Hadoop?

Hadoop — это набор утилит с открытым исходным кодом, которые позволяют использовать сеть из нескольких компьютеров для решения задач, связанных с большими данными. Он имеет различные компоненты, которые позволяют обрабатывать большие объемы данных. Разработчиком Hadoop является фонд Apache. Его обширный набор утилит и компонентов позволяет эффективно выполнять множество мощных приложений для работы с большими данными.

Q.4 — Каковы различные компоненты Hadoop?

Hadoop в основном состоит из 4 компонентов: HDFS, MapReduce, YARN и Hadoop Common.

HDFS — это файловая система, в которой хранятся все данные Hadoop. Он имеет высокую пропускную способность, так как это распределенная система хранения.

MapReduce обрабатывает большие объемы данных; YARN — это управление ресурсами Hadoop, которое соответствующим образом распределяет необходимые ресурсы. Hadoop Common — это группа библиотек и утилит, которые вы можете использовать в Hadoop.

Q.5 – Что означает HDFS?

HDFS — это компонент Hadoop. HDFS расшифровывается как распределенная файловая система Hadoop.

Q.6 – Что такое NameNode?

NameNode является частью хранилища данных в HDFS и отслеживает различные файлы, присутствующие в кластерах. NameNodes не хранят данные. Они хранят метаданные DataNodes, где HDFS хранит свои фактические данные.

Q.7 – В чем разница между неструктурированными и структурированными данными?

Системы хранят неструктурированные данные в неуправляемых файловых структурах, а хранилищем структурированных данных является СУБД. Масштабирование схемы структурированных данных является сложной задачей, но это довольно легко сделать с неструктурированными данными. Вы бы использовали ELT (извлечение, преобразование и загрузка) для структурированных данных. С другой стороны, вам потребуется выполнить пакетную обработку или ввод данных.

Q.8 — Сколько типов схем проектирования присутствует в моделировании данных? Кто они такие?

В моделировании данных существует два типа схем проектирования: схема «снежинка» и схема «звезда».

Q.9 – Что происходит, когда сканер блоков обнаруживает поврежденный блок данных? Объяснять.

Это один из популярных вопросов на собеседовании инженера по обработке данных . Поэтому обязательно подготовьте его до того, как сканер блоков обнаружит поврежденный блок данных, DataNode сообщит об этом NameNode. Затем NameNode начинает создавать реплику поврежденного блока, используя одну из своих существующих моделей. Если система не удаляет поврежденный блок данных, она создает столько реплик, сколько имеется коэффициента репликации. Счетчик репликации должен совпадать.

Вопрос 10. Назовите все файлы конфигурации XML, присутствующие в Hadoop.

Файлы конфигурации XML, присутствующие в Hadoop, — HDFS-site, Mapred-site, Yarn-site и Core-site.

Q.11 — Что такое блок в HDFS? Что такое блок-сканер?

В Hadoop блок — это наименьшая единица данных. Сканер блоков — это компонент, который проверяет блоки, присутствующие в узле данных. Hadoop делит большие файлы данных на небольшие блоки данных для удобства хранения.

Q.12- Какие сообщения DataNode отправляет NameNode?

DataNodes посылают сигналы NameNodes, чтобы сообщить им, что они работают. Имя этим сигналам — Сердцебиение. И если DataNodes не может отправить пульс, NameNode определяет, что он умер и перестал работать.

Q.13 – Назовите основные V больших данных.

Четыре основных V больших данных — это скорость, разнообразие, объем и достоверность.

Q.14 – Что подразумевается под COSHH?

COSHH означает расписание на основе классификации и оптимизации для гетерогенных систем Hadoop.

Q.15 – Можете ли вы описать Звездную Схему?

Звездная схема имеет структуру, подобную звезде; поэтому у него такое название. В центре звезды может быть таблица фактов с различными связанными с ней таблицами измерений. Инженеры данных используют его для запроса существенных наборов данных.

Q.16 – Что такое схема снежинки?

Схема «снежинка» является разновидностью схемы «звезда». Единственная разница в том, что у него есть дополнительные измерения, и он получил свое название из-за своей структуры, похожей на снежинку. Он имеет нормализованные таблицы измерений, благодаря чему у него есть другие таблицы.

Вопрос 17. Каковы основные методы редюсера в Hadoop?

В Reducer есть несколько основных методов. Первый — это setup(), который настраивает параметры, cleanup() очищает временные наборы данных, а Reducer запускает метод reduce() с каждой сокращенной задачей.

Q.18 – Что такое FSCK?

FSCK означает проверку файловой системы. Это команда HDFS, и она использует эту команду для обнаружения проблем и несоответствий в файле.

Вопрос 19. Есть ли у Hadoop несколько режимов? Если так, то кто они?

Да, у Hadoop есть три различных режима. Это: автономный режим, полностью распределенный режим и псевдораспределенный режим.

Q.20 – Что означает YARN?

YARN расшифровывается как Yet Another Resource Negotiator.

Вопрос 21. Как вы обеспечиваете безопасность Hadoop?

Для этого сначала включите шифрование в состоянии покоя и при передаче. Вам нужно будет использовать безопасные версии протоколов, которые вы используете в Hadoop. Вы разрешите SASL защищать данные RPC. Вы можете включить SASL через свойство hadoop.rpc.protection.

Вы также защитите канал аутентификации. Клиент может использовать метку времени канала аутентификации для получения билета службы, который затем можно использовать для самоаутентификации.

В.22. Не могли бы вы подробнее рассказать о HDFS (распределенная файловая система Hadoop)?

Hadoop может работать с распределенными файловыми системами, такими как FS, HFTP и S3. Файловая система Google является основой для HDFS и может работать на большом кластере небольших систем.

Q.23 – В чем разница между Snowflake и Star Schema?

В схеме «звезда» у вас больше шансов на избыточность данных, чего нельзя сказать о схеме «снежинка». Схема БД со схемой Star проще, чем со снежинкой. Сложное соединение схемы Snowflake замедляет обработку куба, чего не происходит со схемой Star.

Вопрос 24. Что такое Heartbeat в Hadoop?

В Hadoop есть два типа узлов: NameNode и DataNode. NameNode отвечает за хранение метаданных DataNode и отслеживание их статуса. DataNodes посылают сигналы NameNode, чтобы сообщить им, что они живы и работают. Этот сигнал является сердцебиением.

Q.25 – Что вы понимаете под большими данными?

Когда у вас есть огромное количество неструктурированных и структурированных данных, которые вы не можете обработать обычными методами, это называется большими данными. Большие данные — это область анализа и использования очень сложных наборов данных для сбора информации. Традиционные методы анализа данных плохо работают с такими большими объемами сложных данных. В больших данных перед инженерами данных стоит задача анализа необработанных данных и преобразования их в пригодные для использования данные.

Q.26 – Какие предметы и языки программирования должен знать инженер данных?

Инженер данных должен знать анализ тенденций, машинное обучение, SQL, Hive QL, вероятность, регрессию и линейную алгебру. Инженер данных может знать много других предметов, но это обязательно.

Вопрос 27. В чем разница между DAS и NAS в Hadoop?

Это один из самых популярных вопросов на собеседовании для дата-инженеров, поэтому обратите на него особое внимание. DAS означает хранилище с прямым подключением, а NAS означает хранилище, подключенное к сети. Емкость хранилища NAS составляет от 10^9 до 10^12 в байтах. С другой стороны, DAS имеет емкость хранения 10 ^ 9 байт. Затраты на управление NAS также намного меньше, чем у DAS.

Вопрос 28. Что понимается под расстоянием между узлами в Hadoop? Как бы вы его рассчитали?

В Hadoop расстояние между двумя узлами равно сумме длин до их ближайших узлов. Вы можете использовать getDistance(), чтобы найти расстояние между двумя узлами в Hadoop.

Изучите курсы по науке о данных в лучших университетах мира. Участвуйте в программах Executive PG, Advanced Certificate Programs или Master Programs, чтобы ускорить свою карьеру.

Заключение

Мы уверены, что с помощью этих вопросов для собеседования вы легко подготовитесь. Собеседования по инженерии данных не должны быть стрессовыми. Убедитесь, что вы выспались перед встречей, многие люди слишком волнуются.

И если у вас есть какие-либо вопросы, связанные с инжинирингом данных или интервью, не стесняйтесь спрашивать нас. Мы будем рады помочь вам.

Каковы задачи и обязанности дата-инженеров?

Основная обязанность инженеров данных — подготовка данных для аналитических или операционных целей. В рамках ИТ-индустрии эти инженеры создают конвейеры данных, которые соединяют данные из нескольких исходных систем. Они объединяют, консолидируют и очищают данные, прежде чем структурировать их для использования в аналитических приложениях. Большинство аналитических групп компаний состоят из инженеров по данным и специалистов по данным, которые делают данные более доступными и максимизируют среду больших данных своей компании. Инженеры предоставляют данные в пригодных для использования форматах специалистам по обработке и анализу данных, которые используют эту информацию для выполнения запросов и алгоритмов для приложений прогнозной аналитики, машинного обучения и интеллектуального анализа данных.

Какие навыки необходимы для работы дата-инженером?

Знание разработки и управления системами баз данных является обязательным для инженеров данных. Они должны свободно владеть языками программирования, такими как SQL, Python, R и т. д., а также иметь базовое понимание машинного обучения и алгоритмов. Инженеры данных также должны знать о решениях для хранения данных и инструментах ETL (Extract, Transfer, Load). Наука о данных — дисциплина, требующая тесного сотрудничества, и инженеры данных сотрудничают с различными заинтересованными сторонами, от аналитиков данных до главных технических директоров. Таким образом, навыки межличностного общения, такие как хорошие коммуникативные навыки и высокие навыки сотрудничества, должны быть частью набора навыков каждого инженера данных.

Является ли Data Engineering хорошей карьерой? Сколько в среднем зарабатывает дата-инженер?

Согласно отчету Dice 2020 Tech Job Report, инженеры данных — это самый быстрорастущий вариант карьеры в сфере технологий в 2019 году, при этом количество доступных возможностей увеличилось на 50% по сравнению с прошлым годом. Он приобретает все большее значение в технологическом мире и стал прибыльным вариантом карьеры по мере роста спроса на управление информацией. При начальной зарплате в размере 4 57 532 фунтов стерлингов заработная плата инженеров по обработке данных растет с увеличением многолетнего опыта. Инженеры данных с опытом работы от 1 до 4 лет получают среднюю зарплату в размере 7 20 395 фунтов стерлингов, тогда как инженеры данных среднего звена с опытом работы 5–9 лет и опытные инженеры данных с опытом работы 10–19 лет получают средний общий доход в размере ₹. 12 94 336 и 18 67 992 фунтов стерлингов соответственно.