Top 28 Fragen und Antworten zum Vorstellungsgespräch für Dateningenieure für Anfänger und Fortgeschrittene

Veröffentlicht: 2020-03-11

Sie bereiten sich auf ein Vorstellungsgespräch vor, wissen aber nicht, wie Sie dabei vorgehen sollen? Sie können mit unserer Liste mit Fragen und Antworten zu Vorstellungsgesprächen für Dateningenieure beginnen.

Interviews mit Dateningenieuren gehören zu den am schwierigsten zu knackenden. Es gibt so viel, worüber Sie wissen sollten. Aber keine Sorge, denn unsere Liste mit Interviewfragen hilft Ihnen dabei. Nachdem Sie diese Liste durchgegangen sind, kennen Sie die Antworten auf viele wichtige Fragen, die ein Personalvermittler stellen könnte. Außerdem gibt Ihnen diese Liste eine Vorstellung davon, was Sie lernen und lernen sollten, während Sie sich auf das Vorstellungsgespräch vorbereiten.

Lass uns anfangen.

Die besten Fragen und Antworten in Vorstellungsgesprächen für Dateningenieure

Q.1 – Was ist Data Engineering?

Data Engineering ist ein softwaretechnischer Ansatz zur Entwicklung und Gestaltung von Informationssystemen. Es konzentriert sich auf die Erhebung und Analyse von Daten. Während Data Scientists verschiedene Aufgaben mit Big Data ausführen, muss jemand zuvor alle diese Daten sammeln, und Data Engineers führen diese Aufgabe aus. Dateningenieure sind auch für die Entwicklung und Wartung von Datenbanken verantwortlich. Dateningenieure wandeln Rohdaten in nutzbare Daten um.

F.2 – Was verstehen Sie unter Datenmodellierung?

Wenn Sie ein Datenmodell für ein Informationssystem erstellen, um dessen Daten zu verfolgen, nennt man das Datenmodellierung. Diese Datenmodelle werden zu Tabellen in einer DB (Datenbank). Wenn Sie beispielsweise Ihr Kundenverhalten analysieren möchten, wäre jeder Kunde in Ihrer Datenbank ein Datenmodell. Es ist die konzeptionelle Darstellung von Datenwerten, die Regeln zugeordnet sind.

F.3 – Was ist Hadoop?

Hadoop ist eine Open-Source-Softwaresammlung von Dienstprogrammen, mit denen Sie ein Netzwerk aus mehreren Computern verwenden können, um Probleme im Zusammenhang mit Big Data zu lösen. Es verfügt über verschiedene Komponenten, mit denen Sie große Datenmengen verarbeiten können. Entwickler von Hadoop ist die Apache Foundation. Seine umfangreiche Sammlung von Dienstprogrammen und Komponenten ermöglicht es Ihnen, viele leistungsstarke Big-Data-Anwendungen effizient auszuführen.

F.4 – Was sind die verschiedenen Komponenten von Hadoop?

Hadoop besteht hauptsächlich aus 4 Komponenten, und zwar HDFS, MapReduce, YARN und Hadoop Common.

HDFS ist das Dateisystem, das alle Daten von Hadoop speichert. Es hat eine hohe Bandbreite als verteiltes Speichersystem.

MapReduce verarbeitet große Datenmengen; YARN ist das Ressourcenmanagement von Hadoop und weist die benötigten Ressourcen entsprechend zu. Hadoop Common ist eine Gruppe von Bibliotheken und Dienstprogrammen, die Sie in Hadoop verwenden können.

F.5 – Wofür steht HDFS?

HDFS ist eine Hadoop-Komponente. HDFS steht für Hadoop Distributed File System.

F.6 – Was ist ein NameNode?

Ein NameNode ist ein Teil der Datenspeicherung in HDFS und verfolgt die verschiedenen Dateien, die in Clustern vorhanden sind. NameNodes speichern keine Daten. Sie speichern Metadaten von DataNodes, wo HDFS seine eigentlichen Daten speichert.

Q.7 – Was ist der Unterschied zwischen unstrukturierten und strukturierten Daten?

Systeme speichern unstrukturierte Daten in nicht verwalteten Dateistrukturen, während der Speicher für strukturierte Daten DBMS ist. Die Schemaskalierung von strukturierten Daten ist eine Herausforderung, aber mit unstrukturierten Daten ist sie recht einfach zu bewerkstelligen. Sie würden ELT (Extract, Transform, and Load) für strukturierte Daten verwenden. Andererseits müssten Sie eine Stapelverarbeitung oder Dateneingabe durchführen.

F.8 – Wie viele Arten von Entwurfsschemata gibt es in der Datenmodellierung? Was sind Sie?

Es gibt zwei Arten von Entwurfsschemas in der Datenmodellierung: Snowflake-Schema und Star-Schema.

F.9 – Was passiert, wenn Block Scanner einen beschädigten Datenblock findet? Erklären.

Dies ist eine der beliebtesten Fragen in Vorstellungsgesprächen für Dateningenieure . Stellen Sie also sicher, dass Sie ihn vorbereiten, bevor der Blockscanner einen beschädigten Datenblock findet, meldet DataNode dies an NameNode. Dann beginnt der NameNode mit der Erstellung einer Kopie des beschädigten Blocks, indem er eines seiner vorhandenen Modelle verwendet. Wenn das System den beschädigten Datenblock nicht löscht, erstellt es so viele Replikate, wie es den Replikationsfaktor gibt. Die Replikationsanzahl muss übereinstimmen.

F.10 – Benennen Sie alle in Hadoop vorhandenen XML-Konfigurationsdateien.

Die in Hadoop vorhandenen XML-Konfigurationsdateien sind HDFS-Site, Mapred-Site, Yarn-Site und Core-Site.

Q.11 – Was ist ein Block in HDFS? Was ist ein Blockscanner?

In Hadoop ist ein Block die kleinste Dateneinheit. Ein Block-Scanner ist eine Komponente, die die auf einem DataNode vorhandenen Blöcke überprüft und verifiziert. Hadoop unterteilt große Datendateien zur einfacheren Speicherung in kleine Datenblöcke.

Q.12- Welche Nachrichten sendet ein DataNode an den NameNode?

DataNodes senden Signale an NameNodes, um sie darüber zu informieren, dass sie arbeiten. Der Name dieser Signale ist Heartbeat. Und wenn ein DataNodes keinen Heartbeat sendet, stellt NameNode fest, dass er gestorben ist und nicht mehr funktioniert.

F.13 – Nennen Sie die zentralen Vs von Big Data.

Die vier zentralen Vs von Big Data sind Velocity, Variety, Volume und Veracity.

F.14 – Was ist mit COSHH gemeint?

COSHH steht für Classification and Optimization-based Schedule for Heterogeneous Hadoop systems.

Q.15 – Können Sie Star Schema beschreiben?

Das Sternschema hat eine ähnliche Struktur wie ein Stern; deshalb hat es seinen Namen. Das Zentrum des Sterns könnte eine Faktentabelle mit verschiedenen zugehörigen Dimensionstabellen haben. Dateningenieure verwenden es, um umfangreiche Datensätze abzufragen.

F.16 – Was ist das Snowflake-Schema?

Ein Schneeflockenschema ist eine Form des Sternschemas. Der einzige Unterschied besteht darin, dass es zusätzliche Abmessungen hat und seinen Namen von seiner schneeflockenartigen Struktur ableitet. Es hat normalisierte Dimensionstabellen, aufgrund derer es andere Tabellen hat.

Q.17- Was sind die Kernmethoden eines Reducers in Hadoop?

Es gibt mehrere Kernmethoden in Reducer. Das erste ist setup (), das Parameter konfiguriert, cleanup () bereinigt temporäre Datensätze, und der Reducer führt mit jeder reduzierten Aufgabe die Methode reduce () aus.

F.18 – Was ist FSCK?

FSCK steht für File System Check. Es ist ein Befehl von HDFS und verwendet diesen Befehl, um Probleme und Inkonsistenzen in einer Datei zu erkennen.

F.19 – Hat Hadoop mehrere Modi? Wenn ja, welche sind das?

Ja, Hadoop hat drei verschiedene Modi. Diese sind: Standalone-Modus, vollständig verteilter Modus und pseudoverteilter Modus.

Q.20 – Wofür steht YARN?

YARN steht für Yet Another Resource Negotiator.

F.21 – Wie sichern Sie Hadoop?

Zu diesem Zweck aktivieren Sie zunächst die Verschlüsselung im Ruhezustand und während der Übertragung. Sie müssen die sicheren Versionen der Protokolle verwenden, die Sie in Hadoop verwenden. Sie erlauben SASL, die RPC-Daten zu schützen. Sie können SASL über die Eigenschaft hadoop.rpc.protection aktivieren.

Sie sichern auch den Authentifizierungskanal. Der Client kann den Zeitstempel des Authentifizierungskanals verwenden, um ein Dienstticket zu erhalten, das Sie dann zur Selbstauthentifizierung verwenden können.

F.22 – Können Sie HDFS (Hadoop Distributed File System) näher erläutern?

Hadoop kann mit verteilten Dateisystemen wie FS, HFTP und S3 arbeiten. Das Google-Dateisystem ist die Grundlage für HDFS und kann auf einem großen Cluster kleiner Systeme ausgeführt werden.

Q.23 – Was sind die Unterschiede zwischen Snowflake und Star Schema?

Beim Star-Schema haben Sie eine höhere Wahrscheinlichkeit von Datenredundanz, was beim Snowflake-Schema nicht der Fall ist. Das DB-Design des Star-Schemas ist einfacher als das von Snowflake. Die komplexe Verknüpfung des Snowflake-Schemas verlangsamt die Cube-Verarbeitung, was beim Star-Schema nicht der Fall ist.

F.24 – Was ist ein Heartbeat in Hadoop?

In Hadoop gibt es zwei Arten von Knoten, NameNode und DataNode. Der NameNode ist dafür verantwortlich, die Metadaten von DataNodes zu speichern und deren Status zu verfolgen. DataNodes senden Signale an den NameNode, um ihn darüber zu informieren, dass sie am Leben sind und arbeiten. Dieses Signal ist der Heartbeat.

Q.25 – Was verstehen Sie unter Big Data?

Wenn Sie riesige Mengen an unstrukturierten und strukturierten Daten haben, die Sie mit herkömmlichen Methoden nicht verarbeiten können, spricht man von Big Data. Big Data ist der Bereich der Analyse und Nutzung hochkomplexer Datensätze zur Gewinnung von Informationen. Herkömmliche Methoden der Datenanalyse funktionieren bei solch großen Mengen komplexer Daten nicht gut. Bei Big Data haben Data Engineers die Aufgabe, Rohdaten zu analysieren und in nutzbare Daten umzuwandeln.

F.26 – Welche Themen und Programmiersprachen sollte ein Dateningenieur beherrschen?

Ein Dateningenieur sollte sich mit Trendanalyse, maschinellem Lernen, SQL, Hive QL, Wahrscheinlichkeit, Regression und linearer Algebra auskennen. Ein Dateningenieur könnte viele andere Themen kennen, aber diese sind ein Muss.

F.27 – Was sind die Unterschiede zwischen DAS und NAS in Hadoop?

Dies ist eine der beliebtesten Fragen in Vorstellungsgesprächen für Dateningenieure, achten Sie also besonders auf ihre Antwort. DAS steht für Direct Attached Storage und NAS steht für Network Attached Storage. Die Speicherkapazität von NAS beträgt 10^9 bis 10^12 in Byte. Andererseits hat DAS eine Speicherkapazität von 10^9 Bytes. Auch die Verwaltungskosten von NAS sind viel geringer als die von DAS.

F.28 – Was ist mit der Entfernung zwischen Knoten in Hadoop gemeint? Wie würden Sie es berechnen?

In Hadoop ist der Abstand zwischen zwei Knoten gleich der Summe der Länge zu ihren nächsten Knoten. Sie können getDistance() verwenden, um die Entfernung zwischen zwei Knoten in Hadoop zu ermitteln.

Lernen Sie Datenwissenschaftskurse von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

Fazit

Wir sind sicher, dass Sie sich mit Hilfe dieser Interviewfragen ganz einfach vorbereiten werden. Vorstellungsgespräche im Bereich Data Engineering müssen nicht stressig sein. Achte darauf, dass du vor dem Meeting genug schläfst, viele Leute werden zu ängstlich.

Und wenn Sie Fragen zu Data Engineering oder Interviews haben, können Sie uns gerne fragen. Wir helfen Ihnen gerne weiter.

Was sind die Aufgaben und Verantwortlichkeiten von Data Engineers?

Die Hauptaufgabe von Data Engineers besteht darin, Daten für analytische oder operative Zwecke aufzubereiten. Als Teil der IT-Branche erstellen diese Ingenieure Datenpipelines, die Daten aus mehreren Quellsystemen verbinden. Sie kombinieren, konsolidieren und bereinigen Daten, bevor sie sie für die Verwendung in Analyseanwendungen strukturieren. Die meisten Analyseteams von Unternehmen bestehen aus Data Engineers und Data Scientists, die Daten zugänglicher machen und die Big-Data-Umgebung ihres Unternehmens maximieren. Ingenieure geben Daten in verwendbaren Formaten an Datenwissenschaftler weiter, die die Informationen verwenden, um Abfragen und Algorithmen für Vorhersageanalysen, maschinelles Lernen und Data-Mining-Anwendungen durchzuführen.

Welche Fähigkeiten sind erforderlich, um als Data Engineer zu arbeiten?

Das Wissen über die Entwicklung und Verwaltung von Datenbanksystemen ist ein Muss für Data Engineers. Sie sollten Programmiersprachen wie SQL, Python, R usw. fließend beherrschen und ein grundlegendes Verständnis für maschinelles Lernen und Algorithmen haben. Data Engineers sollten sich auch mit Warehousing-Lösungen und ETL-Tools (Extract, Transfer, Load) auskennen. Data Science ist eine stark kollaborative Disziplin, und Data Engineers arbeiten mit einer Vielzahl von Interessengruppen zusammen, von Datenanalysten bis hin zu Chief Technological Officers. Daher sollten Soft Skills, wie gute Kommunikationsfähigkeiten und hohe Kooperationsfähigkeit, Teil der Fähigkeiten eines jeden Data Engineers sein.

Ist Data Engineering ein guter Karriereweg? Wie viel verdient ein Data Engineer im Durchschnitt?

Laut dem Dice 2020 Tech Job Report ist Data Engineering die am schnellsten wachsende Karriereoption im Technologiebereich im Jahr 2019, mit einer 50 %igen Steigerung der Zahl der verfügbaren Stellen gegenüber dem Vorjahr. Es gewinnt in der technologischen Welt an Bedeutung und ist zu einer lukrativen Karriereoption geworden, da die Nachfrage nach Informationsmanagement wächst. Mit einem Einstiegsgehalt von 4.57.532 ₹ steigen die Löhne von Dateningenieuren mit zunehmender Erfahrung. Dateningenieure mit 1–4 Jahren Erfahrung verdienen ein Durchschnittsgehalt von 7.20.395 ₹, während Dateningenieure in der Mitte der Karriere mit 5–9 Jahren Erfahrung und erfahrene Dateningenieure mit 10–19 Jahren Erfahrung ein durchschnittliches Gesamteinkommen von ₹ erzielen 12,94,336 bzw. 18,67,992 £.