35 Fragen und Antworten zu Big Data-Interviews, die Sie kennen müssen 2022: Für Neueinsteiger und Erfahrene
Veröffentlicht: 2021-01-05Sie nehmen an einem Big-Data-Interview teil und fragen sich, welche Fragen und Diskussionen Sie durchlaufen werden? Bevor Sie an einem Big-Data-Interview teilnehmen, ist es besser, eine Vorstellung von der Art der Big-Data-Interviewfragen zu haben, damit Sie die Antworten darauf mental vorbereiten können.
Um Ihnen zu helfen, habe ich den Top-Leitfaden für Fragen und Antworten zu Big Data-Interviews erstellt, um die Tiefe und die wahre Absicht von Big Data-Interviewfragen zu verstehen.
Sie werden nicht glauben, wie dieses Programm die Karriere von Studenten verändert hat
Wir befinden uns im Zeitalter von Big Data und Analytik. Da Daten alles um uns herum antreiben, ist die Nachfrage nach qualifizierten Datenfachleuten plötzlich gestiegen. Unternehmen sind immer auf der Suche nach hochqualifizierten Personen, die ihnen helfen können, ihre Datenmengen zu verstehen.
Das Stichwort lautet hier „Upskilling“ und somit sind Big-Data-Interviews kein Zuckerschlecken. Es gibt einige wichtige Big-Data-Interviewfragen, die Sie kennen müssen, bevor Sie an einem teilnehmen. Diese helfen Ihnen, sich zurechtzufinden.
Die Fragen wurden in einer Reihenfolge angeordnet, die Ihnen hilft, von den Grundlagen zu lernen und ein etwas fortgeschrittenes Niveau zu erreichen.
Fragen und Antworten zu Big Data-Interviews
1. Definieren Sie Big Data und erklären Sie die Vs von Big Data.

Dies ist eine der einleitendsten und zugleich wichtigsten Big-Data-Interviewfragen. Die Antwort darauf ist ganz einfach:
Big Data kann als eine Sammlung komplexer unstrukturierter oder halbstrukturierter Datensätze definiert werden, die das Potenzial haben, umsetzbare Erkenntnisse zu liefern.
Die vier Vs von Big Data sind –
Volumen – Spricht über die Datenmenge
Variety – Spricht über die verschiedenen Datenformate
Velocity – Spricht über die immer schneller werdende Geschwindigkeit, mit der die Daten wachsen
Veracity – Spricht über den Genauigkeitsgrad der verfügbaren Daten
Big-Data-Tutorial für Anfänger: Alles, was Sie wissen müssen
2. Wie hängt Hadoop mit Big Data zusammen?
Wenn wir von Big Data sprechen, sprechen wir von Hadoop. Dies ist also eine weitere Big-Data-Interviewfrage, der Sie in einem Interview definitiv begegnen werden.
Hadoop ist ein Open-Source-Framework zum Speichern, Verarbeiten und Analysieren komplexer unstrukturierter Datensätze, um Erkenntnisse und Informationen abzuleiten.
3. Definieren Sie HDFS und YARN und sprechen Sie über ihre jeweiligen Komponenten.
Jetzt, da wir uns in der Zone von Hadoop befinden, dreht sich die nächste Big-Data-Interviewfrage, die Sie möglicherweise stellen, um dasselbe.
Das HDFS ist die Standardspeichereinheit von Hadoop und für die Speicherung verschiedener Datentypen in einer verteilten Umgebung verantwortlich.
HDFS besteht aus den folgenden zwei Komponenten:
NameNode – Dies ist der Masterknoten, der die Metadateninformationen für alle Datenblöcke im HDFS enthält.
DataNode – Dies sind die Knoten, die als Slave-Knoten fungieren und für die Speicherung der Daten verantwortlich sind.
YARN, kurz für Yet Another Resource Negotiator , ist für die Verwaltung von Ressourcen und die Bereitstellung einer Ausführungsumgebung für die genannten Prozesse verantwortlich.
Die beiden Hauptkomponenten von YARN sind –
ResourceManager – Verantwortlich für die Zuweisung von Ressourcen zu den jeweiligen NodeManagern basierend auf den Anforderungen.
NodeManager – Führt Aufgaben auf jedem DataNode aus.
7 interessante Big-Data-Projekte, die Sie im Auge behalten sollten
4. Was meinen Sie mit Commodity-Hardware?
Dies ist eine weitere Big-Data-Interviewfrage, die Ihnen höchstwahrscheinlich in jedem Interview begegnen wird, an dem Sie teilnehmen.
Commodity Hardware bezieht sich auf die minimalen Hardwareressourcen, die zum Ausführen des Apache Hadoop-Frameworks erforderlich sind. Jede Hardware, die die Mindestanforderungen von Hadoop unterstützt, wird als „Commodity Hardware“ bezeichnet.
5. Definieren und beschreiben Sie den Begriff FSCK.
FSCK steht für Filesystem Check. Es ist ein Befehl, der verwendet wird, um einen zusammenfassenden Hadoop-Bericht auszuführen, der den Status von HDFS beschreibt. Es sucht nur nach Fehlern und korrigiert sie nicht. Dieser Befehl kann entweder für das gesamte System oder eine Teilmenge von Dateien ausgeführt werden.
6. Was ist der Zweck des JPS-Befehls in Hadoop?
Der JPS-Befehl wird zum Testen der Funktionsweise aller Hadoop-Daemons verwendet. Es testet speziell Daemons wie NameNode, DataNode, ResourceManager, NodeManager und mehr.
(In jedem Big-Data-Interview werden Sie wahrscheinlich eine Frage zu JPS und seiner Bedeutung finden.)
Big Data: Werkzeuge und Technologien, die man kennen muss
7. Benennen Sie die verschiedenen Befehle zum Starten und Herunterfahren von Hadoop-Daemons.
Dies ist eine der wichtigsten Big-Data-Interviewfragen, um dem Interviewer zu helfen, Ihr Wissen über Befehle einzuschätzen.
So starten Sie alle Daemons:
./sbin/start-all.sh
So beenden Sie alle Daemons:
./sbin/stop-all.sh
8. Warum brauchen wir Hadoop für Big Data Analytics?
Diese Hadoop-Interviewfragen testen Ihr Bewusstsein für die praktischen Aspekte von Big Data und Analytics.
In den meisten Fällen hilft Hadoop bei der Untersuchung und Analyse großer und unstrukturierter Datensätze. Hadoop bietet Speicher-, Verarbeitungs- und Datenerfassungsfunktionen, die bei der Analyse helfen.
9. Erklären Sie die verschiedenen Funktionen von Hadoop.
Die beste Antwort darauf, die in vielen Fragen und Antworten zu Big Data-Interviews aufgeführt ist, lautet:
Open-Source – Hadoop ist eine Open-Source-Plattform. Es ermöglicht das Umschreiben oder Modifizieren des Codes gemäß den Benutzer- und Analyseanforderungen.
Skalierbarkeit – Hadoop unterstützt das Hinzufügen von Hardwareressourcen zu den neuen Knoten.
Datenwiederherstellung – Hadoop folgt der Replikation, die die Wiederherstellung von Daten im Falle eines Fehlers ermöglicht.
Datenlokalität – Dies bedeutet, dass Hadoop die Berechnung zu den Daten verschiebt und nicht umgekehrt. Auf diese Weise beschleunigt sich der gesamte Prozess.
10. Definieren Sie die Portnummern für NameNode, Task Tracker und Job Tracker.
Namensknoten – Port 50070
Aufgabenverfolgung – Port 50060
Job-Tracker – Port 50030
11. Was verstehen Sie unter Indizierung in HDFS?
HDFS indiziert Datenblöcke basierend auf ihrer Größe. Das Ende eines Datenblocks zeigt auf die Adresse, an der der nächste Datenblock gespeichert wird. Die DataNodes speichern die Datenblöcke, während NameNode diese Datenblöcke speichert.
Big Data-Anwendungen in der Popkultur
12. Was sind Edge-Knoten in Hadoop?
Edge-Knoten beziehen sich auf die Gateway-Knoten, die als Schnittstelle zwischen dem Hadoop-Cluster und dem externen Netzwerk fungieren. Diese Knoten führen Client-Anwendungen und Cluster-Management-Tools aus und werden auch als Staging-Bereiche verwendet. Für Edge-Knoten sind Speicherfunktionen der Enterprise-Klasse erforderlich, und ein einzelner Edge-Knoten reicht normalerweise für mehrere Hadoop-Cluster aus.
13. Welche Datenverwaltungstools werden mit Edge-Knoten in Hadoop verwendet?
Diese Big-Data-Interviewfrage zielt darauf ab, Ihr Bewusstsein für verschiedene Tools und Frameworks zu testen.
Oozie, Ambari, Pig und Flume sind die gängigsten Datenverwaltungstools, die mit Edge-Knoten in Hadoop arbeiten.
14. Erklären Sie die Kernmethoden eines Reducers.
Es gibt drei Kernmethoden eines Reduzierers. Sie sind-
setup () – Dies wird verwendet, um verschiedene Parameter wie Heap-Größe, verteilten Cache und Eingabedaten zu konfigurieren.
Reduce() – Ein Parameter, der einmal pro Taste mit der betreffenden Reduce-Aufgabe aufgerufen wird
cleanup() – Löscht alle temporären Dateien und wird nur am Ende einer Reducer-Aufgabe aufgerufen.
15. Sprechen Sie über die verschiedenen Tombstone-Markierungen, die für Löschzwecke in HBase verwendet werden.
Diese Big-Data-Interviewfrage taucht in Ihr Wissen über HBase und seine Funktionsweise ein.
Es gibt drei Haupt-Tombstone-Marker, die zum Löschen in HBase verwendet werden. Sie sind-
Family Delete Marker – Zum Markieren aller Spalten einer Spaltenfamilie.
Markierung für Versionslöschung – Zum Markieren einer einzelnen Version einer einzelnen Spalte.
Column Delete Marker – Zum Markieren aller Versionen einer einzelnen Spalte.
Big-Data-Ingenieure: Mythen vs. Realitäten
16. Wie kann Big Data Unternehmen einen Mehrwert bieten?
Eine der häufigsten Big-Data-Interviewfragen. Im gegenwärtigen Szenario ist Big Data alles. Wenn Sie über Daten verfügen, steht Ihnen das leistungsfähigste Werkzeug zur Verfügung. Big Data Analytics hilft Unternehmen, Rohdaten in aussagekräftige und umsetzbare Erkenntnisse umzuwandeln, die ihre Geschäftsstrategien prägen können. Der wichtigste Beitrag von Big Data zum Geschäft sind datengesteuerte Geschäftsentscheidungen. Big Data ermöglicht es Unternehmen, ihre Entscheidungen auf konkrete Informationen und Erkenntnisse zu stützen.
Darüber hinaus ermöglicht Predictive Analytics Unternehmen, maßgeschneiderte Empfehlungen und Marketingstrategien für verschiedene Käuferpersönlichkeiten zu erstellen. Zusammen tragen Big-Data-Tools und -Technologien dazu bei, den Umsatz zu steigern, Geschäftsabläufe zu rationalisieren, die Produktivität zu steigern und die Kundenzufriedenheit zu verbessern. Tatsächlich verpasst jeder, der Big Data heute nicht nutzt, einen Ozean von Möglichkeiten.
17. Wie stellt man eine Big-Data-Lösung bereit?
Sie können eine Big Data-Lösung in drei Schritten bereitstellen:
- Datenaufnahme – Dies ist der erste Schritt bei der Bereitstellung einer Big-Data-Lösung. Sie beginnen damit, Daten aus mehreren Quellen zu sammeln, seien es Social-Media-Plattformen, Protokolldateien, Geschäftsdokumente, alles, was für Ihr Unternehmen relevant ist. Daten können entweder durch Echtzeit-Streaming oder in Batch-Jobs extrahiert werden.
- Datenspeicherung – Sobald die Daten extrahiert wurden, müssen Sie die Daten in einer Datenbank speichern. Es kann HDFS oder HBase sein. Während HDFS-Speicher perfekt für sequenziellen Zugriff ist, ist HBase ideal für wahlfreien Lese-/Schreibzugriff.
- Datenverarbeitung – Der letzte Schritt bei der Bereitstellung der Lösung ist die Datenverarbeitung. Normalerweise erfolgt die Datenverarbeitung über Frameworks wie Hadoop, Spark, MapReduce, Flink und Pig, um nur einige zu nennen.
18. Wie unterscheidet sich NFS von HDFS?
Das Network File System (NFS) ist eines der ältesten verteilten Dateispeichersysteme, während das Hadoop Distributed File System (HDFS) erst vor kurzem nach dem Aufkommen von Big Data ins Rampenlicht gerückt ist.
Die folgende Tabelle zeigt einige der bemerkenswertesten Unterschiede zwischen NFS und HDFS:
NFS | HDFS |
Es kann sowohl kleine Datenmengen speichern als auch verarbeiten. | Es ist explizit darauf ausgelegt, Big Data zu speichern und zu verarbeiten. |
Die Daten werden auf dedizierter Hardware gespeichert. | Daten werden in Datenblöcke aufgeteilt, die auf den lokalen Laufwerken der Hardware verteilt werden. |
Im Falle eines Systemausfalls können Sie nicht auf die Daten zugreifen. | Auch bei einem Systemausfall kann auf die Daten zugegriffen werden. |
Da NFS auf einem einzigen Rechner läuft, gibt es keine Chance für Datenredundanz. | HDFS wird auf einem Computercluster ausgeführt, und daher kann das Replikationsprotokoll zu redundanten Daten führen. |
19. Listen Sie die verschiedenen Dateiberechtigungen in HDFS für Dateien oder Verzeichnisebenen auf.
Eine der häufigsten Big-Data-Interviewfragen. Das Hadoop Distributed File System (HDFS) hat spezifische Berechtigungen für Dateien und Verzeichnisse. Es gibt drei Benutzerebenen in HDFS – Besitzer, Gruppe und Andere. Für jede der Benutzerebenen gibt es drei verfügbare Berechtigungen:
- lesen (r)
- schreiben (w)
- ausführen (x).
Diese drei Berechtigungen funktionieren nur für Dateien und Verzeichnisse.
Für Dateien –
- Die r-Berechtigung dient zum Lesen einer Datei
- Die w-Berechtigung dient zum Schreiben einer Datei.
Obwohl es eine execute(x)-Berechtigung gibt, können Sie keine HDFS-Dateien ausführen.
Für Verzeichnisse –
- Die r-Berechtigung listet den Inhalt eines bestimmten Verzeichnisses auf.
- Die w-Berechtigung erstellt oder löscht ein Verzeichnis.
- Die X-Berechtigung dient dem Zugriff auf ein untergeordnetes Verzeichnis.
20. Erläutern Sie die Prozesse, die die Replikationsfaktoren in HDFS überschreiben.

In HDFS gibt es zwei Möglichkeiten, die Replikationsfaktoren zu überschreiben – auf Dateibasis und auf Verzeichnisbasis.
Auf Dateibasis
Bei dieser Methode ändert sich der Replikationsfaktor entsprechend der Datei, die die Hadoop FS-Shell verwendet. Dazu wird folgender Befehl verwendet:
$hadoop fs – setrep –w2/my/test_file
Hier bezieht sich test_file auf den Dateinamen, dessen Replikationsfaktor auf 2 gesetzt wird.
Auf Verzeichnisbasis
Diese Methode ändert den Replikationsfaktor entsprechend dem Verzeichnis, als solches ändert sich der Replikationsfaktor für alle Dateien in einem bestimmten Verzeichnis. Dazu wird folgender Befehl verwendet:
$hadoop fs –setrep –w5/my/test_dir
Dabei bezieht sich test_dir auf den Namen des Verzeichnisses, für das der Replikationsfaktor und alle darin enthaltenen Dateien auf 5 gesetzt werden.
21. Nennen Sie die drei Modi, in denen Sie Hadoop ausführen können.
Eine der häufigsten Fragen in jedem Big-Data-Interview. Die drei Modi sind:
- Eigenständiger Modus – Dies ist der Standardmodus von Hadoop, der das lokale Dateisystem sowohl für Eingabe- als auch für Ausgabevorgänge verwendet. Der Hauptzweck des Standalone-Modus ist das Debuggen. Es unterstützt kein HDFS und es fehlt auch die benutzerdefinierte Konfiguration, die für die Dateien mapred-site.xml, core-site.xml und hdfs-site.xml erforderlich ist.
- Pseudo-verteilter Modus – Auch als Single-Node-Cluster bekannt, umfasst der pseudo-verteilte Modus sowohl NameNode als auch DataNode innerhalb derselben Maschine. In diesem Modus werden alle Hadoop-Daemons auf einem einzigen Knoten ausgeführt, und daher sind die Master- und Slave-Knoten gleich.
- Vollständig verteilter Modus – Dieser Modus ist als Multi-Node-Cluster bekannt, bei dem mehrere Nodes gleichzeitig arbeiten, um Hadoop - Jobs auszuführen. Hier laufen alle Hadoop-Daemons auf unterschiedlichen Knoten. Die Master- und Slave-Knoten laufen also separat.
22. Erklären Sie „Overfitting“.
Überanpassung bezieht sich auf einen Modellierungsfehler, der auftritt, wenn eine Funktion von einer begrenzten Menge von Datenpunkten eng angepasst (beeinflusst) wird. Eine Überanpassung führt zu einem übermäßig komplexen Modell, das es weiter erschwert, die Besonderheiten oder Eigenheiten in den vorliegenden Daten zu erklären. Da dies die Verallgemeinerungsfähigkeit des Modells beeinträchtigt, wird es schwierig, den prädiktiven Quotienten von überangepassten Modellen zu bestimmen. Diese Modelle funktionieren nicht, wenn sie auf externe Daten (Daten, die nicht Teil der Beispieldaten sind) oder neue Datasets angewendet werden.
Overfitting ist eines der häufigsten Probleme beim maschinellen Lernen. Ein Modell gilt als überangepasst, wenn es im Trainingsset besser abschneidet, aber im Testset kläglich versagt. Es gibt jedoch viele Methoden, um das Problem der Überanpassung zu verhindern, wie z. B. Kreuzvalidierung, Pruning, frühes Stoppen, Regularisierung und Assembling.
23. Was ist Feature-Auswahl?
Die Merkmalsauswahl bezieht sich auf den Prozess, nur die erforderlichen Merkmale aus einem bestimmten Datensatz zu extrahieren. Wenn Daten aus unterschiedlichen Quellen extrahiert werden, sind nicht alle Daten zu jeder Zeit nützlich – unterschiedliche Geschäftsanforderungen erfordern unterschiedliche Datenerkenntnisse. Hier kommt die Funktionsauswahl ins Spiel, um nur die Funktionen zu identifizieren und auszuwählen, die für eine bestimmte Geschäftsanforderung oder Phase der Datenverarbeitung relevant sind.
Das Hauptziel der Merkmalsauswahl besteht darin, ML-Modelle zu vereinfachen, um ihre Analyse und Interpretation zu erleichtern. Die Merkmalsauswahl verbessert die Verallgemeinerungsfähigkeiten eines Modells und eliminiert die Probleme der Dimensionalität, wodurch die Möglichkeit einer Überanpassung verhindert wird. Somit bietet die Merkmalsauswahl ein besseres Verständnis der untersuchten Daten, verbessert die Vorhersageleistung des Modells und reduziert die Berechnungszeit erheblich.
Die Merkmalsauswahl kann über drei Techniken erfolgen:
- Filtermethode
Bei diesem Verfahren sind die ausgewählten Merkmale nicht von den festgelegten Klassifikatoren abhängig. Eine Variable-Ranking-Technik wird verwendet, um Variablen für Ordnungszwecke auszuwählen. Während des Klassifizierungsprozesses berücksichtigt die Variable-Ranking-Technik die Wichtigkeit und Nützlichkeit eines Merkmals. Der Chi-Quadrat-Test, der Varianzschwellenwert und der Informationsgewinn sind einige Beispiele für die Filtermethode.
- Wrapper-Methode
Bei diesem Verfahren existiert der Algorithmus, der für die Merkmalsteilmengenauswahl verwendet wird, als eine „Umhüllung“ um den Induktionsalgorithmus herum. Der Induktionsalgorithmus funktioniert wie eine „Black Box“, die einen Klassifikator erzeugt, der bei der Klassifizierung von Merkmalen weiter verwendet wird. Der Hauptnachteil oder die größte Einschränkung der Wrapper-Methode besteht darin, dass Sie zum Abrufen der Feature-Teilmenge umfangreiche Berechnungen durchführen müssen. Genetische Algorithmen, sequentielle Merkmalsauswahl und rekursive Merkmalseliminierung sind Beispiele für die Wrapper-Methode.
- Eingebettete Methode
Die eingebettete Methode kombiniert das Beste aus beiden Welten – sie enthält die besten Eigenschaften der Filter- und Wrapper-Methoden. Bei dieser Methode erfolgt die Variablenauswahl während des Trainingsprozesses, sodass Sie die Merkmale identifizieren können, die für ein bestimmtes Modell am genauesten sind. L1-Regularisierungstechnik und Ridge-Regression sind zwei beliebte Beispiele für die eingebettete Methode.
24. Definieren Sie „Ausreißer“.
Ein Ausreißer bezieht sich auf einen Datenpunkt oder eine Beobachtung, die in einer zufälligen Stichprobe in einem abnormalen Abstand zu anderen Werten liegt. Mit anderen Worten, Ausreißer sind die Werte, die weit von der Gruppe entfernt sind; Sie gehören keinem bestimmten Cluster oder keiner bestimmten Gruppe im Datensatz an. Das Vorhandensein von Ausreißern wirkt sich normalerweise auf das Verhalten des Modells aus – sie können den Trainingsprozess von ML-Algorithmen in die Irre führen. Einige der nachteiligen Auswirkungen von Ausreißern sind längere Trainingszeiten, ungenaue Modelle und schlechte Ergebnisse.
Ausreißer können jedoch manchmal wertvolle Informationen enthalten. Deshalb müssen sie gründlich untersucht und entsprechend behandelt werden.
25. Nennen Sie einige Techniken zur Erkennung von Ausreißern.
Wieder eine der wichtigsten Big-Data-Interviewfragen. Hier sind sechs Methoden zur Erkennung von Ausreißern:
- Extremwertanalyse – Diese Methode bestimmt die statistischen Enden der Datenverteilung. Statistische Methoden wie „Z-Scores“ auf univariaten Daten sind ein perfektes Beispiel für Extremwertanalysen.
- Probabilistische und statistische Modelle – Diese Methode bestimmt die „unwahrscheinlichen Fälle“ aus einem „probabilistischen Modell“ von Daten. Ein gutes Beispiel ist die Optimierung von Gaußschen Mischungsmodellen unter Verwendung von „Erwartungsmaximierung“.
- Lineare Modelle – Diese Methode modelliert die Daten in niedrigere Dimensionen. Nachbarschaftsbasierte Modelle – Bei diesem Ansatz werden die von der Datengruppe isolierten Dateninstanzen durch Cluster, Dichte oder durch die Analyse des nächsten Nachbarn bestimmt.
- Informationstheoretische Modelle – Dieser Ansatz versucht, Ausreißer als schlechte Dateninstanzen zu erkennen, die die Komplexität des Datensatzes erhöhen.
- Hochdimensionale Ausreißererkennung – Diese Methode identifiziert die Unterräume für die Ausreißer gemäß den Abstandsmaßen in höheren Dimensionen.
26. Erklären Sie Rack Awareness in Hadoop.
Rack Awareness ist eine der beliebtesten Big-Data-Interviewfragen. Rach Awareness ist ein Algorithmus, der DataNodes näher am NameNode anhand ihrer Rack-Informationen identifiziert und auswählt. Es wird auf den NameNode angewendet, um zu bestimmen, wie Datenblöcke und ihre Replikate platziert werden. Während des Installationsvorgangs wird standardmäßig davon ausgegangen, dass alle Knoten zum selben Rack gehören.
Rack-Bewusstsein hilft bei:
- Verbessern Sie die Datenzuverlässigkeit und -zugänglichkeit.
- Verbessern Sie die Clusterleistung.
- Verbessern Sie die Netzwerkbandbreite.
- Halten Sie den Bulk-Flow so oft wie möglich im Rack.
- Verhindern Sie Datenverlust im Falle eines kompletten Rack-Ausfalls.
27. Können Sie einen NameNode wiederherstellen, wenn er ausgefallen ist? Wenn das so ist, wie?
Ja, es ist möglich, einen ausgefallenen NameNode wiederherzustellen. So können Sie es tun:
- Verwenden Sie das FsImage (das Metadatenreplikat des Dateisystems), um einen neuen NameNode zu starten.
- Konfigurieren Sie DataNodes zusammen mit den Clients, damit sie den neu gestarteten NameNode bestätigen und darauf verweisen können.
- Wenn der neu erstellte NameNode das Laden des letzten Checkpoints des FsImage (das nun genügend Blockberichte von den DataNodes erhalten hat) abgeschlossen hat, ist er bereit, den Client zu bedienen.
Der Wiederherstellungsprozess eines NameNode ist jedoch nur für kleinere Cluster durchführbar. Bei großen Hadoop-Clustern nimmt der Wiederherstellungsprozess normalerweise viel Zeit in Anspruch, was ihn zu einer ziemlich herausfordernden Aufgabe macht.
28. Benennen Sie die Konfigurationsparameter eines MapReduce-Frameworks.
Zu den Konfigurationsparametern im MapReduce-Framework gehören:
- Das Eingabeformat von Daten.
- Das Ausgabeformat der Daten.
- Der Eingabespeicherort von Jobs im verteilten Dateisystem.
- Der Ausgabespeicherort von Jobs im verteilten Dateisystem.
- Die Klasse, die die Kartenfunktion enthält
- Die Klasse, die die Reduce-Funktion enthält
- Die JAR-Datei, die die Mapper-, Reducer- und Treiberklassen enthält.
29. Was ist ein verteilter Cache? Was sind seine Vorteile?
Ohne diese Frage ist kein Leitfaden für Fragen und Antworten zu Big Data-Interviews vollständig. Der verteilte Cache in Hadoop ist ein Dienst, der vom MapReduce-Framework angeboten wird, das zum Caching von Dateien verwendet wird. Wenn eine Datei für einen bestimmten Job zwischengespeichert wird, stellt Hadoop sie auf einzelnen DataNodes sowohl im Speicher als auch im System zur Verfügung, wo die Map- und Reduce-Aufgaben gleichzeitig ausgeführt werden. Auf diese Weise können Sie schnell auf zwischengespeicherte Dateien zugreifen und diese lesen, um jede Sammlung (wie Arrays, Hashmaps usw.) in einem Code zu füllen.
Der verteilte Cache bietet die folgenden Vorteile:
- Es verteilt einfache, schreibgeschützte Text-/Datendateien und andere komplexe Typen wie JAR-Dateien, Archive usw.
- Es verfolgt die Änderungszeitstempel von Cache-Dateien, die die Dateien hervorheben, die nicht geändert werden sollten, bis ein Job erfolgreich ausgeführt wird.
30. Was ist eine Sequenzdatei in Hadoop?
In Hadoop ist eine SequenceFile eine Flatfile, die binäre Schlüssel-Wert-Paare enthält. Es wird am häufigsten in MapReduce-I/O-Formaten verwendet. Die Map-Ausgaben werden intern als SequenceFile gespeichert, das die Reader-, Writer- und Sorter-Klassen bereitstellt.
Es gibt drei SequenceFile-Formate:
- Unkomprimierte Schlüsselwertdatensätze
- Zeichnen Sie komprimierte Schlüsselwertdatensätze auf (nur „Werte“ werden komprimiert).
- Blockieren Sie komprimierte Schlüsselwertdatensätze (hier werden sowohl Schlüssel als auch Werte getrennt in „Blöcken“ gesammelt und dann komprimiert).
31. Erklären Sie die Rolle eines JobTrackers.
Eine der häufigsten Big-Data-Interviewfragen. Die primäre Funktion des JobTrackers ist das Ressourcenmanagement, was im Wesentlichen die Verwaltung der TaskTracker bedeutet. Abgesehen davon verfolgt JobTracker auch die Ressourcenverfügbarkeit und übernimmt das Aufgabenlebenszyklusmanagement (verfolgen Sie den Fortschritt von Aufgaben und ihre Fehlertoleranz).
Einige entscheidende Funktionen des JobTrackers sind:
- Es ist ein Prozess, der auf einem separaten Knoten (nicht auf einem DataNode) ausgeführt wird.
- Er kommuniziert mit dem NameNode, um den Datenstandort zu identifizieren.
- Es verfolgt die Ausführung von MapReduce-Workloads.
- Es weist TaskTracker-Knoten basierend auf den verfügbaren Slots zu.
- Es überwacht jeden TaskTracker und übermittelt den Gesamtauftragsbericht an den Client.
- Es findet die besten TaskTracker-Knoten, um bestimmte Aufgaben auf bestimmten Knoten auszuführen.
32. Nennen Sie die gängigen Eingabeformate in Hadoop.
Hadoop hat drei gängige Eingabeformate:
- Texteingabeformat – Dies ist das Standardeingabeformat in Hadoop.
- Sequence File Input Format – Dieses Eingabeformat wird verwendet, um Dateien in einer Sequenz zu lesen.
- Schlüsselwert-Eingabeformat – Dieses Eingabeformat wird für Nur-Text-Dateien verwendet (Dateien, die in Zeilen unterteilt sind).
33. Wozu wird Data Locality in Hadoop benötigt?
Eine der wichtigsten Big-Data-Interviewfragen. In HDFS werden Datensätze als Blöcke in DataNodes im Hadoop-Cluster gespeichert. Wenn ein MapReduce-Job ausgeführt wird, verarbeitet der einzelne Mapper die Datenblöcke (Input Splits). Wenn die Daten nicht in demselben Knoten vorhanden sind, in dem der Mapper den Job ausführt, müssen die Daten von dem DataNode, in dem sie sich befinden, über das Netzwerk zum Mapper DataNode kopiert werden.
Wenn ein MapReduce-Job über hundert Mapper hat und jeder Mapper DataNode gleichzeitig versucht, die Daten von einem anderen DataNode im Cluster zu kopieren, führt dies zu einer Netzwerküberlastung, was sich negativ auf die Gesamtleistung des Systems auswirkt. Hier kommt Data Locality ins Szenario. Anstatt einen großen Datenblock in die Berechnung zu verschieben, verschiebt Data Locality die Datenberechnung in die Nähe der Stelle, an der sich die tatsächlichen Daten auf dem DataNode befinden. Dies hilft, die Gesamtleistung des Systems zu verbessern, ohne unnötige Verzögerungen zu verursachen.
34. Was sind die Schritte, um Sicherheit in Hadoop zu erreichen?
In Hadoop wird Kerberos – ein Netzwerkauthentifizierungsprotokoll – verwendet, um Sicherheit zu erreichen. Kerberos wurde entwickelt, um eine robuste Authentifizierung für Client/Server-Anwendungen über Kryptografie mit geheimen Schlüsseln zu bieten.
Wenn Sie Kerberos verwenden, um auf einen Dienst zuzugreifen, müssen Sie drei Schritte durchlaufen, von denen jeder einen Nachrichtenaustausch mit einem Server beinhaltet. Die Schritte sind wie folgt:
- Authentifizierung – Dies ist der erste Schritt, bei dem der Client über den Authentifizierungsserver authentifiziert wird, wonach dem Client ein TGT (Ticket Granting Ticket) mit Zeitstempel ausgehändigt wird.
- Autorisierung – Im zweiten Schritt verwendet der Client das TGT, um ein Dienstticket beim TGS (Ticket Granting Server) anzufordern.
- Service Request – Im letzten Schritt verwendet der Client das Service-Ticket, um sich gegenüber dem Server zu authentifizieren.
35. Wie können Sie mit fehlenden Werten in Big Data umgehen?
Letzte Frage in unserem Fragen-und-Antworten-Leitfaden für Big-Data-Interviews. Fehlende Werte beziehen sich auf die Werte, die in einer Spalte nicht vorhanden sind. Es tritt auf, wenn es keinen Datenwert für eine Variable in einer Beobachtung gibt. Wenn fehlende Werte nicht richtig behandelt werden, führt dies zwangsläufig zu fehlerhaften Daten, die wiederum falsche Ergebnisse erzeugen. Daher wird dringend empfohlen, fehlende Werte vor der Verarbeitung der Datensätze korrekt zu behandeln. Wenn die Anzahl der fehlenden Werte gering ist, werden die Daten normalerweise gelöscht, aber wenn es viele fehlende Werte gibt, ist die Datenimputation die bevorzugte Vorgehensweise.
In der Statistik gibt es verschiedene Möglichkeiten, die fehlenden Werte zu schätzen. Dazu gehören Regression, mehrfache Datenimputation, listenweises/paarweises Löschen, Maximum-Likelihood-Schätzung und approximatives Bayes'sches Bootstrap.
Fazit
Wir hoffen, dass unser Leitfaden Fragen und Antworten zu Big Data hilfreich ist. Wir werden den Leitfaden regelmäßig aktualisieren, um Sie auf dem Laufenden zu halten.
Wenn Sie mehr über Big Data erfahren möchten, schauen Sie sich unser PG Diploma in Software Development Specialization in Big Data-Programm an, das für Berufstätige konzipiert ist und mehr als 7 Fallstudien und Projekte bietet, 14 Programmiersprachen und Tools abdeckt und praktische praktische Übungen enthält Workshops, mehr als 400 Stunden gründliches Lernen und Unterstützung bei der Stellenvermittlung bei Top-Unternehmen.
Lernen Sie Softwareentwicklungskurse online von den besten Universitäten der Welt. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.
