Unbedingt lesen: 24 Fragen und Antworten zu Datastage-Interviews [Ultimate Guide 2022]

Veröffentlicht: 2021-01-08

Datastage ist ein ETL-Tool, dh ein Tool zum Extrahieren, Transformieren und Laden, das von IBM in seiner InfoSphere-Suite und seiner Information Solutions Platforms-Suite bereitgestellt wird. Es ist ein beliebtes ETL-Tool und wird für die Arbeit mit großen Datensätzen und Warehouses verwendet, um die Datenrepositorys zu erstellen und zu pflegen. In diesem Artikel sehen wir uns die am häufigsten gestellten Fragen zu DataStage-Interviews an und geben auch die Antworten auf diese Fragen. Wenn Sie Anfänger sind und mehr über Data Science erfahren möchten, sehen Sie sich unsere Data Science-Schulungen von Top-Universitäten an.

Die häufigsten Fragen und Antworten zu Interviews mit DataStage lauten wie folgt:

Inhaltsverzeichnis

Fragen und Antworten zum DataStage-Interview

1. Was ist IBM DataStage und warum wird es verwendet?

DataStage ist ein von IBM bereitgestelltes Tool, das zum Entwerfen, Entwickeln und Ausführen der Anwendungen verwendet wird, um die Daten in Data Warehouses zu füllen, indem die Daten aus Datenbanken von Windows-Servern extrahiert werden. Es enthält die Funktion grafischer Visualisierungen für Datenintegrationen und kann auch Daten aus mehreren Quellen extrahieren. Es gilt daher als eines der mächtigsten ETL-Tools. DataStage hat verschiedene Versionen, die Unternehmen je nach Bedarf einsetzen können. Die Versionen sind Server Edition, MVS Edition und Enterprise Edition.

2. Was sind die Merkmale von DataStage?

Die Eigenschaften von IBM DataStage sind wie folgt:

  • Es kann je nach Bedarf und Anforderung sowohl auf lokalen Servern als auch in der Cloud bereitgestellt werden.
  • Es ist mühelos zu bedienen und kann die Geschwindigkeit und Flexibilität der Datenintegration effizient erhöhen.
  • Es unterstützt Big Data und kann auf viele Arten auf Big Data zugreifen, z. B. JDBC-Integrator, JSON-Unterstützung und verteilte Dateisysteme.

3. Beschreiben Sie kurz die DataStage-Architektur.

IBM DataStage folgt als Architektur einem Client-Server-Modell und verfügt über unterschiedliche Architekturtypen für die verschiedenen Versionen. Die Komponenten der Client-Server-Architektur sind:

    1. Client-Komponenten
    2. Server
    3. Stufen
    4. Tabellendefinitionen
    5. Behälter
    6. Projekte
    7. Arbeitsplätze

4. Wie können wir einen Job über die Befehlszeile in DataStage ausführen?

Der Befehl lautet: dsjob -run -jobstatus <Projektname> <Jobname>

5. Listen Sie einige Funktionen auf, die wir mit dem Befehl „dsjob“ ausführen können.

Die verschiedenen Funktionen, die wir mit dem Befehl $dsjob ausführen können, sind:

    1. $dsjob -run: Wird verwendet, um den DataStage-Job auszuführen
    2. $dsjob -stop: Wird verwendet, um den Job zu stoppen, der gerade im Prozess vorhanden ist
    3. $dsjob -jobid: Wird zur Bereitstellung der Jobinformationen verwendet
    4. $dsjob -report: Wird verwendet, um den vollständigen Jobbericht anzuzeigen
    5. $dsjob -lprojects: Wird verwendet, um alle vorhandenen Projekte aufzulisten
    6. $dsjob -ljobs: Wird verwendet, um alle Jobs aufzulisten, die im Projekt vorhanden sind
    7. $dsjob -lstages: Wird verwendet, um alle Phasen des aktuellen Jobs aufzulisten
    8. $dsjob -llinks: Wird zum Auflisten aller Links verwendet
    9. $dsjobs -lparams: Wird verwendet, um alle Parameter des Jobs aufzulisten
    10. $dsjob -projectinfo: Wird zum Abrufen der Informationen über das Projekt verwendet
    11. $dsjob -jobinfo: Wird für den Informationsabruf des Jobs verwendet
    12. $dsjob -stageinfo: Wird für den Informationsabruf dieser Phase dieses Jobs verwendet
    13. $dsjob -linkinfo: Wird verwendet, um die Informationen dieses Links zu erhalten
    14. $dsjob -paraminfo: Liefert die Informationen aller Parameter
    15. $dsjob -loginfo: Wird verwendet, um Informationen über das Protokoll zu erhalten
    16. $dsjob -log: Wird zum Hinzufügen einer Textnachricht im Protokoll verwendet
    17. $dsjob -logsum: Wird zum Anzeigen der Protokolldaten verwendet
    18. $dsjob -logdetail: Wird verwendet, um alle Details des Protokolls anzuzeigen
    19. $dsjob -lognewest: Wird zum Abrufen der ID des neuesten Protokolls verwendet

6. Was ist ein Flow Designer in IBM DataStage?

Flow Designer ist die webbasierte Benutzeroberfläche von DataStage und wird verwendet, um die Jobs in DataStage zu erstellen, zu bearbeiten, zu laden und auszuführen.

Quelle

7. Was sind die Hauptfunktionen des Flow Designers?

Die Hauptfunktionen des Flow-Designers sind:

  1. Es ist sehr nützlich, um Jobs mit einer großen Anzahl von Stufen auszuführen.
  2. Es ist nicht erforderlich, die Jobs zu migrieren, um den Flow Designer zu verwenden.
  3. Wir können die bereitgestellte Palette verwenden, um Konnektoren und Operatoren auf der Designer-Leinwand mithilfe der Drag-and-Drop-Funktion hinzuzufügen und zu entfernen.

Erfahren Sie mehr über: Data Science vs. Data Mining: Unterschied zwischen Data Science und Data Mining

8. Wie konvertiert man einen Serverjob in einen parallelen Job in DataStage?

Ein Server-Job kann mit einem Link-Collector und einem IPC-Collector in einen parallelen Job umgewandelt werden.

9 . Was ist ein HBase-Konnektor?

Ein HBase-Konnektor in DataStage ist ein Tool zum Verbinden von Datenbanken und Tabellen, die in der HBase-Datenbank vorhanden sind. Es wird hauptsächlich verwendet, um die folgenden Aufgaben auszuführen:

  1. Lesen und Schreiben von Daten aus und in die HBase-Datenbank.
  2. Lesen von Daten im parallelen Modus.
  3. Verwenden von HBase als Ansichtstabelle

10. Was ist ein Hive-Konnektor?

Hive Connector ist ein Tool, das verwendet wird, um Partitionsmodi beim Lesen der Daten zu unterstützen. Dies kann auf zwei Arten erfolgen:

  1. Modulus-Partitionsmodus
  2. Minimum-Maximum-Partitionsmodus

11. Was ist Infosphere in DataStage?

Der Infosphere-Informationsserver ist in der Lage, hohe Volumenanforderungen der Unternehmen zu bewältigen und liefert qualitativ hochwertige und schnellere Ergebnisse. Es bietet den Unternehmen eine einzige Plattform für die Verwaltung der Daten, auf der sie enorme Informationsmengen verstehen, bereinigen, transformieren und bereitstellen können.

Quelle

12. Alle verschiedenen Ebenen von InfoSphere Information Server auflisten?

Die verschiedenen Ebenen des InfoSphere Information Server sind:

  1. Client-Ebene
  2. Dienstebene
  3. Motorstufe
  4. Ebene des Metadaten-Repositorys

13. Beschreiben Sie kurz die Client-Ebene des Infosphere Information Server.

Die Client-Tier des Infosphere Information Server dient der Entwicklung und der kompletten Administration der Rechner über die Client-Programme und Konsolen.

14. Beschreiben Sie kurz die Dienstebene von Infosphere Information Server.

Die Dienstebene des Infosphere Information Server wird verwendet, um Standarddienste wie Metadaten und Protokollierung sowie einige andere modulspezifische Dienste bereitzustellen. Es enthält einen Anwendungsserver, verschiedene Produktmodule und andere Produktdienste.

15. Beschreiben Sie kurz die Engine-Schicht von Infosphere Information Server.

Die Engine-Ebene des Infosphere Information Server ist eine Reihe logischer Komponenten, die zum Ausführen der Jobs und anderer Tasks für die Produktmodule verwendet werden.

16. Beschreiben Sie kurz die Metadaten-Repository-Schicht von Infosphere Information Server.

Die Ebene des Metadaten-Repositorys von Infosphere Information Server umfasst das Metadaten-Repository, die Analysedatenbank und den Computer. Es wird verwendet, um die Metadaten, freigegebenen Daten und Konfigurationsinformationen freizugeben.

17. Welche Arten der Parallelverarbeitung gibt es in DataStage?

Es gibt zwei verschiedene Arten der Parallelverarbeitung:

  1. Datenpartitionierung
  2. Datenpipeline

18 . Was ist Datenpartitionierung?

Die Datenpartitionierung ist eine Art paralleler Ansatz für die Datenverarbeitung. Es beinhaltet den Prozess der Aufteilung der Datensätze in Partitionen für die Verarbeitung. Es erhöht die Effizienz der Verarbeitung in einem linearen Modell.

Weiterlesen: Datenvorverarbeitung beim maschinellen Lernen: 7 einfache Schritte zum Befolgen

19. Was ist Datenpipelining?

Data Pipelining ist eine Art paralleler Ansatz für die Datenverarbeitung, bei dem wir die Extraktion von Daten aus der Quelle durchführen und sie dann eine Reihe von Verarbeitungsfunktionen durchlaufen lassen, um die erforderliche Ausgabe zu erhalten.

20. Was ist Arbeitsschutz in DataStage?

OSH ist eine Abkürzung für Orchestrate Shell und ist eine Skriptsprache, die in DataStage intern von der parallelen Engine verwendet wird.

21. Was sind Spieler?

Player in DataStage sind die Arbeitspferdeprozesse. Sie helfen uns bei der parallelen Verarbeitung und werden den Operatoren auf jedem Knoten zugewiesen.

22. Was ist eine Sammlungsbibliothek in DataStage?

Die Sammlungsbibliotheken sind der Satz von Operatoren und werden verwendet, um die partitionierten Daten zu sammeln.

23. Welche Kollektorentypen sind in der Sammlungsbibliothek von DataStage verfügbar?

Die in der Sammlungsbibliothek verfügbaren Arten von Sammlern sind:

  1. Sortmerg-Sammler
  2. Roundrobin-Sammler
  3. Sammler bestellt

24. Wie wird die Quelldatei in DataStage gefüllt?

Die Quelldatei kann mithilfe von SQL-Abfragen und auch mithilfe des Tools zum Extrahieren des Zeilengenerators gefüllt werden.

Endeffekt

Wir hoffen, dass unser Artikel mit allen Fragen und Antworten zum DataStage-Interview Ihnen bei der Vorbereitung auf das DataStage-Interview geholfen hat. Sie können sich diese von upGrad angebotenen Kurse ansehen, um Ihr Wissen zu diesen Themen zu erweitern:

  1. PG-Diplom in Softwareentwicklung, Spezialisierung auf Big Data : Dieser Kurs wurde von upGrad in Zusammenarbeit mit IIIT-B entwickelt, um Einzelpersonen das Wissen zu vermitteln, das sie für die Softwareentwicklung benötigen, und das Wissen über das Management von Big Data abzudecken.
  2. PGC in Full-Stack-Entwicklung : Dieser Kurs zur Full-Stack-Entwicklung wurde von upGrad und Branchenexperten von Tech Mahindra erstellt, um die Personen in die Lage zu versetzen, Herausforderungen auf Branchenebene zu lösen und alle Fähigkeiten zu erwerben, die für den Einstieg und die Arbeit in der Branche erforderlich sind.

Wir von upGrad sind immer für Sie da, um Ihnen bei Ihrer Vorbereitung zu helfen. Sie können sich auch unsere Kurse ansehen, die Ihnen helfen können, alle in der Branche erforderlichen Fähigkeiten und Techniken zu erlernen, um sich gut auf Ihre Vorstellungsgespräche und zukünftigen beruflichen Ambitionen vorzubereiten, wie wir immer „Raho Ambitious“ sagen. Diese Kurse wurden von Branchenexperten und erfahrenen Akademikern durchgeführt, um Sie in die Lage zu versetzen, sich mit allen Technologien und Fähigkeiten vertraut zu machen, die Sie lernen möchten.

Wenn Sie daran interessiert sind, Python zu lernen und sich mit verschiedenen Tools und Bibliotheken vertraut machen möchten, sehen Sie sich das Executive PG Program in Data Science an.

Was sind die vier Hauptphasen von Datastage?

IBM Datastage ist ein leistungsstarkes Tool zum Entwerfen, Entwickeln und Ausführen von Anwendungen, um die Daten in Data Warehouses zu füllen, indem die Daten aus Datenbanken extrahiert werden. Nachfolgend sind die vier Hauptphasen von Datastage aufgeführt. Der Administrator wird für Verwaltungsaufgaben verwendet, die das Einrichten von DataStage-Benutzern und das Löschen von Kriterien, das Mobilisieren und Demobilisieren von Projekten usw. umfassen. Der Designer oder die Designschnittstelle entwickelt die Datastage-Anwendungen ODER -Jobs, die vom Director reguliert und vom Server ausgeführt werden. Wie der Name schon sagt, verwaltet und verwaltet der Manager die Repositories und ermöglicht Benutzern, die gespeicherten Daten zu ändern. Der Director führt verschiedene Funktionen aus, darunter das Validieren der Jobs, das Planen und Ausführen von ihnen zusammen mit dem Überwachen der parallelen Jobs.

Für welche Zwecke wird der Befehl „dsjob“ verwendet?

Der Befehl dsjob wird für verschiedene Funktionen verwendet, darunter das Abrufen und Anzeigen von Daten zu Projekten oder Jobs. Hier sind einige der Funktionen, die mit dem Befehl dsjob ausgeführt werden können. $dsjob -run wird verwendet, um den DataStage-Job auszuführen, $dsjob -stop wird verwendet, um den Job zu stoppen, der gerade im Prozess vorhanden ist, $dsjob -jobid wird verwendet, um die Jobinformationen bereitzustellen, $dsjob -report wird verwendet, um den vollständigen Jobbericht anzuzeigen , etc.

Was sind die Merkmale von DataStage?

Datastage ist ein leistungsstarkes Datenarchitekturtool und hat verschiedene Eigenschaften. Einige der Merkmale von Datastage sind wie folgt: Datastage kann je nach den Anforderungen des Benutzers auf den lokalen Servern und auf den Cloud-Servern bereitgestellt werden. Die Geschwindigkeit und Flexibilität der Datenintegration kann jederzeit gesteigert und effizient genutzt werden. Es unterstützt Big Data und kann auf viele Arten auf Big Data zugreifen, z. B. JDBC-Integrator, JSON-Unterstützung und verteilte Dateisysteme.