20 Data-Mining-Interviewfragen

Veröffentlicht: 2020-02-10

Das bedeutet, dass es in den Bereichen KI und ML einen großen Aufgabenbereich gibt, und da Data Mining ein wesentlicher Bestandteil von beiden ist, müssen Sie eine solide Grundlage im Data Mining aufbauen. Data Mining bezieht sich auf die Technik, mit der Rohdaten in aussagekräftige Erkenntnisse umgewandelt werden, die von Unternehmen und Organisationen genutzt werden können. Zu den grundlegenden Aspekten des Data Mining gehören Daten- und Datenbankmanagement, Datenvorverarbeitung, Datenvalidierung, Online-Aktualisierung und Entdeckung wertvoller Muster, die in komplexen Datensätzen verborgen sind. Im Wesentlichen konzentriert sich Data Mining auf die automatische Analyse großer Datenmengen, um die verborgenen Trends und Erkenntnisse daraus zu extrahieren. Genau aus diesem Grund müssen Sie bereit sein, jede Data-Mining-Frage zu beantworten, die Ihnen der Interviewer stellt, wenn Sie Ihren Traumjob in AI/ML bekommen wollen.

Lernen Sie den Data Science-Zertifizierungskurs von den besten Universitäten der Welt kennen. Verdienen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.

In diesem Beitrag haben wir eine Liste der am häufigsten gestellten Fragen zu Data Mining-Interviews zusammengestellt. Es deckt alle Ebenen von Data-Mining-Interviewfragen und -konzepten (sowohl grundlegende als auch fortgeschrittene Ebenen) ab, die jeder KI/ML-Anwärter kennen muss.

Also, ohne weitere Verzögerung, lassen Sie uns gleich loslegen!

Nennen Sie die verschiedenen Data-Mining-Techniken und erläutern Sie den Umfang des Data-Mining.

Die verschiedenen Data-Mining-Techniken sind:

Vorhersage – Es entdeckt die Beziehung zwischen unabhängigen und abhängigen Instanzen. Wenn Sie beispielsweise bei Verkaufsdaten den zukünftigen Gewinn vorhersagen möchten, fungiert der Verkauf als unabhängige Instanz, während der Gewinn die abhängige Instanz ist. Dementsprechend ist der zugehörige Gewinn auf der Grundlage der historischen Umsatz- und Gewinndaten ein prognostizierter Wert.
Entscheidungsbäume – Die Wurzel eines Entscheidungsbaums fungiert als Bedingung/Frage mit mehreren Antworten. Jede Antwort führt zu spezifischen Daten, die bei der Bestimmung der endgültigen Entscheidung auf der Grundlage der Daten helfen.
Sequenzielle Muster – Dies bezieht sich auf die Musteranalyse, die zum Auffinden identischer Muster in Transaktionsdaten oder regelmäßigen Ereignissen verwendet wird. Beispielsweise helfen historische Daten von Kunden einer Marke, die Muster in den Transaktionen zu erkennen, die im vergangenen Jahr stattgefunden haben.
Clustering-Analyse – Bei dieser Technik wird automatisch ein Cluster von Objekten mit ähnlichen Eigenschaften gebildet. Die Clustering-Methode definiert Klassen und platziert dann geeignete Objekte in jeder Klasse.
Klassifizierungsanalyse – Bei dieser ML-basierten Methode wird jedes Element in einem bestimmten Satz in vordefinierte Gruppen eingeteilt. Es verwendet fortschrittliche Techniken wie lineare Programmierung, neuronale Netze, Entscheidungsbäume usw.
Lernen von Assoziationsregeln – Diese Methode erstellt ein Muster, das auf der Beziehung der Elemente in einer einzelnen Transaktion basiert.

Der Anwendungsbereich von Data Mining ist:

Vorhersage von Trends und Verhaltensweisen – Data Mining automatisiert den Prozess der Identifizierung von Vorhersageinformationen in großen Datensätzen/Datenbanken.
Entdecken Sie bisher unbekannte Muster – Data-Mining-Tools durchsuchen und durchsuchen eine breite und vielfältige Palette von Datenbanken, um die zuvor verborgenen Trends zu identifizieren. Dies ist nichts anderes als ein Mustererkennungsprozess.

Welche Arten von Data Mining gibt es?

Data Mining kann in die folgenden Typen eingeteilt werden:

Integration
Auswahl
Datenreinigung
Musterauswertung
Datentransformation
Wissensrepräsentation

Was ist Datenbereinigung?

Die Datenbereinigung ist ein entscheidendes Verfahren in Datenbankverwaltungssystemen. Es hilft, relevante Daten in einer Datenbank zu pflegen. Es bezieht sich auf den Prozess des Bereinigens von Junk-Daten durch Eliminieren oder Löschen der unnötigen NULL-Werte von Zeilen und Spalten. Wann immer Sie neue Daten in die Datenbank laden müssen, ist es wichtig, zuerst die irrelevanten Daten zu löschen.

Durch häufiges Löschen von Daten aus der Datenbank können Sie Junk-Daten entfernen, die eine beträchtliche Menge an Datenbankspeicher beanspruchen und dadurch die Leistung der Datenbank verlangsamen.

Was ist der grundlegende Unterschied zwischen Data Warehousing und Data Mining?

Data Warehousing ist die Technik, die zum Extrahieren von Daten aus unterschiedlichen Quellen verwendet wird. Es wird dann gereinigt und für die zukünftige Verwendung gelagert. Auf der anderen Seite ist Data Mining der Prozess, die extrahierten Daten mithilfe von Abfragen zu untersuchen und dann die Ergebnisse oder Ergebnisse zu analysieren. Es ist unerlässlich für die Berichterstattung, Strategieplanung und Visualisierung der wertvollen Erkenntnisse in den Daten.

Erklären Sie die verschiedenen Stadien des Data Mining.

Es gibt drei Hauptphasen des Data Mining:

Exploration – Diese Phase konzentriert sich hauptsächlich auf das Sammeln von Daten aus mehreren Quellen und deren Vorbereitung für weitere Aktivitäten wie Bereinigung und Transformation. Sobald die Daten bereinigt und transformiert sind, können sie für Erkenntnisse analysiert werden.

Modellerstellung und -validierung – In dieser Phase werden die Daten validiert, indem verschiedene Modelle darauf angewendet und die Ergebnisse für die beste Leistung verglichen werden. Dieser Schritt wird auch als Musteridentifikation bezeichnet. Es ist ein zeitaufwändiger Prozess, da der Benutzer manuell identifizieren muss, welches Muster für einfache Vorhersagen am besten geeignet ist.

Bereitstellung – Sobald das am besten geeignete Muster für die Vorhersage identifiziert ist, wird es auf den Datensatz angewendet, um geschätzte Vorhersagen oder Ergebnisse zu erhalten.

Wozu dienen Data-Mining-Abfragen?

Data Mining-Abfragen erleichtern die Anwendung des Modells auf die neuen Daten, um entweder einzelne oder mehrere Ergebnisse zu erzielen. Abfragen können Fälle abrufen, die einem bestimmten Muster besser entsprechen. Sie extrahieren das statistische Gedächtnis der Trainingsdaten und helfen dabei, das genaue Muster zusammen mit der Regel des typischen Falls zu erhalten, der ein Muster im Modell darstellt. Darüber hinaus können Abfragen Regressionsformeln und andere Berechnungen extrahieren, um Muster zu erklären. Sie können auch die Details zu den in einem Modell verwendeten Einzelfällen abrufen.

Was sind „diskrete“ und „kontinuierliche“ Daten im Data Mining?

Beim Data Mining sind diskrete Daten die Daten, die endlich sind und denen eine Bedeutung zugeordnet ist. Das Geschlecht ist ein klassisches Beispiel für diskrete Daten. Kontinuierliche Daten hingegen sind die Daten, die sich weiterhin gut strukturiert ändern. Das Alter ist ein perfektes Beispiel für kontinuierliche Daten.

Was ist OLAP? Wie unterscheidet es sich von OLTP?

OLAP (Online Analytical Processing) ist eine Technologie, die in vielen Business-Intelligence-Anwendungen verwendet wird, die komplexe analytische Berechnungen beinhalten. Abgesehen von komplexen Berechnungen wird OLAP für Trendanalysen und erweiterte Datenmodellierung verwendet. Der Hauptzweck der Verwendung von OLAP-Systemen besteht darin, die Antwortzeit auf Abfragen zu minimieren und gleichzeitig die Effektivität des Berichtswesens zu steigern. Die OLAP-Datenbank speichert aggregierte historische Daten in einem mehrdimensionalen Schema. Als multidimensionale Datenbank ermöglicht OLAP einem Benutzer zu verstehen, wie die Daten durch verschiedene Quellen kommen.

OLTP steht für Online Transaction and Processing. Es unterscheidet sich grundsätzlich von OLAP, da es in Anwendungen verwendet wird, die Massentransaktionen und große Datenmengen beinhalten. Diese Anwendungen finden sich vor allem im BFSI-Bereich. Die OLTP-Architektur ist eine Client-Server-Architektur, die netzwerkübergreifende Transaktionen unterstützen kann.

Nennen Sie die verschiedenen Speichermodelle, die in OLAP verfügbar sind.

Die verschiedenen in OLAP verfügbaren Speichermodelle sind:

MOLAP (Multidimensional Online Analytical Processing) – Dies ist eine Art der Datenspeicherung, bei der die Daten in mehrdimensionalen Cubes statt in standardmäßigen relationalen Datenbanken gespeichert werden. Es ist diese Funktion, die die Abfrageleistung ausgezeichnet macht.
ROLAP (Relational Online Analytical Processing) – In diesem Datenspeicher werden die Daten in relationalen Datenbanken gespeichert und können daher eine große Datenmenge verarbeiten.
HOLAP (Hybrid Online Analytical Processing) – Dies ist eine Kombination aus MOLAP und ROLAP. HOLAP verwendet das MOLAP-Modell, um zusammengefasste Informationen aus dem Cube zu extrahieren, während es für Drilldown-Funktionen das ROLAP-Modell verwendet.

Was ist „Würfel“?

Im Data Mining bezieht sich der Begriff „Cube“ auf einen Datenspeicherplatz, in dem Daten gespeichert werden. Das Speichern von Daten in einem Cube beschleunigt den Prozess der Datenanalyse. Würfel sind im Wesentlichen die logische Darstellung mehrdimensionaler Daten. Während der Rand des Würfels die Dimensionselemente enthält, enthält der Körper des Würfels die Datenwerte.

Nehmen wir an, ein Unternehmen speichert seine Mitarbeiterdaten (Records) in einem Cube. Wenn die Mitarbeiterleistung auf wöchentlicher oder monatlicher Basis bewertet werden soll, wird Woche/Monat zur Dimension des Würfels.

Was ist Datenaggregation und -generalisierung?

Datenaggregation ist der Prozess, bei dem die Daten kombiniert oder aggregiert werden, um einen Cube für die Datenanalyse zu erstellen. Generalisierung ist der Prozess des Ersetzens der Low-Level-Daten durch High-Level-Konzepte, sodass die Daten generalisiert werden können und aussagekräftige Erkenntnisse liefern.

Erklären Sie die Entscheidungsbaum- und Zeitreihenalgorithmen.

Im Entscheidungsbaumalgorithmus ist jeder Knoten entweder ein Blattknoten oder ein Entscheidungsknoten. Jedes Mal, wenn Sie ein Objekt in den Algorithmus eingeben, wird eine Entscheidung getroffen. Aus den Regelmäßigkeiten der Daten wird ein Entscheidungsbaum erstellt. Alle Pfade, die den Wurzelknoten mit dem Blattknoten verbinden, werden entweder durch Verwendung von 'AND' oder 'OR' oder 'BOTH' erreicht. Es ist wichtig zu beachten, dass der Entscheidungsbaum von der automatischen Datenaufbereitung unbeeinflusst bleibt.

Der Time-Series-Algorithmus wird für Datentypen verwendet, deren Werte sich kontinuierlich basierend auf der Zeit ändern (z. B. das Alter einer Person). Wenn Sie den Algorithmus trainiert und so eingestellt haben, dass er den Datensatz vorhersagt, kann er die kontinuierlichen Daten erfolgreich verfolgen und genaue Vorhersagen treffen. Der Time-Series-Algorithmus erstellt ein spezifisches Modell, das die zukünftigen Trends der Daten basierend auf dem ursprünglichen Datensatz vorhersagen kann.

Was ist Clustern?

Beim Data Mining ist Clustering der Prozess, der verwendet wird, um abstrakte Objekte in Klassen zu gruppieren, die ähnliche Objekte enthalten. Hier wird ein Cluster von Datenobjekten als eine Gruppe behandelt. Daher erfolgt während des Analyseprozesses eine Datenaufteilung in Gruppen, die dann auf der Grundlage identischer Daten gekennzeichnet werden. Die Clusteranalyse ist für Data Mining von entscheidender Bedeutung, da sie hochgradig skalierbar und dimensional ist und auch mit unterschiedlichen Attributen, Interpretierbarkeit und chaotischen Daten umgehen kann.

Daten-Clustering wird in mehreren Anwendungen verwendet, darunter Bildverarbeitung, Mustererkennung, Betrugserkennung und Marktforschung.

Was sind die häufigsten Probleme beim Data Mining?

Während des Data-Mining-Prozesses können die folgenden Probleme auftreten:

Handhabung von Unsicherheiten
Umgang mit fehlenden Werten
Umgang mit verrauschten Daten
Effizienz von Algorithmen
Domänenwissen integrieren
Größe und Komplexität der Daten
Datenauswahl
Widersprüchlichkeit zwischen den Daten und dem entdeckten Wissen.

Spezifizieren Sie die Syntax für – Interestness Measures Specification, Pattern Presentation and Visualization Specification und Task-Relevant Data Specification.

Die Syntax für Interestness Measures Specification lautet:

mit <Interest_Measure_Name> Schwellenwert = Schwellenwert

Die Syntax für Musterpräsentation und Visualisierungsspezifikation lautet:

Anzeige als <result_form>

Die Syntax für die aufgabenrelevante Datenspezifikation lautet:

Verwenden Sie die Datenbank Datenbankname

oder

Verwenden Sie das Data Warehouse data_warehouse_name

in Bezug auf att_or_dim_list

from relation(s)/cube(s) [where condition] order by order_list

Gruppieren nach Gruppierungsliste

Nennen Sie die unterschiedlichen Analyseebenen im Data Mining?

Die verschiedenen Analyseebenen im Data Mining sind:

Regelinduktion
Datenvisualisierung
Genetische Algorythmen
Künstliche neuronale Netz
Nearest-Neighbour-Methode

Was ist STING?

STING steht für Statistical Information Grid. Es handelt sich um ein gitterbasiertes Clustering-Verfahren mit mehreren Auflösungen, bei dem alle Objekte in rechteckigen Zellen enthalten sind. Während die Zellen in verschiedenen Auflösungsebenen gehalten werden, sind diese Ebenen weiter in einer hierarchischen Struktur angeordnet.

Was ist ETL? Nennen Sie einige der besten ETL-Tools.

ETL steht für Extrahieren, Transformieren und Laden. Es ist eine Software, die die Daten aus der angegebenen Datenquelle lesen und eine gewünschte Teilmenge von Daten extrahieren kann. Danach transformiert es die Daten mithilfe von Regeln und Nachschlagetabellen und konvertiert sie in die gewünschte Form. Schließlich verwendet es die Ladefunktion, um die resultierenden Daten in die Zieldatenbank zu laden.

Die besten ETL-Tools sind:

Orakel
Ab Anfang
Datenphase
Informatik
Datenknotenpunkt
Lagerbauer

Was sind Metadaten?

Einfach ausgedrückt sind Metadaten die zusammengefassten Daten, die zu einem größeren Datensatz führen. Metadaten enthalten wichtige Informationen wie die Anzahl der verwendeten Spalten, die Reihenfolge der Felder, die Datentypen der Felder, feste Breite und begrenzte Breite und so weiter.

Was sind die Vorteile von Data Mining?

Data Mining hat vier Kernvorteile:

Es hilft, Rohdaten zu verstehen und die in den Daten verborgenen Muster zu untersuchen, zu identifizieren und zu verstehen.
Es hilft dabei, den Prozess der Suche nach prädiktiven Informationen in großen Datenbanken zu automatisieren und hilft so, die zuvor verborgenen Muster umgehend zu identifizieren.
Es hilft, die Daten zu überprüfen und zu validieren und zu verstehen, woher sie kommen.
Es fördert eine schnellere und bessere Entscheidungsfindung und hilft Unternehmen dabei, die notwendigen Maßnahmen zu ergreifen, um den Umsatz zu steigern und die Betriebskosten zu senken.

Dies sind die Gründe, warum Data Mining zu einem festen Bestandteil zahlreicher Branchen geworden ist, darunter Marketing, Werbung, IT/ITES, Business Intelligence und sogar Government Intelligence.

Wir hoffen, dass diese Data-Mining-Interviewfragen und ihre Antworten Ihnen dabei helfen, das Eis mit Data-Mining zu brechen. Obwohl dies nur ein paar grundlegende Fragen sind, die Sie kennen müssen, werden sie Ihnen helfen, in den Flow zu kommen und tiefer in die Materie einzudringen.

Wenn Sie neugierig sind, etwas über Data Science zu lernen, schauen Sie sich das Executive PG Program in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1 -on-1 mit Branchenmentoren, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Welche Nachteile hat die Verwendung eines Entscheidungsbaumalgorithmus?

Selbst eine geringfügige Änderung der Daten kann zu einer erheblichen Änderung der Struktur des Entscheidungsbaums führen, was zu Instabilität führt. Im Vergleich zu anderen Algorithmen kann die Berechnung eines Entscheidungsbaums manchmal ziemlich komplex sein. Das Training von Entscheidungsbäumen ist aufgrund der Komplexität und des Zeitaufwands relativ teuer. Die Entscheidungsbaumtechnik versagt, wenn es darum geht, Regression anzuwenden und kontinuierliche Werte vorherzusagen.

Was ist der Unterschied zwischen Data-Mining-Clustering und -Klassifizierung?

Clustering ist eine Technik des unüberwachten Lernens, während die Klassifizierung eine Methode des überwachten Lernens ist. Clustering ist der Prozess der Gruppierung von Datenpunkten in Cluster basierend auf ihren Gemeinsamkeiten. Bei der Klassifizierung werden die Eingabedaten mit einer der Klassenbezeichnungen der Ausgabevariablen gekennzeichnet. Clustering teilt den Datensatz in Untergruppen auf, wodurch Beispiele mit ähnlicher Funktionalität gruppiert werden können. Es ist nicht auf beschriftete Daten oder einen Trainingssatz angewiesen, um zu funktionieren. Die Klassifizierung hingegen klassifiziert neue Daten basierend auf Beobachtungen aus dem Trainingssatz.

Gibt es Nachteile von Data Mining?

Viele Datenschutzprobleme entstehen, wenn Data Mining verwendet wird. Dabei hat Data Mining auf seine Weise den Weg für eine einfache Datenerhebung geebnet. In puncto Präzision sind ihr noch gewisse Grenzen gesetzt. Die erhaltenen Daten können falsch sein, was zu Problemen bei der Entscheidungsfindung führen kann. Das Datenerfassungsverfahren für Data Mining verwendet viel Technologie. Jedes erstellte Datenelement erfordert seine eigene Speicherung und Pflege. Die Kosten für die Implementierung könnten dadurch in die Höhe schnellen.