Schritte in der Datenvorverarbeitung: Was Sie wissen müssen
Veröffentlicht: 2020-12-22Das Mining von Daten beinhaltet die Umwandlung von Rohdaten in nützliche Informationen, die weiter analysiert und wichtige Erkenntnisse gewonnen werden können. Die Rohdaten, die Sie von Ihrer Quelle erhalten, können oft in einem unübersichtlichen Zustand sein, der völlig unbrauchbar ist. Diese Daten müssen vorverarbeitet werden, um analysiert zu werden, und die Schritte dafür sind unten aufgeführt.
Inhaltsverzeichnis
Datenreinigung
Die Datenbereinigung ist der erste Schritt der Datenvorverarbeitung im Data Mining . Daten, die direkt aus einer Quelle stammen, enthalten im Allgemeinen wahrscheinlich bestimmte irrelevante Zeilen, unvollständige Informationen oder sogar unbefugte leere Zellen.
Diese Elemente verursachen viele Probleme für jeden Datenanalysten. Beispielsweise kann die Plattform des Analysten die Elemente möglicherweise nicht erkennen und einen Fehler zurückgeben. Wenn Sie auf fehlende Daten stoßen, können Sie entweder die Datenzeilen ignorieren oder versuchen, die fehlenden Werte basierend auf einem Trend oder Ihrer eigenen Einschätzung auszufüllen. Ersteres wird im Allgemeinen getan.
Ein größeres Problem kann jedoch entstehen, wenn Sie mit „verrauschten“ Daten konfrontiert werden. Um mit verrauschten Daten umzugehen, die so überladen sind, dass sie von Datenanalyseplattformen oder einer Codierungsplattform nicht verstanden werden können, werden viele Techniken verwendet.
Wenn Ihre Daten sortiert werden können, ist die „Binning“-Methode eine weit verbreitete Methode, um das Rauschen zu reduzieren. Dabei werden die Daten in gleich große Bins aufgeteilt. Danach kann jeder Bin durch seine Mittelwerte oder Grenzwerte ersetzt werden, um weitere Analysen durchzuführen.
Eine andere Methode ist das „Glätten“ der Daten durch Regression. Die Regression kann linear oder mehrfach sein, aber das Motiv besteht darin, die Daten glatt genug zu machen, damit ein Trend sichtbar wird. Ein dritter, ebenfalls weit verbreiteter Ansatz ist als „Clustering“ bekannt.
Bei dieser Datenvorverarbeitungsmethode im Data Mining werden umliegende Datenpunkte zu einer einzigen Datengruppe zusammengefasst, die dann für die weitere Analyse verwendet wird.
Lesen Sie: Datenvorverarbeitung beim maschinellen Lernen
Datentransformation
Der Prozess des Data Mining erfordert im Allgemeinen, dass die Daten in einem ganz bestimmten Format oder einer ganz bestimmten Syntax vorliegen. Zumindest müssen die Daten in einer solchen Form vorliegen, dass sie auf einer Datenanalyseplattform analysiert und verstanden werden können. Dazu wird der Transformationsschritt des Data Mining genutzt. Es gibt einige Möglichkeiten, wie Daten transformiert werden können.
Ein beliebter Weg ist die Normalisierung. Bei diesem Ansatz wird jeder Datenpunkt vom höchsten Datenwert in diesem Feld subtrahiert und dann durch den Datenbereich in diesem Feld dividiert. Dies reduziert die Daten von beliebigen Zahlen auf einen Bereich zwischen -1 und 1.
Es kann auch eine Attributauswahl durchgeführt werden, bei der die Daten in ihrer aktuellen Form durch den Datenanalytiker in einen Satz einfacherer Attribute umgewandelt werden. Die Datendiskretisierung ist eine weniger verbreitete und eher kontextspezifische Technik, bei der Intervallebenen die Rohwerte eines Felds ersetzen, um das Verständnis der Daten zu erleichtern.
Bei der „Konzepthierarchiegenerierung“ wird jeder Datenpunkt eines bestimmten Attributs in eine höhere Hierarchieebene konvertiert. Lesen Sie mehr über Datentransformation im Data Mining.
Datenreduzierung
Wir leben in einer Welt, in der jeden Tag Billionen von Bytes und Datenzeilen generiert werden. Die Menge der generierten Daten steigt von Tag zu Tag, und die Infrastruktur für den Umgang mit Daten verbessert sich vergleichsweise nicht im gleichen Maße. Daher kann der Umgang mit großen Datenmengen sowohl für Systeme als auch für Server oft äußerst schwierig oder sogar unmöglich sein.

Aufgrund dieser Probleme verwenden Datenanalysten häufig die Datenreduktion als Teil der Datenvorverarbeitung beim Data Mining . Dies reduziert die Datenmenge durch die folgenden Techniken und erleichtert die Analyse.
Bei der Datenwürfelaggregation wird ein als „Datenwürfel“ bezeichnetes Element mit einer riesigen Datenmenge generiert, und dann wird jede Schicht des Würfels je nach Anforderung verwendet. Ein Cube kann in einem System oder Server gespeichert und dann von anderen verwendet werden.
Bei der „Attribut-Subset-Auswahl“ werden nur die Attribute ausgewählt, die für die Analyse unmittelbar wichtig sind, und in einem separaten, kleineren Datensatz gespeichert.
Die Numerositätsreduktion ist dem oben beschriebenen Regressionsschritt sehr ähnlich. Die Anzahl der Datenpunkte wird reduziert, indem durch Regression oder ein anderes mathematisches Verfahren ein Trend generiert wird.
Bei der „Dimensionsreduzierung“ wird die Codierung verwendet, um das zu verarbeitende Datenvolumen zu reduzieren, während alle Daten abgerufen werden.
Es ist wichtig, das Data Mining zu optimieren, wenn man bedenkt, dass Daten immer wichtiger werden. Diese Schritte der Datenvorverarbeitung beim Data Mining sind sicherlich für jeden Datenanalysten nützlich.
Wenn Sie neugierig sind, mehr über Data Science zu erfahren, schauen Sie sich das PG Diploma in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1- on-1 mit Mentoren aus der Branche, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.
Holen Sie sich eine Data-Science-Zertifizierung von den besten Universitäten der Welt. Lernen Sie Executive PG-Programme, Advanced Certificate-Programme oder Master-Programme, um Ihre Karriere zu beschleunigen.
Was ist Datenvorverarbeitung?
Wenn überall viele Daten verfügbar sind, kann eine unsachgemäße Untersuchung der Datenanalyse zu irreführenden Schlussfolgerungen führen. Daher müssen vor jeder Analyse die Darstellung und Qualität der Daten an erster Stelle stehen. Datenvorverarbeitung ist der Prozess der Änderung oder Entfernung von Daten, bevor sie für einen bestimmten Zweck verwendet werden. Dieser Prozess sichert oder verbessert die Leistung und ist eine entscheidende Phase im Data-Mining-Prozess. Die Datenvorverarbeitung ist normalerweise der kritischste Aspekt eines maschinellen Lernprojekts, insbesondere in der Computerbiologie.
Warum ist eine Datenvorverarbeitung erforderlich?
Eine Datenvorverarbeitung ist notwendig, da die realen Daten in den meisten Fällen unvollständig sind, dh einige Merkmale oder Werte oder beides fehlen, oder nur aggregierte Informationen zugänglich sind, aufgrund von Fehlern oder Ausreißern verrauscht sind und mehrere Inkonsistenzen aufweisen Variationen in Codes, Namen usw. Wenn den Daten also Attribute oder Attributwerte fehlen, Rauschen oder Ausreißer aufweisen und doppelte oder falsche Daten enthalten, gelten sie als unsauber. All dies verringert die Qualität der Ergebnisse. Daher ist eine Datenvorverarbeitung erforderlich, da sie Inkonsistenzen, Rauschen und Unvollständigkeiten aus Daten entfernt, sodass sie korrekt analysiert und verwendet werden können.
Welche Bedeutung hat die Datenvorverarbeitung im Data Mining?
Die Wurzeln der Datenvorverarbeitung finden wir im Data Mining. Die Datenvorverarbeitung zielt darauf ab, fehlende Werte hinzuzufügen, Informationen zu konsolidieren, Daten zu klassifizieren und Trajektorien zu glätten. Mit der Datenvorverarbeitung ist es möglich, unerwünschte Informationen aus einem Datensatz zu entfernen. Dieser Prozess ermöglicht es dem Benutzer, über einen Datensatz zu verfügen, der kritischere Daten enthält, die später in der Mining-Phase bearbeitet werden können. Die Verwendung von Datenvorverarbeitung zusammen mit Data Mining hilft Benutzern bei der Bearbeitung von Datensätzen, um Datenkorruption oder menschliche Fehler zu korrigieren, was unerlässlich ist, um genaue Quantifizierer in einer Confusion-Matrix zu erhalten. Um die Genauigkeit zu verbessern, können Benutzer Datendateien kombinieren und die Vorverarbeitung verwenden, um unerwünschtes Rauschen aus den Daten zu entfernen. Ausgefeiltere Ansätze wie die Hauptkomponentenanalyse und Merkmalsauswahl verwenden statistische Formeln der Datenvorverarbeitung, um große Datensätze zu analysieren, die von GPS-Trackern und Bewegungserfassungsgeräten erfasst wurden.