Datenbereinigungstechniken: Lernen Sie einfache und effektive Methoden zum Bereinigen von Daten kennen

Veröffentlicht: 2020-01-26

Die Datenbereinigung ist ein wesentlicher Bestandteil der Datenwissenschaft. Das Arbeiten mit unreinen Daten kann zu vielen Schwierigkeiten führen. Und heute werden wir dasselbe besprechen.

Sie erfahren, warum Datenbereinigung unerlässlich ist, welche Faktoren Ihre Datenqualität beeinflussen und wie Sie Ihre Daten bereinigen können. Es handelt sich um eine detaillierte Anleitung, also stellen Sie sicher, dass Sie sie für zukünftige Referenzzwecke mit einem Lesezeichen versehen.

Lass uns anfangen.

Inhaltsverzeichnis

Warum Datenbereinigung notwendig ist
- Effizienz
- Fehlermarge
Bestimmung der Datenqualität
- Sind die Daten gültig? (Gültigkeit)
- Genauigkeit
- Vollständigkeit
- Konsistenz
- Gleichmäßigkeit
Datenbereinigungstechniken
- 1. Irrelevante Werte entfernen
- 2. Befreien Sie sich von doppelten Werten
- 3. Tippfehler (und ähnliche Fehler) vermeiden
- 4. Datentypen konvertieren
- 5. Kümmern Sie sich um fehlende Werte
Zusammenfassung
Warum ist Inkonsistenz in Daten ein Problem?
Wie oft sollten Ihre Daten bereinigt werden?
Ist Tableau für die Datenbereinigung geeignet?

Warum Datenbereinigung notwendig ist

Die Datenbereinigung mag langweilig und uninteressant erscheinen, aber sie ist eine der wichtigsten Aufgaben, die Sie als Data-Science-Profi erledigen müssen. Falsche oder qualitativ schlechte Daten können sich nachteilig auf Ihre Prozesse und Analysen auswirken. Schlechte Daten können dazu führen, dass ein hervorragender Algorithmus fehlschlägt.

Andererseits können qualitativ hochwertige Daten dazu führen, dass ein einfacher Algorithmus hervorragende Ergebnisse liefert. Es gibt viele Datenbereinigungstechniken, und Sie sollten sich mit ihnen vertraut machen, um Ihre Datenqualität zu verbessern. Nicht alle Daten sind nützlich. Das ist also ein weiterer wichtiger Faktor, der sich auf Ihre Datenqualität auswirkt.

Lesen Sie: Clusteranalyse in R

Angenommen, Ihr Unternehmen verfügt über eine Liste mit den Adressen der Mitarbeiter. Wenn Ihre Daten nun auch einige Adressen Ihrer Kunden enthalten, würde das die Liste nicht beschädigen? Und wären Ihre Bemühungen, die Liste zu analysieren, nicht vergebens? In diesem datengestützten Markt ist das Erlernen von Data Science zur Verbesserung Ihrer Geschäftsentscheidungen von entscheidender Bedeutung.

Es gibt viele Gründe, warum die Datenbereinigung unerlässlich ist. Einige von ihnen sind unten aufgeführt:

Effizienz

Saubere Daten (frei von falschen und inkonsistenten Werten) können Ihnen helfen, Ihre Analyse viel schneller durchzuführen. Sie sparen viel Zeit, wenn Sie diese Aufgabe im Voraus erledigen. Wenn Sie Ihre Daten vor der Verwendung bereinigen, können Sie mehrere Fehler vermeiden. Wenn Sie Daten mit falschen Werten verwenden, sind Ihre Ergebnisse nicht korrekt.

Und die Chancen stehen gut, dass Sie die gesamte Aufgabe erneut durchführen müssten, was viel Zeit verschwenden kann. Wenn Sie Ihre Daten vor der Verwendung bereinigen, können Sie schneller Ergebnisse generieren und vermeiden, die gesamte Aufgabe erneut zu wiederholen.

Fehlermarge

Wenn Sie keine genauen Daten für die Analyse verwenden, werden Sie sicherlich Fehler machen. Angenommen, Sie haben viel Mühe und Zeit in die Analyse einer bestimmten Gruppe von Datensätzen investiert. Sie sind sehr daran interessiert, Ihrem Vorgesetzten die Ergebnisse zu zeigen, aber im Meeting weist Ihr Vorgesetzter auf einige Fehler hin, und die Situation wird irgendwie peinlich und schmerzhaft.

Möchten Sie solche Fehler nicht vermeiden? Sie verursachen nicht nur Verlegenheit, sondern verschwenden auch Ressourcen. Datenbereinigung hilft Ihnen in dieser Hinsicht, es ist eine weit verbreitete Praxis, und Sie sollten die Methoden lernen, die zum Bereinigen von Daten verwendet werden.

Die Verwendung eines einfachen Algorithmus mit sauberen Daten ist viel besser als die Verwendung eines fortgeschrittenen mit unsauberen Daten.

Bestimmung der Datenqualität

Sind die Daten gültig? (Gültigkeit)

Die Gültigkeit Ihrer Daten ist der Grad, in dem sie den Regeln Ihrer speziellen Anforderungen entsprechen. Zum Beispiel, wie Sie Telefonnummern verschiedener Kunden importieren, aber an einigen Stellen haben Sie E-Mail-Adressen in den Daten hinzugefügt. Da Ihre Anforderungen explizit Telefonnummern waren, wären die E-Mail-Adressen ungültig.

Gültigkeitsfehler treten auf, wenn die Eingabemethode nicht ordnungsgemäß überprüft wird. Möglicherweise verwenden Sie Tabellenkalkulationen zum Sammeln Ihrer Daten. Und Sie könnten die falschen Informationen in die Zellen der Tabelle eingeben.

Es gibt mehrere Arten von Einschränkungen, denen Ihre Daten entsprechen müssen, um gültig zu sein. Hier sind sie:

Bereich:

Einige Arten von Zahlen müssen in einem bestimmten Bereich liegen. Beispielsweise muss die Anzahl der Produkte, die Sie an einem Tag transportieren können, einen Mindest- und Höchstwert haben. Es gäbe sicherlich eine bestimmte Bandbreite für die Daten. Es gäbe einen Anfangs- und einen Endpunkt.

Datentyp:

Einige Datenzellen erfordern möglicherweise eine bestimmte Art von Daten, z. B. numerisch, boolesch usw. In einem booleschen Abschnitt würden Sie beispielsweise keinen numerischen Wert hinzufügen.

Obligatorische Einschränkungen:

In jedem Szenario gibt es einige obligatorische Einschränkungen, denen Ihre Daten folgen sollten. Die obligatorischen Einschränkungen hängen von Ihren spezifischen Bedürfnissen ab. Sicherlich sollten bestimmte Spalten Ihrer Daten nicht leer sein. Beispielsweise darf in der Liste der Namen Ihrer Kunden die Spalte „Name“ nicht leer sein.

Fachübergreifende Prüfung:

Es gibt bestimmte Bedingungen, die mehrere Datenfelder in einem bestimmten Formular betreffen. Angenommen, die Abflugzeit eines Fluges könnte nicht vor seiner Ankunft liegen. In einer Bilanz muss die Summe aus Soll und Haben des Kunden gleich sein. Es kann nicht anders sein.

Diese Werte hängen miteinander zusammen, weshalb Sie möglicherweise eine feldübergreifende Untersuchung durchführen müssen.

Einzigartige Anforderungen:

Bestimmte Datentypen unterliegen eindeutigen Beschränkungen. Zwei Kunden können nicht dasselbe Kundensupport-Ticket haben. Solche Daten müssen für ein bestimmtes Feld eindeutig sein und können nicht von mehreren gemeinsam genutzt werden.

Einschränkungen der Set-Mitgliedschaft:

Einige Werte sind auf einen bestimmten Satz beschränkt. Das Geschlecht kann entweder männlich, weiblich oder unbekannt sein.

Regelmäßige Muster:

Einige Daten folgen einem bestimmten Format. E-Mail-Adressen haben beispielsweise das Format „[email protected]“. Ebenso haben Telefonnummern zehn Ziffern.

Wenn die Daten nicht im erforderlichen Format vorliegen, sind sie ebenfalls ungültig.

Wenn eine Person das '@' bei der Eingabe einer E-Mail-Adresse weglässt, wäre die E-Mail-Adresse ungültig, oder? Die Überprüfung der Validität Ihrer Daten ist der erste Schritt, um deren Qualität zu bestimmen. Meistens ist die Ursache für die Eingabe ungültiger Informationen menschliches Versagen.

Wenn Sie es loswerden, können Sie Ihren Prozess rationalisieren und nutzlose Datenwerte im Voraus vermeiden.

Genauigkeit

Jetzt, da Sie wissen, dass die meisten Ihrer Daten gültig sind, müssen Sie sich darauf konzentrieren, ihre Genauigkeit festzustellen. Auch wenn die Daten gültig sind, bedeutet dies nicht, dass die Daten korrekt sind. Und die Bestimmung der Genauigkeit hilft Ihnen herauszufinden, ob die von Ihnen eingegebenen Daten korrekt waren oder nicht.

Die Adresse eines Kunden kann das richtige Format haben, muss aber nicht das richtige sein. Möglicherweise enthält die E-Mail eine zusätzliche Ziffer oder ein zusätzliches Zeichen, das sie falsch macht. Ein weiteres Beispiel ist die Telefonnummer eines Kunden.

Lesen Sie: Top Machine Learning APIs für Data Science

Wenn die Telefonnummer alle Ziffern enthält, handelt es sich um einen gültigen Wert. Aber das bedeutet nicht, dass es wahr ist. Wenn Sie Definitionen für gültige Werte haben, ist es einfach, die ungültigen herauszufinden. Aber das hilft nicht bei der Überprüfung der Genauigkeit derselben. Um die Genauigkeit Ihrer Datenwerte zu überprüfen, müssen Sie Quellen von Drittanbietern verwenden.

Das bedeutet, dass Sie sich auf andere Datenquellen verlassen müssen als die, die Sie derzeit verwenden. Sie müssen Ihre Daten überprüfen, um herauszufinden, ob sie korrekt sind oder nicht. Datenbereinigungstechniken haben nicht viele Lösungen, um die Genauigkeit von Datenwerten zu überprüfen.

Abhängig von der Art der Daten, die Sie verwenden, können Sie jedoch möglicherweise Ressourcen finden, die Ihnen in dieser Hinsicht helfen könnten. Sie sollten Genauigkeit nicht mit Präzision verwechseln .

Genauigkeit vs. Präzision

Während die Genauigkeit davon abhängt, ob Ihre eingegebenen Daten korrekt waren oder nicht, erfordert die Genauigkeit, dass Sie mehr Details darüber angeben. Ein Kunde könnte einen Vornamen in Ihr Datenfeld eingeben. Aber wenn es keinen Nachnamen gibt, wäre es schwierig, genauer zu sein.

Ein weiteres Beispiel kann eine Adresse sein. Angenommen, Sie fragen eine Person, wo sie/er lebt. Sie könnten sagen, dass sie in London leben. Das könnte stimmen. Das ist jedoch keine genaue Antwort, weil Sie nicht wissen, wo sie in London leben.

Eine genaue Antwort wäre, Ihnen eine Adresse zu geben.

Vollständigkeit

Es ist fast unmöglich, alle Informationen zu haben, die Sie benötigen. Vollständigkeit ist der Grad, in dem Sie alle erforderlichen Werte kennen. Vollständigkeit ist etwas schwieriger zu erreichen als Genauigkeit oder Gültigkeit. Das liegt daran, dass Sie keinen Wert annehmen können. Sie müssen nur bekannte Tatsachen eingeben.

Sie können versuchen, Ihre Daten zu vervollständigen, indem Sie die Datenerfassungsaktivitäten wiederholen (erneut auf die Kunden zugehen, Personen erneut befragen usw.). Aber das bedeutet nicht, dass Sie Ihre Daten vollständig vervollständigen könnten.

Angenommen, Sie befragen Personen erneut nach den Daten, die Sie zuvor benötigt haben. Nun, dieses Szenario hat das Problem des Rückrufs. Wenn Sie ihnen dieselben Fragen noch einmal stellen, erinnern sie sich wahrscheinlich nicht mehr an ihre vorherige Antwort. Dies kann dazu führen, dass sie Ihnen die falsche Antwort geben.

Sie könnten ihn fragen, welche Bücher sie vor fünf Monaten gelesen haben. Und sie erinnern sich vielleicht nicht. Ebenso müssen Sie möglicherweise die Kontaktinformationen jedes Kunden eingeben. Einige von ihnen haben jedoch möglicherweise keine E-Mail-Adressen. In diesem Fall müssten Sie diese Spalten leer lassen.

Wenn Sie ein System haben, bei dem Sie alle Spalten ausfüllen müssen, können Sie versuchen, dort „fehlt“ oder „unbekannt“ einzugeben. Die Eingabe solcher Werte bedeutet jedoch nicht, dass die Daten vollständig sind. Es würde immer noch als unvollständig bezeichnet werden.

Konsistenz

Neben Vollständigkeit kommt Konsistenz. Sie können die Konsistenz messen, indem Sie zwei ähnliche Systeme vergleichen. Oder Sie können die Datenwerte innerhalb desselben Datensatzes überprüfen, um festzustellen, ob sie konsistent sind oder nicht. Konsistenz kann relational sein. Beispielsweise könnte das Alter eines Kunden 15 sein, was ein gültiger Wert ist und korrekt sein könnte, aber er könnte im selben System auch als Senior-Bürger angegeben werden.

In solchen Fällen müssen Sie die Daten, ähnlich wie bei der Messung der Genauigkeit, gegenprüfen und sehen, welcher Wert zutrifft. Ist der Kunde 15 Jahre alt? Oder ist der Kunde ein Senior? Nur einer dieser Werte kann wahr sein.

Es gibt mehrere Möglichkeiten, Ihre Daten konsistent zu machen.

Überprüfen Sie verschiedene Systeme:

Sie können sich ein anderes ähnliches System ansehen, um herauszufinden, ob der Wert, den Sie haben, echt ist oder nicht. Wenn sich zwei Ihrer Systeme widersprechen, kann es hilfreich sein, das dritte zu überprüfen.

Angenommen, Sie überprüfen in unserem vorherigen Beispiel das dritte System und stellen fest, dass der Kunde 65 Jahre alt ist. Dies zeigt, dass das zweite System, das besagt, dass der Kunde ein Senior ist, gelten würde.

Überprüfen Sie die neuesten Daten:

Eine weitere Möglichkeit, die Konsistenz Ihrer Daten zu verbessern, besteht darin, den neueren Wert zu prüfen. In bestimmten Szenarien kann dies für Sie vorteilhafter sein. Möglicherweise haben Sie zwei verschiedene Kontaktnummern für einen Kunden in Ihrem Datensatz. Die neueste wäre wahrscheinlich zuverlässiger, weil es möglich ist, dass der Kunde die Nummer gewechselt hat.

Überprüfen Sie die Quelle:

Der sicherste Weg, die Zuverlässigkeit der Daten zu überprüfen, besteht darin, sich einfach an die Quelle zu wenden. In unserem Beispiel zum Alter des Kunden können Sie den Kunden direkt kontaktieren und ihn nach seinem Alter fragen. Es ist jedoch nicht in jedem Szenario möglich, und die direkte Kontaktaufnahme mit der Quelle kann sehr schwierig sein. Möglicherweise antwortet der Kunde nicht oder seine Kontaktinformationen sind nicht verfügbar.

Gleichmäßigkeit

Sie sollten sicherstellen, dass alle Werte, die Sie in Ihren Datensatz eingegeben haben, in denselben Einheiten vorliegen. Wenn Sie SI-Einheiten für Messungen eingeben, können Sie das imperiale System an einigen Stellen nicht verwenden. Wenn Sie andererseits an einer Stelle die Zeit in Sekunden eingegeben haben, sollten Sie sie im gesamten Datensatz in diesem Format eingeben.

Lesen Sie: SQL für Data Science

Die Überprüfung der Einheitlichkeit Ihrer Aufzeichnungen ist ganz einfach. Eine einfache Überprüfung kann zeigen, ob ein bestimmter Wert in der erforderlichen Einheit ist oder nicht. Die Einheiten, die Sie für die Eingabe Ihrer Daten verwenden, hängen von Ihren spezifischen Anforderungen ab.

Datenbereinigungstechniken

Ihre Wahl der Datenbereinigungstechniken hängt von vielen Faktoren ab. Erstens, mit welcher Art von Daten haben Sie es zu tun? Sind es numerische Werte oder Strings? Sofern Sie nicht mit zu wenigen Werten umgehen müssen, sollten Sie nicht erwarten, Ihre Daten auch mit nur einer Technik zu bereinigen.

Möglicherweise müssen Sie mehrere Techniken anwenden, um ein besseres Ergebnis zu erzielen. Je mehr Datentypen Sie verarbeiten müssen, desto mehr Bereinigungstechniken müssen Sie verwenden. Wenn Sie mit all diesen Methoden vertraut sind, können Sie Fehler beheben und nutzlose Daten loswerden.

1. Irrelevante Werte entfernen

Das erste und wichtigste, was Sie tun sollten, ist, nutzlose Daten von Ihrem System zu entfernen. Alle nutzlosen oder irrelevanten Daten sind diejenigen, die Sie nicht benötigen. Es passt möglicherweise nicht in den Kontext Ihres Problems.

Möglicherweise müssen Sie nur das Durchschnittsalter Ihrer Vertriebsmitarbeiter messen. Dann wäre ihre E-Mail-Adresse nicht erforderlich. Ein weiteres Beispiel ist, dass Sie überprüfen möchten, wie viele Kunden Sie in einem Monat kontaktiert haben. In diesem Fall benötigen Sie die Daten der Personen, die Sie in einem Vormonat erreicht haben, nicht.

Bevor Sie jedoch ein bestimmtes Datenelement entfernen, vergewissern Sie sich, dass es irrelevant ist, da Sie es möglicherweise später benötigen, um seine korrelierten Werte zu überprüfen (um die Konsistenz zu überprüfen). Und wenn Sie vor dem Entfernen von Daten eine zweite Meinung von einem erfahreneren Experten einholen können, können Sie dies gerne tun.

Sie möchten sicher nicht einige Werte löschen und die Entscheidung später bereuen. Aber sobald Sie sicher sind, dass die Daten irrelevant sind, werden Sie sie los.

2. Befreien Sie sich von doppelten Werten

Duplikate ähneln nutzlosen Werten – Sie brauchen sie nicht. Sie erhöhen nur die Datenmenge, die Sie haben, und verschwenden Ihre Zeit. Sie können sie mit einfachen Suchen loswerden. Doppelte Werte können aus mehreren Gründen in Ihrem System vorhanden sein.

Vielleicht haben Sie die Daten mehrerer Quellen kombiniert. Oder vielleicht hat die Person, die die Daten übermittelt, fälschlicherweise einen Wert wiederholt. Einige Benutzer haben beim Ausfüllen eines Online-Formulars zweimal auf „Enter“ geklickt. Sie sollten die Duplikate entfernen, sobald Sie sie finden.

3. Tippfehler (und ähnliche Fehler) vermeiden

Tippfehler sind das Ergebnis menschlicher Fehler und können überall vorhanden sein. Sie können Tippfehler durch mehrere Algorithmen und Techniken korrigieren. Sie können die Werte zuordnen und in die richtige Schreibweise umwandeln. Tippfehler müssen unbedingt behoben werden, da Modelle verschiedene Werte unterschiedlich behandeln. Strings verlassen sich stark auf ihre Schreibweise und Groß-/Kleinschreibung.

„George“ unterscheidet sich von „George“, obwohl beide die gleiche Schreibweise haben. Ebenso unterscheiden sich 'Mike' und 'Mice' voneinander, auch wenn sie die gleiche Anzahl von Zeichen haben. Sie müssen nach solchen Tippfehlern suchen und diese entsprechend korrigieren.

Ein weiterer Fehler, der Tippfehlern ähnelt, betrifft die Größe von Zeichenfolgen. Möglicherweise müssen Sie sie auffüllen, um sie im gleichen Format zu halten. Beispielsweise kann Ihr Datensatz erfordern, dass Sie nur 5-stellige Zahlen haben. Wenn Sie also einen Wert haben, der nur vier Ziffern hat, wie z. B. „3994“, können Sie am Anfang eine Null hinzufügen, um die Anzahl der Ziffern zu erhöhen.

Sein Wert bleibt derselbe wie „03994“, aber Ihre Daten bleiben einheitlich. Ein weiterer Fehler bei Strings sind Leerzeichen. Stellen Sie sicher, dass Sie sie aus Ihren Saiten entfernen, um sie konsistent zu halten.

4. Datentypen konvertieren

Datentypen sollten in Ihrem Dataset einheitlich sein. Eine Zeichenfolge kann nicht numerisch sein, noch kann eine Zahl ein boolescher Wert sein. Bei der Konvertierung von Datentypen sollten Sie einige Dinge beachten:

Behalten Sie numerische Werte als Zahlen bei
Prüfen Sie, ob eine Zahl eine Zeichenfolge ist oder nicht. Wenn Sie es als Zeichenfolge eingeben, wäre es falsch.
Wenn Sie einen bestimmten Datenwert nicht konvertieren können, sollten Sie „NA-Wert“ oder etwas Ähnliches eingeben. Stellen Sie sicher, dass Sie auch eine Warnung hinzufügen, um anzuzeigen, dass dieser bestimmte Wert falsch ist.

5. Kümmern Sie sich um fehlende Werte

Es würde immer ein Stück fehlender Daten geben. Du kannst es nicht vermeiden. Sie sollten also wissen, wie Sie mit ihnen umgehen müssen, um Ihre Daten sauber und fehlerfrei zu halten. Eine bestimmte Spalte in Ihrem Dataset enthält möglicherweise zu viele fehlende Werte. In diesem Fall wäre es ratsam, die gesamte Spalte zu entfernen, da sie nicht über genügend Daten verfügt, um damit zu arbeiten.

Hinweis: Sie sollten fehlende Werte nicht ignorieren.

Das Ignorieren fehlender Werte kann ein erheblicher Fehler sein, da sie Ihre Daten kontaminieren und Sie keine genauen Ergebnisse erhalten. Es gibt mehrere Möglichkeiten, mit fehlenden Werten umzugehen.

Fehlende Werte imputieren:

Sie können fehlende Werte imputieren, also den ungefähren Wert annehmen. Sie können die lineare Regression oder den Median verwenden, um den fehlenden Wert zu berechnen. Diese Methode hat jedoch ihre Auswirkungen, da Sie nicht sicher sein können, ob dies der wahre Wert wäre.

Eine andere Methode, um fehlende Werte zu imputieren, besteht darin, die Daten aus einem ähnlichen Datensatz zu kopieren. Diese Methode wird als „Hot-Deck-Imputation“ bezeichnet. Sie werten Ihren aktuellen Datensatz auf und berücksichtigen dabei einige Einschränkungen wie Datentyp und Bereich.

Fehlende Werte hervorheben:

Imputation ist nicht immer die beste Maßnahme, um fehlende Werte zu berücksichtigen. Viele Experten argumentieren, dass dies nur zu gemischteren Ergebnissen führt, da sie nicht „echt“ sind. Sie können also einen anderen Ansatz wählen und das Modell darüber informieren, dass die Daten fehlen. Dem Modell (oder dem Algorithmus) mitzuteilen, dass der spezifische Wert nicht verfügbar ist, kann ebenfalls eine Information sein.

Wenn keine zufälligen Gründe für Ihre fehlenden Werte verantwortlich sind, kann es von Vorteil sein, sie hervorzuheben oder zu markieren. Beispielsweise enthalten Ihre Datensätze möglicherweise nicht viele Antworten auf eine bestimmte Frage Ihrer Umfrage, weil Ihr Kunde sie überhaupt nicht beantworten wollte.

Wenn der fehlende Wert numerisch ist, können Sie 0 verwenden. Stellen Sie nur sicher, dass Sie diese Werte während der statistischen Analyse ignorieren. Wenn der fehlende Wert andererseits ein kategorialer Wert ist, können Sie „fehlend“ füllen.

Zusammenfassung

Wir hoffen, dass es Ihnen gefallen hat, unsere detaillierte Anleitung zu Datenbereinigungstechniken durchzugehen. Es gab zweifellos viel zu lernen.

Erfahren Sie mehr über Data Wrangling in unserem Webinar-Video unten.

Wenn Sie Fragen zur Datenbereinigung haben, wenden Sie sich gerne an unsere Experten.

Wenn Sie neugierig sind, etwas über Data Science zu lernen, schauen Sie sich das Executive PG Program in Data Science von IIIT-B & upGrad an, das für Berufstätige entwickelt wurde und mehr als 10 Fallstudien und Projekte, praktische Workshops, Mentoring mit Branchenexperten, 1 -on-1 mit Branchenmentoren, mehr als 400 Stunden Lern- und Jobunterstützung bei Top-Unternehmen.

Warum ist Inkonsistenz in Daten ein Problem?

Wenn dieselben Daten an mehreren Stellen erscheinen, tritt Datenredundanz auf, während Dateninkonsistenz auftritt, wenn dieselben Daten in mehreren Tabellen in unterschiedlichen Formen erscheinen. Leider kann Datenredundanz zu Dateninkonsistenz führen, was zu ungenauen und/oder nutzlosen Daten für ein Unternehmen führt. Sie können Verkäufe nicht richtig antizipieren, um Bestands- und Distributionsmanagementverfahren zu optimieren; sie können keine Probleme in der Herstellung oder Lieferkette erkennen, um Kostenüberschreitungen und Verzögerungen zu minimieren; und sie können das Kundeninteresse an einem neuen Produkt nicht beurteilen, um Designs oder Marketingkampagnen zu ändern.

Wie oft sollten Ihre Daten bereinigt werden?

Die Häufigkeit, mit der Sie Ihre Daten im Frühjahr bereinigen sollten, hängt vollständig von Ihren Geschäftsanforderungen ab. Ein großes Unternehmen sammelt schnell viele Daten, daher kann eine Datenbereinigung alle drei bis sechs Monate erforderlich sein. Es wird empfohlen, dass kleinere Unternehmen mit weniger Daten ihre Daten mindestens einmal im Jahr bereinigen. Es ist ratsam, eine Datenbereinigung zu planen, wenn Sie jemals den Verdacht haben, dass schmutzige Daten Sie Geld kosten oder Ihre Produktivität, Effizienz oder Erkenntnisse negativ beeinflussen.

Ist Tableau für die Datenbereinigung geeignet?

Tableau Prep enthält eine Reihe von Bereinigungsverfahren, mit denen Sie Ihre Daten sofort bereinigen und umgestalten können. Das Bereinigen schmutziger Daten macht es einfacher, Ihre Daten zu integrieren und zu analysieren, und für andere, Ihre Daten zu verstehen, wenn Sie sie teilen.