Techniki czyszczenia danych: poznaj proste i skuteczne sposoby czyszczenia danych

Opublikowany: 2020-01-26

Czyszczenie danych jest istotną częścią nauki o danych. Praca z nieczystymi danymi może prowadzić do wielu trudności. A dzisiaj będziemy omawiać to samo.

Dowiesz się, dlaczego czyszczenie danych jest niezbędne, jakie czynniki wpływają na jakość Twoich danych i jak możesz wyczyścić posiadane dane. Jest to szczegółowy przewodnik, więc upewnij się, że dodałeś go do zakładek, aby móc z niego skorzystać w przyszłości.

Zacznijmy.

Spis treści

Dlaczego czyszczenie danych jest konieczne
- Efektywność
- Margines błędu
Określanie jakości danych
- Czy dane są prawidłowe? (Ważność)
- Precyzja
- Kompletność
- Spójność
- Jednolitość
Techniki oczyszczania danych
- 1. Usuń nieistotne wartości
- 2. Pozbądź się zduplikowanych wartości
- 3. Unikaj literówek (i podobnych błędów)
- 4. Konwertuj typy danych
- 5. Zadbaj o brakujące wartości
Streszczenie
Dlaczego niespójność danych stanowi problem?
Jak często należy czyścić Twoje dane?
Czy Tableau nadaje się do czyszczenia danych?

Dlaczego czyszczenie danych jest konieczne

Czyszczenie danych może wydawać się nudne i nieciekawe, ale jest to jedno z najważniejszych zadań, które musisz wykonać jako specjalista ds. nauki danych. Posiadanie błędnych lub złej jakości danych może być szkodliwe dla procesów i analiz. Słabe dane mogą spowodować awarię gwiezdnego algorytmu.

Z drugiej strony, wysokiej jakości dane mogą spowodować, że prosty algorytm da Ci znakomite wyniki. Istnieje wiele technik czyszczenia danych i należy się z nimi zapoznać, aby poprawić jakość danych. Nie wszystkie dane są przydatne. To kolejny ważny czynnik, który wpływa na jakość danych.

Przeczytaj: Analiza skupień w R

Załóżmy na przykład, że Twoja firma ma listę adresów pracowników. Teraz, jeśli Twoje dane zawierają również kilka adresów Twoich klientów, czy nie uszkodziłoby to listy? I czy twoje wysiłki, aby przeanalizować listę, nie poszły na marne? Na tym rynku opartym na danych nauka nauki o danych w celu poprawy decyzji biznesowych ma kluczowe znaczenie.

Istnieje wiele powodów, dla których czyszczenie danych jest niezbędne. Niektóre z nich są wymienione poniżej:

Efektywność

Posiadanie czystych danych (wolnych od błędnych i niespójnych wartości) może pomóc w znacznie szybszym przeprowadzeniu analizy. Zaoszczędzisz sporo czasu, wykonując to zadanie wcześniej. Czyszcząc dane przed ich użyciem, możesz uniknąć wielu błędów. Jeśli użyjesz danych zawierających fałszywe wartości, wyniki nie będą dokładne.

I są szanse, że musiałbyś ponownie wykonać całe zadanie, co może spowodować dużo straty czasu. Jeśli zdecydujesz się wyczyścić dane przed ich użyciem, możesz szybciej wygenerować wyniki i uniknąć ponownego wykonywania całego zadania.

Margines błędu

Jeśli nie użyjesz dokładnych danych do analizy, z pewnością popełnisz błędy. Załóżmy, że poświęciłeś dużo czasu i wysiłku na analizę określonej grupy zbiorów danych. Bardzo chcesz pokazać wyniki swojemu przełożonemu, ale na spotkaniu przełożony wytyka kilka błędów, które sprawiają, że sytuacja staje się trochę zawstydzająca i bolesna.

Czy nie chciałbyś uniknąć takich błędów? Nie tylko powodują zakłopotanie, ale także marnują zasoby. Czyszczenie danych pomaga w tym zakresie, kropka jest to powszechna praktyka i powinieneś nauczyć się metod używanych do czyszczenia danych.

Korzystanie z prostego algorytmu z czystymi danymi jest o wiele lepsze niż użycie zaawansowanego z nieczystymi danymi.

Określanie jakości danych

Czy dane są prawidłowe? (Ważność)

Ważność Twoich danych to stopień, w jakim są one zgodne z zasadami Twoich szczególnych wymagań. Na przykład, jak importować numery telefonów różnych klientów, ale w niektórych miejscach dodałeś do danych adresy e-mail. Teraz, ponieważ Twoje potrzeby dotyczyły wyraźnie numerów telefonów, adresy e-mail byłyby nieprawidłowe.

Błędy poprawności występują, gdy metoda wejściowa nie jest prawidłowo sprawdzona. Być może do zbierania danych używasz arkuszy kalkulacyjnych. Możesz też wprowadzić nieprawidłowe informacje w komórkach arkusza kalkulacyjnego.

Istnieje wiele rodzajów ograniczeń , które muszą spełniać dane, aby były prawidłowe. Tutaj są:

Zakres:

Niektóre rodzaje liczb muszą znajdować się w określonym zakresie. Na przykład liczba produktów, które możesz przewieźć w ciągu dnia, musi mieć minimalną i maksymalną wartość. Na pewno byłby określony zakres danych. Byłby punkt początkowy i punkt końcowy.

Typ danych:

Niektóre komórki danych mogą wymagać określonego rodzaju danych, takich jak numeryczne, logiczne itp. Na przykład w sekcji logicznej nie należy dodawać wartości liczbowej.

Obowiązkowe ograniczenia:

W każdym scenariuszu istnieją pewne obowiązkowe ograniczenia, które powinny spełniać Twoje dane. Obowiązkowe ograniczenia zależą od Twoich konkretnych potrzeb. Z pewnością konkretne kolumny Twoich danych nie powinny być puste. Na przykład na liście nazw Twoich klientów kolumna „imię” nie może być pusta.

Badanie przekrojowe:

Istnieją pewne warunki, które wpływają na wiele pól danych w określonym formularzu. Załóżmy, że godzina odlotu samolotu nie może być wcześniejsza niż jego przylot. W bilansie suma debetu i kredytu klienta musi być taka sama. Nie może być inaczej.

Wartości te są ze sobą powiązane i dlatego może być konieczne wykonanie badania przekrojowego.

Unikalne wymagania:

Poszczególne rodzaje danych mają unikalne ograniczenia. Dwóch klientów nie może mieć tego samego zgłoszenia do obsługi klienta. Tego rodzaju dane muszą być unikalne dla konkretnego pola i nie mogą być udostępniane przez wiele pól.

Ograniczenia członkostwa zestawu:

Niektóre wartości są ograniczone do określonego zestawu. Na przykład płeć może być męska, żeńska lub nieznana.

Regularne wzory:

Niektóre dane mają określony format. Na przykład adresy e-mail mają format „losowaosoba@losowa poczta.com”. Podobnie numery telefonów mają dziesięć cyfr.

Jeśli dane nie są w wymaganym formacie, również będą nieważne.

Jeśli ktoś pominie „@” podczas wpisywania adresu e-mail, to adres e-mail będzie nieprawidłowy, prawda? Sprawdzenie poprawności Twoich danych to pierwszy krok do określenia ich jakości. W większości przypadków przyczyną wprowadzenia nieprawidłowych informacji jest błąd ludzki.

Pozbycie się go pomoże Ci usprawnić proces i wcześniej uniknąć bezużytecznych wartości danych.

Precyzja

Teraz, gdy wiesz, że większość posiadanych danych jest poprawna, będziesz musiał skupić się na ustaleniu ich dokładności. Nawet jeśli dane są prawidłowe, nie oznacza to, że są dokładne. A określenie dokładności pomaga dowiedzieć się, czy wprowadzone dane były dokładne, czy nie.

Adres klienta może być w odpowiednim formacie, ale nie musi to być właściwy. Być może wiadomość e-mail ma dodatkową cyfrę lub znak, który sprawia, że jest błędny. Innym przykładem jest numer telefonu klienta.

Przeczytaj: Najlepsze interfejsy API uczenia maszynowego do nauki o danych

Jeśli numer telefonu zawiera wszystkie cyfry, jest to prawidłowa wartość. Ale to nie znaczy, że to prawda. Gdy masz definicje prawidłowych wartości, znalezienie nieprawidłowych jest łatwe. Ale to nie pomaga w sprawdzaniu dokładności tego samego. Sprawdzanie dokładności wartości danych wymaga korzystania ze źródeł zewnętrznych.

Oznacza to, że będziesz musiał polegać na źródłach danych innych niż to, z którego obecnie korzystasz. Będziesz musiał sprawdzić swoje dane, aby dowiedzieć się, czy są dokładne, czy nie. Techniki czyszczenia danych nie mają wielu rozwiązań do sprawdzania dokładności wartości danych.

Jednak w zależności od rodzaju danych, z których korzystasz, możesz znaleźć zasoby, które mogą Ci w tym pomóc. Nie należy mylić dokładności z precyzją .

Dokładność kontra precyzja

Chociaż dokładność polega na ustaleniu, czy wprowadzone dane były poprawne, czy nie, precyzja wymaga podania więcej szczegółów na ich temat. Klient może wprowadzić imię w polu danych. Ale jeśli nie ma nazwiska, trudno byłoby być bardziej precyzyjnym.

Innym przykładem może być adres. Załóżmy, że pytasz osobę, gdzie mieszka. Mogą powiedzieć, że mieszkają w Londynie. To może być prawda. Nie jest to jednak dokładna odpowiedź, ponieważ nie wiesz, gdzie mieszkają w Londynie.

Dokładną odpowiedzią byłoby podanie adresu ulicy.

Kompletność

Posiadanie wszystkich potrzebnych informacji jest prawie niemożliwe. Kompletność to stopień, w jakim znasz wszystkie wymagane wartości. Kompletność jest trochę trudniejsza do osiągnięcia niż dokładność czy ważność. To dlatego, że nie możesz przyjąć wartości. Musisz tylko wprowadzić znane fakty.

Możesz spróbować uzupełnić swoje dane, powtarzając czynności związane z gromadzeniem danych (ponowne podejście do klientów, ponowne przesłuchanie osób itp.). Ale to nie znaczy, że będziesz w stanie dokładnie uzupełnić swoje dane.

Załóżmy, że ponownie przeprowadzasz wywiady w celu uzyskania potrzebnych wcześniej danych. Teraz ten scenariusz ma problem z przypomnieniem. Jeśli ponownie zadasz im te same pytania, prawdopodobnie nie pamiętają, na co wcześniej odpowiadali. To może do nich doprowadzić, dając ci złą odpowiedź.

Możesz zapytać go, jakie książki czytali pięć miesięcy temu. I mogą nie pamiętać. Podobnie może być konieczne wprowadzenie danych kontaktowych każdego klienta. Ale niektóre z nich mogą nie mieć adresów e-mail. W takim przypadku musisz pozostawić te kolumny puste.

Jeśli masz system, który wymaga wypełnienia wszystkich kolumn, możesz spróbować wpisać tam „brakujące” lub „nieznane”. Jednak wpisanie takich wartości nie oznacza, że dane są kompletne. Nadal byłoby to określane jako niekompletne.

Spójność

Obok kompletności pojawia się spójność. Spójność można zmierzyć, porównując dwa podobne systemy. Możesz też sprawdzić wartości danych w tym samym zestawie danych, aby sprawdzić, czy są one spójne, czy nie. Spójność może być relacyjna. Na przykład wiek klienta może wynosić 15, co jest prawidłową wartością i może być dokładne, ale w tym samym systemie może również zostać uznany za seniora.

W takich przypadkach musisz sprawdzić dane, podobnie jak dokładność pomiaru, i sprawdzić, która wartość jest prawdziwa. Czy klient ma 15 lat? A może klient jest seniorem? Tylko jedna z tych wartości może być prawdziwa.

Istnieje wiele sposobów na zapewnienie spójności danych.

Sprawdź różne systemy:

Możesz spojrzeć na inny podobny system, aby dowiedzieć się, czy wartość, którą masz, jest prawdziwa, czy nie. Jeśli dwa z twoich systemów są ze sobą sprzeczne, warto sprawdzić trzeci.

W naszym poprzednim przykładzie załóżmy, że sprawdzasz trzeci system i stwierdzasz, że wiek klienta to 65 lat . To pokazuje, że drugi system, który mówi, że klient jest starszym obywatelem, wytrzyma.

Sprawdź najnowsze dane:

Innym sposobem na poprawę spójności danych jest sprawdzenie nowszej wartości. W określonych sytuacjach może to być dla Ciebie bardziej korzystne. W swoim rejestrze możesz mieć dwa różne numery kontaktowe klienta. Najnowsza byłaby prawdopodobnie bardziej wiarygodna, ponieważ możliwe, że klient zmienił numer.

Sprawdź źródło:

Najbardziej niezawodnym sposobem sprawdzenia wiarygodności danych jest prosty kontakt ze źródłem. W naszym przykładzie wieku klienta możesz zdecydować się na bezpośredni kontakt z klientem i zapytać go o wiek. Jednak nie jest to możliwe w każdym scenariuszu, a bezpośredni kontakt ze źródłem może być bardzo trudny. Być może klient nie odpowiada lub jego dane kontaktowe nie są dostępne.

Jednolitość

Należy upewnić się, że wszystkie wartości wprowadzone w zestawie danych są w tych samych jednostkach. Jeśli wprowadzasz jednostki SI do pomiarów, w niektórych miejscach nie możesz używać systemu imperialnego. Z drugiej strony, jeśli w jednym miejscu wprowadziłeś czas w sekundach, powinieneś wprowadzić go w tym formacie w całym zbiorze danych.

Przeczytaj: SQL dla nauki o danych

Sprawdzenie jednolitości Twoich zapisów jest dość łatwe. Prosta inspekcja może ujawnić, czy dana wartość jest w wymaganej jednostce, czy nie. Jednostki używane do wprowadzania danych zależą od konkretnych wymagań.

Techniki oczyszczania danych

Wybór technik czyszczenia danych zależy od wielu czynników. Po pierwsze, z jakimi danymi masz do czynienia? Czy są to wartości liczbowe czy łańcuchy? O ile nie masz zbyt małej liczby wartości do obsługi, nie powinieneś oczekiwać, że oczyścisz dane za pomocą tylko jednej techniki.

Być może będziesz musiał użyć wielu technik, aby uzyskać lepszy wynik. Im więcej typów danych musisz obsłużyć, tym więcej technik oczyszczania będziesz musiał użyć. Znajomość wszystkich tych metod pomoże ci naprawić błędy i pozbyć się bezużytecznych danych.

1. Usuń nieistotne wartości

Pierwszą i najważniejszą rzeczą, którą powinieneś zrobić, to usunąć bezużyteczne fragmenty danych z systemu. Nie potrzebujesz żadnych bezużytecznych lub nieistotnych danych. Może nie pasować do kontekstu Twojego problemu.

Być może będziesz musiał jedynie zmierzyć średni wiek pracowników sprzedaży. Wtedy ich adres e-mail nie byłby wymagany. Innym przykładem jest sprawdzanie, z iloma klientami skontaktowałeś się w ciągu miesiąca. W takim przypadku nie potrzebujesz danych osób, do których dotarłeś w poprzednim miesiącu.

Jednak zanim usuniesz konkretną część danych, upewnij się, że jest ona nieistotna, ponieważ może być potrzebna do późniejszego sprawdzenia skorelowanych wartości (w celu sprawdzenia spójności). A jeśli możesz uzyskać drugą opinię od bardziej doświadczonego eksperta przed usunięciem danych, możesz to zrobić.

Nie chciałbyś usuwać niektórych wartości i później żałować swojej decyzji. Ale kiedy masz pewność, że dane są nieistotne, pozbądź się ich.

2. Pozbądź się zduplikowanych wartości

Duplikaty są podobne do bezużytecznych wartości – nie potrzebujesz ich. Zwiększają tylko ilość posiadanych danych i marnują Twój czas. Możesz się ich pozbyć za pomocą prostych wyszukiwań. W systemie mogą znajdować się zduplikowane wartości z kilku powodów.

Może połączyłeś dane z wielu źródeł. A może osoba przesyłająca dane błędnie powtórzyła wartość. Niektórzy użytkownicy kliknęli dwukrotnie na „enter” podczas wypełniania formularza online. Powinieneś usunąć duplikaty, gdy tylko je znajdziesz.

3. Unikaj literówek (i podobnych błędów)

Literówki są wynikiem ludzkiego błędu i mogą być obecne wszędzie. Możesz naprawić literówki za pomocą wielu algorytmów i technik. Możesz zmapować wartości i przekonwertować je na poprawną pisownię. Literówki są niezbędne do naprawienia, ponieważ modele w różny sposób traktują różne wartości. Struny w dużej mierze polegają na swojej pisowni i przypadkach.

„George” różni się od „george”, mimo że mają tę samą pisownię. Podobnie „Mike” i „Myszy” różnią się od siebie, chociaż mają taką samą liczbę znaków. Musisz poszukać takich literówek i odpowiednio je naprawić.

Inny błąd podobny do literówek dotyczy rozmiaru napisów. Być może będziesz musiał je uzupełnić, aby zachować je w tym samym formacie. Na przykład Twój zbiór danych może wymagać tylko 5-cyfrowych liczb. Więc jeśli masz jakąkolwiek wartość, która ma tylko cztery cyfry, taką jak „3994”, możesz dodać zero na początku, aby zwiększyć liczbę cyfr.

Jego wartość pozostanie taka sama jak „03994”, ale zachowa jednolite dane. Dodatkowym błędem przy napisach są spacje. Upewnij się, że usuwasz je ze swoich strun, aby były spójne.

4. Konwertuj typy danych

Typy danych powinny być jednolite w całym zestawie danych. Łańcuch nie może być liczbowy, a liczba nie może być wartością logiczną. Jest kilka rzeczy, o których należy pamiętać, jeśli chodzi o konwersję typów danych:

Zachowaj wartości liczbowe jako liczbowe
Sprawdź, czy liczba jest ciągiem, czy nie. Jeśli wpisałeś go jako ciąg, byłby niepoprawny.
Jeśli nie możesz przekonwertować określonej wartości danych, wpisz „wartość NA” lub coś w tym rodzaju. Upewnij się, że dodałeś również ostrzeżenie, aby pokazać, że ta konkretna wartość jest nieprawidłowa.

5. Zadbaj o brakujące wartości

Zawsze będzie jakiś brakujący fragment danych. Nie możesz tego uniknąć. Powinieneś więc wiedzieć, jak sobie z nimi radzić, aby Twoje dane były czyste i wolne od błędów. W określonej kolumnie w Twoim zbiorze danych może być za dużo brakujących wartości. W takim przypadku rozsądnie byłoby pozbyć się całej kolumny, ponieważ nie ma wystarczającej ilości danych do pracy.

Uwaga: nie należy ignorować brakujących wartości.

Zignorowanie brakujących wartości może być poważnym błędem, ponieważ zanieczyściły one Twoje dane i nie uzyskasz dokładnych wyników. Istnieje wiele sposobów radzenia sobie z brakującymi wartościami.

Wprowadzanie brakujących wartości:

Możesz podać brakujące wartości, co oznacza, że przyjmujesz wartość przybliżoną. Do obliczenia brakującej wartości można użyć regresji liniowej lub mediany. Jednak ta metoda ma swoje konsekwencje, ponieważ nie możesz być pewien, czy to byłaby rzeczywista wartość.

Inną metodą imputowania brakujących wartości jest skopiowanie danych z podobnego zestawu danych. Ta metoda nazywana jest „przypisywaniem gorącego pokładu”. Dodajesz wartość do bieżącego rekordu, biorąc pod uwagę pewne ograniczenia, takie jak typ danych i zakres.

Podświetlanie brakujących wartości:

Imputacja nie zawsze jest najlepszym sposobem na uzupełnienie brakujących wartości. Wielu ekspertów twierdzi, że prowadzi to tylko do bardziej mieszanych wyników, ponieważ nie są one „prawdziwe”. Możesz więc zastosować inne podejście i poinformować model, że brakuje danych. Informacją może być również poinformowanie modelu (lub algorytmu), że określona wartość jest niedostępna.

Jeśli losowe przyczyny nie są odpowiedzialne za brakujące wartości, korzystne może być ich podświetlenie lub oznaczenie. Na przykład Twoje rekordy mogą nie zawierać wielu odpowiedzi na określone pytanie ankiety, ponieważ Twój klient nie chciał na nie odpowiedzieć w pierwszej kolejności.

Jeśli brakująca wartość jest liczbowa, możesz użyć 0. Po prostu upewnij się, że zignorujesz te wartości podczas analizy statystycznej. Z drugiej strony, jeśli brakująca wartość jest wartością kategoryczną, możesz uzupełnić „brakujące”.

Streszczenie

Mamy nadzieję, że spodobało Ci się zapoznanie z naszym szczegółowym przewodnikiem po technikach czyszczenia danych. Niewątpliwie było się wiele do nauczenia.

Dowiedz się więcej na temat wymiany danych z naszego seminarium wideo poniżej.

Jeśli masz jakiekolwiek pytania dotyczące czyszczenia danych, skontaktuj się z naszymi ekspertami.

Jeśli jesteś zainteresowany nauką o danych, sprawdź program IIIT-B i upGrad Executive PG w dziedzinie Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1 -on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Dlaczego niespójność danych stanowi problem?

Gdy ten sam fragment danych pojawia się w kilku miejscach, występuje nadmiarowość danych, natomiast niespójność danych ma miejsce, gdy te same dane pojawiają się w wielu tabelach w różnych formach. Niestety nadmiarowość danych może prowadzić do niespójności danych, co skutkuje niedokładnymi i/lub bezużytecznymi danymi dla firmy. Nie potrafią odpowiednio przewidzieć sprzedaży, aby zoptymalizować procedury zarządzania zapasami i dystrybucją; nie potrafią wykryć problemów związanych z produkcją lub łańcuchem dostaw, aby zminimalizować przekroczenia kosztów i opóźnienia; i nie potrafią ocenić zainteresowania klientów nowym produktem, aby zmienić projekty lub kampanie marketingowe.

Jak często należy czyścić Twoje dane?

Częstotliwość, z jaką należy przeprowadzać wiosenne porządki danych, jest całkowicie zależna od wymagań biznesowych. Duża firma szybko pozyska dużo danych, dlatego czyszczenie danych może być wymagane co trzy do sześciu miesięcy. Sugeruje się, aby mniejsze firmy z mniejszą ilością danych czyściły swoje dane przynajmniej raz w roku. Zaleca się zaplanowanie czyszczenia danych, jeśli kiedykolwiek podejrzewasz, że brudne dane kosztują Cię pieniądze lub negatywnie wpływają na Twoją produktywność, wydajność lub wgląd.

Czy Tableau nadaje się do czyszczenia danych?

Tableau Prep zawiera szereg procedur czyszczenia, których możesz użyć do natychmiastowego czyszczenia i kształtowania danych. Usunięcie brudnych danych ułatwia integrację i analizę danych, a innym osobom zrozumienie danych, gdy je udostępniasz.