Eksploracyjna analiza danych i jej znaczenie dla Twojej firmy

Opublikowany: 2018-02-22

Większość dyskusji na temat analizy danych dotyczy jej aspektu „naukowego”. Z pewnością za całym procesem kryje się dużo nauki – algorytmy, formuły i obliczenia, ale nie można od tego oderwać „sztuki”. Zorganizowanie całego procesu – od planowania analizy po zrozumienie końcowego wyniku – jest nie lada wyczynem i jest niczym innym jak formą sztuki. To jest dokładnie to, co jest na dzień dzisiejszy pod naszym tematem – Eksploracyjna Analiza Danych. W tym artykule przyjrzymy się, czym jest eksploracyjna analiza danych, jakie są do tego typowe narzędzia i techniki oraz jak pomaga organizacji.

Spis treści

Co to jest eksploracyjna analiza danych?

Eksploracyjna analiza danych jest jednym z ważnych etapów procesu analizy danych. W tym przypadku nacisk kładziony jest na zrozumienie posiadanych danych — na przykład formułowanie prawidłowych pytań, które należy zadać w zestawie danych, manipulowanie źródłami danych w celu uzyskania wymaganych odpowiedzi i inne. Odbywa się to poprzez szczegółowe przyjrzenie się trendom, wzorom i wartościom odstającym za pomocą metody wizualnej.
Analiza danych rozpoznawczych
Eksploracyjna analiza danych to kluczowy krok przed przejściem do uczenia maszynowego lub modelowania danych. Zapewnia kontekst potrzebny do opracowania odpowiedniego modelu – i prawidłowej interpretacji wyników.
Manipulacja danymi: jak rozpoznać kłamstwa w danych?

Z biegiem lat uczenie maszynowe rozwijało się – a to dało początek wielu potężnym algorytmom uczenia maszynowego. Tak potężne, że niemal kuszą Cię, by pominąć fazę Eksploracyjnej Analizy Danych. Chociaż jest zrozumiałe, dlaczego chcesz skorzystać z takich algorytmów i pominąć EDA – nie jest dobrym pomysłem po prostu wrzucać dane do czarnej skrzynki i czekać na wyniki. Wielokrotnie zaobserwowano, że eksploracyjna analiza danych dostarcza wielu krytycznych informacji, które bardzo łatwo przeoczyć – informacji, które pomagają w analizie na dłuższą metę, od formułowania pytań po wyświetlanie wyników. Jeśli jesteś początkującym i chcesz dowiedzieć się więcej na temat nauki o danych, zapoznaj się z naszym szkoleniem z nauki o danych prowadzonym przez najlepsze uniwersytety.

Podczas gdy aspekty EDA istniały odkąd mamy dane do przeanalizowania, eksploracyjna analiza danych została oficjalnie opracowana w latach 70. XX wieku przez Johna Turkey – tego samego naukowca, który ukuł słowo „Bit” (skrót od cyfry binarnej). EDA jest często postrzegana i opisywana jako filozofia bardziej niż nauka, ponieważ nie ma twardych i szybkich zasad, aby do niej podejść. Cel Eksploracyjnej Analizy Danych jest niezbędny do rozwiązania konkretnych zadań, takich jak:

    • Wykrywanie brakujących i błędnych danych;

    • Mapowanie i zrozumienie podstawowej struktury Twoich danych;

    • Identyfikacja najważniejszych zmiennych w zestawie danych;

    • Testowanie hipotezy lub sprawdzanie założeń związanych z konkretnym modelem;

    • Ustanowienie oszczędnego modelu (takiego, który może wyjaśnić Twoje dane za pomocą minimalnych zmiennych);

  • Szacowanie parametrów i wyznaczanie marginesów błędu.

Narzędzia i techniki stosowane w eksploracyjnej analizie danych

S-Plus i R to najważniejsze języki programowania statystycznego używane do wykonywania eksploracyjnej analizy danych. Te języki są dostarczane z mnóstwem narzędzi, które pomagają wykonywać określone funkcje statystyczne, takie jak:

Techniki klasyfikacji i redukcji wymiarów

Analiza danych rozpoznawczych
Klasyfikacja jest zasadniczo używana do grupowania różnych zbiorów danych w oparciu o wspólny parametr/zmienną. Dane, o których mówimy, są wielowymiarowe i nie jest łatwo przeprowadzić klasyfikację lub grupowanie na wielowymiarowym zestawie danych. Dlatego, aby w tym pomóc, wykonywane są techniki redukcji wymiarów, takie jak PCA i LDA, które redukują wymiarowość zestawu danych bez utraty cennych informacji z danych.
Jak paradoks Simpsona wpływa na dane?

Wizualizacja jednowymiarowa

Analiza danych rozpoznawczych
Wizualizacje jednowymiarowe to zasadniczo rozkłady prawdopodobieństwa każdego pola w surowym zbiorze danych – ze statystykami podsumowującymi. Wizualizacje jednowymiarowe wykorzystują tabele rozkładu częstotliwości, wykresy słupkowe, histogramy lub wykresy kołowe do reprezentacji graficznej.

Wizualizacje dwuwymiarowe

Analiza danych rozpoznawczych
Umożliwiają one analitykom danych ocenę relacji między zmiennymi w zestawie danych — i pomagają w ukierunkowaniu na zmienną, na którą patrzysz. Odpowiednie wykresy do analizy dwuwymiarowej zależą od typu danej zmiennej. Na przykład, jeśli masz do czynienia z dwiema zmiennymi ciągłymi, wykres punktowy powinien być wybranym przez Ciebie wykresem. Jeśli jedna jest kategoryczna, a druga ciągła, preferowany jest wykres skrzynkowy, a gdy obie zmienne są kategoryczne, wybierany jest wykres mozaikowy.
Biznes bezpieczeństwa danych kwitnie!

Wizualizacje wielowymiarowe

Analiza danych rozpoznawczych
Wizualizacje wielowymiarowe pomagają w zrozumieniu interakcji między różnymi polami danych. Obejmuje obserwację i analizę więcej niż jednej statystycznej zmiennej wynikowej w danym momencie.

Grupowanie K-średnich

Analiza danych rozpoznawczych
Grupowanie K-średnich jest zasadniczo używane do tworzenia „centrów” dla każdego skupienia w oparciu o najbliższą średnią. Jest to technika iteracyjna, która polega na tworzeniu i odtwarzaniu klastrów – dopóki utworzone klastry nie przestaną się zmieniać w kolejnych iteracjach. Może służyć do znajdowania wartości odstających w zbiorze danych (punkty, które nie będą formą żadnych klastrów, idealnie będą wartościami odstającymi).

Modele predykcyjne

Analiza danych rozpoznawczych
Jak sama nazwa wskazuje, modelowanie predykcyjne to metoda wykorzystująca statystyki do przewidywania wyników. Chociaż większość prognoz ma na celu przewidzenie, co wydarzy się w przyszłości, modelowanie predykcyjne można również zastosować do dowolnego nieznanego zdarzenia, niezależnie od tego, kiedy ma ono nastąpić. Na przykład technikę tę można wykorzystać do wykrywania przestępstw i identyfikacji podejrzanych nawet po dokonaniu przestępstwa. Najczęstszym sposobem wykonywania modelowania predykcyjnego jest użycie regresji liniowej (patrz ilustracja).
Co to jest magazynowanie danych i eksploracja danych

W jaki sposób eksploracyjna analiza danych pomaga Twojej firmie i gdzie się mieści?

Eksploracyjna analiza danych zapewnia najwyższą wartość każdej firmie, pomagając naukowcom zrozumieć, czy uzyskane przez nich wyniki są prawidłowo interpretowane i czy mają zastosowanie do wymaganych kontekstów biznesowych. Oprócz zapewnienia technicznie solidnych wyników, eksploracyjna analiza danych przynosi również korzyści zainteresowanym stronom, potwierdzając, czy zadawane przez nich pytania są prawidłowe, czy nie. Eksploracyjna nauka o danych często pojawia się z nieprzewidywalnymi spostrzeżeniami – takimi, których interesariusze lub naukowcy zajmujący się danymi ogólnie nie chcieliby nawet badać, ale które nadal mogą okazać się bardzo przydatne w biznesie.
Istnieje wiele łączników danych, które pomagają organizacjom włączać eksploracyjną analizę danych bezpośrednio do oprogramowania Business Intelligence. Możesz również ustawić to, aby umożliwić przepływ danych również w drugą stronę, budując i uruchamiając modele statystyczne w (na przykład) R, które używają danych BI i automatycznie aktualizują się, gdy nowe informacje wpływają do modelu.
Potencjalne przypadki użycia eksploracyjnej analizy danych są szerokie, ale ostatecznie wszystko sprowadza się do tego – analiza eksploracyjna danych polega na poznaniu i zrozumieniu danych przed przyjęciem jakichkolwiek założeń na ich temat lub podjęciem jakichkolwiek kroków w odpowiednim kierunku eksploracji danych. Pomaga to uniknąć tworzenia niedokładnych modeli lub budowania dokładnych modeli na niewłaściwych danych.
Wykonanie tego kroku we właściwy sposób zapewni każdej organizacji niezbędną pewność co do swoich danych – co ostatecznie pozwoli im rozpocząć wdrażanie zaawansowanych algorytmów uczenia maszynowego. Jednak zignorowanie tego kluczowego kroku może doprowadzić do zbudowania systemu Business Intelligence na bardzo chwiejnym fundamencie.
12 sposobów na połączenie analizy danych z wynikami biznesowymi

Podsumowując…
Eksploracyjna analiza danych jest wyraźnie jednym z ważnych kroków podczas całego procesu wydobywania wiedzy. Jeśli chcesz stworzyć mocne podstawy dla całego procesu analizy, powinieneś skupić się z całych sił na fazie EDA. Szczerze mówiąc, aby wykonać ten krok, potrzebna jest trochę statystyk. Jeśli czujesz, że pozostajesz w tyle na tym froncie, nie zapomnij przeczytać naszego artykułu Podstawy statystyki potrzebnej do nauki o danych.

Ucz się online kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Jeśli jesteś zainteresowany nauką Pythona i chcesz pobrudzić sobie ręce różnymi narzędziami i bibliotekami, zapoznaj się z programem Executive PG w dziedzinie nauki o danych. Aha, a co myślisz o naszym stanowisku, że „Eksploracyjna analiza danych” jest bardziej sztuką niż nauką? Daj nam znać w komentarzach poniżej!

Dlaczego specjalista ds. danych powinien korzystać z eksploracyjnej analizy danych, aby ulepszyć swój biznes?

Podstawowym celem Eksploracyjnej Analizy Danych jest pomoc w analizie danych przed przyjęciem jakichkolwiek założeń. Może pomóc w wykrywaniu oczywistych błędów, lepszym zrozumieniu wzorców danych, wykrywaniu wartości odstających lub nieoczekiwanych zdarzeń oraz odkrywaniu interesujących korelacji między zmiennymi.

Analitycy danych mogą stosować analizę eksploracyjną, aby zapewnić, że uzyskiwane przez nich wyniki są dokładne i akceptowalne dla wszelkich pożądanych wyników i celów biznesowych. EDA pomaga również zainteresowanym stronom, zapewniając, że zadają oni odpowiednie pytania. Na odchylenia standardowe, zmienne kategoryczne i przedziały ufności można odpowiedzieć za pomocą EDA. Po zakończeniu EDA i wyodrębnieniu spostrzeżeń, jego funkcje można zastosować do bardziej zaawansowanej analizy danych lub modelowania, w tym uczenia maszynowego.

Jakie są najpopularniejsze przypadki użycia EDA?

Nierzadko naukowcy zajmujący się danymi używają EDA przed wiązaniem innych typów modelowania. Jest często używany w analizie danych do przeglądania zbiorów danych w celu zidentyfikowania wartości odstających, trendów, wzorców i błędów. Na przykład EDA jest powszechnie stosowana w handlu detalicznym, gdzie narzędzia BI i eksperci analizują dane, aby odkryć wgląd w trendy sprzedaży, najlepsze kategorie itp., EDA jest również stosowana w badaniach opieki zdrowotnej w celu identyfikacji nowych trendów na rynku lub w branży, określając szczepy grypa, która może być bardziej rozpowszechniona w nowym sezonie grypowym, weryfikacja jednorodności populacji pacjentów itp.

Jakie są rodzaje eksploracyjnej analizy danych?

Rodzaje eksploracyjnej analizy danych to

1. Jednowymiarowa niegraficzna: Standardowym celem jednowymiarowej niegraficznej EDA jest zrozumienie rozkładu/danych próbki i dokonanie obserwacji populacji.
2. Graficzny jednowymiarowy: histogramy, wykresy łodygi i liści, wykresy skrzynkowe itp.
3. Wielowymiarowe Niegraficzne : Te techniki EDA wykorzystują tabele krzyżowe lub statystyki do zobrazowania relacji między dwiema lub większą liczbą zmiennych danych.
4. Graficzny wielowymiarowy : Graficzne reprezentacje relacji między dwoma lub więcej typami danych są używane w danych wielowymiarowych.