Przewodnik dla początkujących po analizie danych (część pierwsza)

Opublikowany: 2017-10-14

To pierwsza z dwuczęściowej serii.

Spis treści

Część pierwsza — Budowa hurtowni danych

W dzisiejszych czasach każdy chce zbudować hurtownię danych. Ale czy naprawdę jest to potrzebne? Nawet jeśli tego potrzebujesz, skąd wiesz, że budujesz właściwą rzecz i kiedy naprawdę zaczniesz czerpać z tego korzyści?

Ale po pierwsze, czym jest hurtownia danych? Mówiąc najprościej, jest to jedno miejsce, w którym możesz przechowywać dane ze wszystkich źródeł. Pomaga odpowiedzieć na pytania, które wymagają złożonej analizy danych z wielu źródeł. Możesz także zbudować hurtownię danych w taki sposób, aby szybko zaspokoić swoje najczęstsze wymagania dotyczące danych.

Rok temu na UpGrad zmagaliśmy się z tym pytaniem – budować czy nie budować hurtowni danych?

Aby odpowiedzieć na to i wiele innych podobnych pytań, rozmawialiśmy z wieloma innymi osobami, które robiły to już wcześniej. Pierwszą rzeczą, jaką zauważyliśmy, było to, że do zbudowania hurtowni danych (lub DW) potrzebny jest odpowiedni zespół inżynierów danych, architektów, analityków i menedżerów produktów. Pierwsze pytanie, jakie zadaliśmy, brzmiało — czy naprawdę warto tyle zainwestować?

Aby znaleźć właściwą odpowiedź, musimy zadać sobie właściwy zestaw pytań. Te pytania mogą zająć dużo czasu i energii, ale kiedy już je skończysz, będziesz o wiele bardziej pewny, czy kontynuować z DW, czy nie. W tym miejscu udzielimy odpowiedzi, które otrzymaliśmy w ramach naszego własnego ćwiczenia, aby zwiększyć Twoje zrozumienie i mamy nadzieję, że pomożemy Ci w procesie podejmowania decyzji, czy założyć własną hurtownię danych.

Przewodnik startowy dotyczący analizy danych Blog dotyczący aktualizacji

Pytanie 1: Jakie odpowiedzi chcesz uzyskać z analiz/danych? A na jakiej częstotliwości?

Jak już zapewne zauważyliście, jest to najważniejsze pytanie ze wszystkich. Musisz zaangażować inne zespoły (sprzedaży, marketingu, biznesu), aby odpowiedzieć na te pytania, aby niczego nie przegapić.

Co to dla nas oznacza : Potrzebowaliśmy 3 ważnych odpowiedzi od analityków/danych:

a. Które kanały w marketingu radzą sobie dobrze, np. atrybucja wielokanałowa?

Zespół marketingowy UpGrad wykorzystuje różne kanały, zarówno online, jak i offline, do pozyskiwania użytkowników. Prowadzimy warsztaty i wydarzenia offline dla profesjonalistów poszukujących możliwości awansu zawodowego. Korzystamy również z kanałów online, takich jak Facebook i Google, aby przyciągnąć tych profesjonalistów. Dlatego bardzo ważne jest, abyśmy wiedzieli, które kanały dobrze sobie radzą, aby opracować naszą strategię marketingową co tydzień, a nawet codziennie. Ponadto chcemy również wiedzieć, czy działania remarketingowe lub działania offline mają jakikolwiek wpływ na przekształcenie tych użytkowników w płatnych studentów.

b. Jak wygląda nasz lejek konwersji ?

Nasz lejek wygląda na znacznie większy niż większość firm. Pierwsza wizyta — rejestracja — rozpoczęcie aplikacji — przesłanie zgłoszenia — test/zwolniony — krótka lista — opłacona. Bardzo ważne jest, aby wiedzieć, jak wygląda ścieżka w oparciu o wiele różnych funkcji, takich jak miasto, grupa wiekowa, kanał pozyskiwania itp.

C. Czy możemy przewidzieć, czy użytkownik zapłaci, czy nie, czyli lead scoring ?

Lead scoring może opierać się na dwóch rzeczach — dopasowaniu i zainteresowaniu. Dopasowanie jest określane na podstawie atrybutów użytkownika, takich jak lata doświadczenia, wynik GRE/GMAT/CAT itp. Zainteresowanie zależy od tego, jak aktywny był użytkownik w witrynie lub jak reaguje na połączenia lub e-maile.

Oprócz tego chcieliśmy:

D. Śledź wyniki każdego ucznia w kursie lub programie, abyśmy mogli pomóc im we właściwym czasie.

mi. Monitoruj oceny uczniów i recenzje treści kursu.

Dostaliśmy o wiele więcej takich pytań od różnych zespołów… ale masz pomysł.

4 najważniejsze umiejętności w zakresie analizy danych, których potrzebujesz

Pytanie nr 2 : Które z tych odpowiedzi są już dostępne w obecnej konfiguracji, czy też wymagałyby jedynie minimalnych poprawek?

Zadanie tego pytania da ci dobre wyobrażenie o aktualnych możliwościach bazy danych. Upewnij się, że masz odpowiednich inżynierów w pokoju, kiedy o to zapytasz (wskazówka: większość z nich to inżynierowie backendu w startupie, którzy opiekują się transakcyjną bazą danych).

Co to dla nas oznaczało :

a. Atrybucja wielokanałowa

Przed dokonaniem zakupu odwiedzający dokonuje wielu wizyt za pośrednictwem różnych kanałów. Czasami po prostu znajdują Cię w Google i odwiedzają Twoją witrynę, a czasami przychodzą na wydarzenie promocyjne offline. Kiedy więc odwiedzający w końcu kupuje produkt, chcemy mieć możliwość przypisania, który z kanałów był najskuteczniejszy. Aby to zrobić, musimy połączyć dane online i offline* w jednym miejscu i uruchomić różne modele atrybucji.

b. Ścieżki konwersji

Nasz lejek ponownie zawiera pewne komponenty offline, takie jak krótkie listy i testy, które są ręcznie przesyłane do Salesforce przez zespół doradczy. Ścieżka wymaga scalenia danych strumienia internetowego z danymi Salesforce.

C. Punktacja ołowiu

Większość narzędzi do oceny leadów jest podstawowa. Na przykład możesz punktować na podstawie wydarzeń transmitowanych w Pardot (przez Salesforce). Potrzebowaliśmy systemu, który mógłby łączyć dane z Salesforce, analityki internetowej i wiadomości e-mail, aby uzyskać ostateczny wynik na podstawie dopasowania i zainteresowania.

D. Występ studencki

Ponieważ te dane są przechowywane w transakcyjnej bazie danych, możemy znaleźć narzędzie do wizualizacji, takie jak BIME lub Tableau, do pobrania danych i utworzenia tych pulpitów nawigacyjnych śledzenia.

mi. Oceny i recenzje uczniów

Tak samo jak w punkcie (d) powyżej.

Zaczęliśmy więc budować schemat hurtowni danych, pamiętając o a, b i c. Wiele startupów nie wymaga scoringu leadów i ma tylko jedno źródło danych do lejków konwersji i atrybucji. Dla tych startupów narzędzie Business Intelligence (BI) jest bardziej efektywne niż faktyczne budowanie hurtowni danych.

Przewodnik dla początkujących po analizie danych Blog dotyczący aktualizacji

Pytanie 3: Czy w ciągu najbliższych 1-2 lat sprawy będą wyglądać inaczej?

Na dużą skalę Twoja transakcyjna baza danych może stać się bardzo duża, a zapytania mogą działać wolniej lub zacząć kończyć się niepowodzeniem. Na takie sytuacje również warto zaplanować, projektując magazyn.

Co to dla nas oznaczało:

Nasza tabela bazy danych o aktywnościach uczniów będzie rosła bardzo szybko w miarę dodawania kolejnych kursów i studentów. Zapytania zaczęły już zwalniać. Warto mieć to na uwadze podczas projektowania schematu.

Pytanie nr 4 : Czy jest gdziekolwiek indziej, w którym chcesz wysłać dane, które chcesz umieścić w swojej hurtowni danych?

Dane przechowywane w hurtowni mogą mieć wiele różnych zastosowań poza głównym. Te przypadki użycia ułatwiają przemyślenie schematu i dołączanie w razie potrzeby dodatkowych pól podczas tworzenia schematu.

Co to dla nas oznaczało:

Lead score jest używany przez zespół doradczy, więc musimy go wysłać do Salesforce. Wynik dopasowania głównej punktacji może być również wykorzystany przez określoną drużynę kursu do automatycznego wykluczenia go z kursu. Model atrybucji jest wykorzystywany przez zespół marketingowy, dlatego musimy go przesłać do narzędzia BI w określonym formacie.

Na koniec pytanie nr 5 : Czy masz odpowiedni zespół do podejmowania takich decyzji jak:

  1. Z jakiej bazy danych analitycznych należy korzystać, w oparciu o skalę i przypadki użycia analityczne?
  2. Jaki powinien być schemat/model danych dla bieżących przypadków użycia? Czy ten schemat jest skalowalny?
  3. Jaki rodzaj ETL byłby wymagany do stworzenia bazy danych analitycznych? Ile czasu zajmie ETL?
  4. Jaka byłaby częstotliwość aktualizacji różnych tabel? Jak radzić sobie z przypadkami użycia w czasie rzeczywistym, takimi jak w przypadku silników rekomendacji?

Będziesz potrzebował inżyniera danych, starszego inżyniera, który pracował z danymi przez co najmniej 3–5 lat, oraz analityka danych, aby podjąć wiele z tych decyzji.

12 sposobów na połączenie analizy danych z wynikami biznesowymi

Po przemyśleniu tych 5 pytań startup może zdecydować, czy zbudować hurtownię danych, czy nie. Oto prosta lista zalet i wad hurtowni danych, która pomoże Ci jeszcze dokładniej ocenić:

Plusy —

  1. Będziesz mieć pełną kontrolę nad swoimi danymi i łatwo przełączyć się na narzędzia innych firm, gdy będą one dla Ciebie droższe lub nie spełniają Twoich wymagań.
  2. Możesz tworzyć produkty do nauki o danych! Rekomendacje, wyszukiwanie, analiza sentymentu, spam a szynka itp. Bądź ostrożny i sprawdź wcześniej, czy będziesz potrzebować danych w czasie rzeczywistym dla tych produktów, czy też będą musiały być aktualizowane co godzinę/dziennie.
  3. Jak wskazano wcześniej, można zaoszczędzić sporo czasu i kłopotów analitykom. Zapytania będą szybsze, a dane wiarygodne.

Cons -

  1. Musisz dużo zainwestować w inżynierię i zasoby do przechowywania danych, zanim zaczniesz czerpać korzyści.
  2. Są szanse, że twoja pierwsza konfiguracja będzie daleka od ideału. Jeśli jesteś firmą na wczesnym i średnim etapie rozwoju, wiele procesów wciąż ewoluuje. Nie możesz pokryć przypadków, które pojawią się w ciągu najbliższych 3–6 miesięcy. Stawianie czoła pytaniom typu „dlaczego o tym nie pomyśleliśmy” może cię zniechęcić. Będziesz musiał odrzucić te małe niepowodzenia i mieć oko na długoterminowy cel.
  3. Większość organizacji nie ma odpowiednich badań i cierpliwości, aby zbudować rozwiązanie hurtowni danych odpowiadające ich potrzebom. Będziesz musiał zainwestować dużo czasu, zanim to wszystko zaczniesz.

Przewodnik dla początkujących po analizie danych Blog dotyczący aktualizacji

Jestem przekonany, że po wykonaniu tego ćwiczenia będziesz gotowy do rozpoczęcia analizy danych dla swojego startupu i unikniesz kosztownych błędów. Skomentuj poniżej i daj nam znać, czy podobał Ci się ten post lub uznał go za przydatny. Czekajcie na następny!

* Gdybyśmy mieli tylko kanały online, moglibyśmy użyć wielokanałowej atrybucji Google Analytics. Mamy również dane o zdarzeniach offline, które można przesłać do Google Analytics. Problem rozwiązany? Niestety! GA zabrania Ci wysyłania jakichkolwiek informacji umożliwiających identyfikację osoby. W przypadku braku informacji o wiadomościach e-mail trudno jest połączyć te dane z innymi źródłami danych, chyba że zmapujesz identyfikator Google Analytics do wiadomości e-mail we własnej bazie danych, wyszukasz te identyfikatory i prześlesz dane offline z tymi identyfikatorami do GA.

Dlaczego analiza danych jest ważna w start-upie?

Na początek analiza danych może pomóc start-upowi w określeniu jego celów. Trudno byłoby wyznaczać cele i śledzić postępy bez wskaźników, co pomaga start-upowi w ciągłym doskonaleniu się i postępie. Po drugie, każdy w firmie może wykorzystać dane, aby zwiększyć produktywność i usprawnić podejmowanie decyzji. Pomaga przedsiębiorcom w podejmowaniu mądrych, przemyślanych i świadomych decyzji start-upów. Ponadto wiedza o tym, czego chcą klienci z wyprzedzeniem, sprawia, że ​​kampanie marketingowe są bardziej zorientowane na klienta. Wreszcie, analiza danych pomaga start-upom w odkrywaniu dalszych potencjalnych szans na optymalizację działalności i zwiększenie zarobków.

Czy analiza danych naprawdę ma znaczenie dla start-upów?

Odpowiedź brzmi tak! Start-upy są zarówno ekscytujące, jak i wyczerpujące. Możliwości są nieograniczone, co jest zarówno ekscytujące, jak i przytłaczające. Jest wiele rzeczy, które należy wprowadzić, ale analiza danych jest często pomijana. Jeśli uważasz, że analiza danych to coś, co możesz odłożyć, dopóki Twoja firma nie będzie dobrze ugruntowana, przekonasz się, że osiągnięcie tego jest o wiele trudniejsze. To, czego uczysz się dzięki analizie danych, może być kluczem do przejścia na wyższy poziom. To dane, które odpowiadają na kluczowe pytania dotyczące Twojego marketingu, użytkowników, produktu, produktywności, obsługi klienta, aby pomóc Ci obrać właściwy kierunek dla Twojego start-upu.

Jakie są najlepsze narzędzia do analizy danych dla start-upów?

W XXI wieku gromadzenie i analiza danych mają kluczowe znaczenie dla podejmowania decyzji. Niezależnie od tego, czy sprzedajesz mały produkt, oprogramowanie jako usługę (SaaS), czy prowadzisz stronę internetową, musisz wiedzieć, co motywuje Twoich klientów do zakupu Twojego produktu, jak wygląda Twój lejek marketingowy i jak możesz go ulepszyć. Niektóre z najskuteczniejszych narzędzi analitycznych, które pomogą w sukcesie Twojej firmy, to Google Analytics, R i Python, Microsoft Excel, Tableau, RapidMiner, KNIME, Power BI, Apache Spark, Qlik View, Talend, Splunk itp.