20 pytań do wywiadu na temat eksploracji danych

Opublikowany: 2020-02-10

Oznacza to, że w AI i ML będzie mnóstwo zadań, a ponieważ Data Mining jest integralną częścią obu, musisz zbudować solidne podstawy w Data Mining. Data Mining odnosi się do techniki używanej do przekształcania nieprzetworzonych danych w znaczące informacje, które mogą być wykorzystywane przez firmy i organizacje. Niektóre z podstawowych aspektów eksploracji danych obejmują zarządzanie danymi i bazami danych, wstępne przetwarzanie danych, walidację danych, aktualizację online i wykrywanie cennych wzorców ukrytych w złożonych zestawach danych. Zasadniczo Data Mining koncentruje się na automatycznej analizie dużych ilości danych w celu wydobycia z nich ukrytych trendów i spostrzeżeń. Właśnie dlatego musisz być gotowy, aby odpowiedzieć na każde pytanie dotyczące eksploracji danych, które zadaje Ci ankieter, jeśli chcesz znaleźć wymarzoną pracę w AI/ML.

Zapoznaj się z kursem certyfikacyjnym z zakresu nauki o danych z najlepszych uniwersytetów na świecie. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

W tym poście przygotowaliśmy listę najczęściej zadawanych pytań do wywiadów Data Mining. Obejmuje wszystkie poziomy pytań i koncepcji wywiadu Data Mining (zarówno podstawowe, jak i zaawansowane), które każdy aspirant AI/ML musi znać.

Więc bez dalszej zwłoki przejdźmy do rzeczy!

Nazwij różne techniki Data Mining i wyjaśnij zakres Data Mining.

Różne techniki eksploracji danych to:

Przewidywanie — odkrywa relacje między instancjami niezależnymi i zależnymi. Na przykład, biorąc pod uwagę dane sprzedażowe, jeśli chcesz przewidzieć przyszły zysk, sprzedaż działa jako instancja niezależna, podczas gdy zysk jest instancją zależną. W związku z tym, na podstawie danych historycznych dotyczących sprzedaży i zysku, powiązany zysk jest wartością przewidywaną.
Drzewa decyzyjne — Korzeń drzewa decyzyjnego funkcjonuje jako warunek/pytanie z wieloma odpowiedziami. Każda odpowiedź prowadzi do konkretnych danych, które pomagają w ustaleniu ostatecznej decyzji na podstawie danych.
Wzorce sekwencyjne – Odnosi się do analizy wzorców wykorzystywanej do wykrywania identycznych wzorców w danych transakcyjnych lub regularnych zdarzeniach. Na przykład dane historyczne klientów pomagają marce zidentyfikować wzorce transakcji, które miały miejsce w ubiegłym roku.
Analiza skupień — w tej technice automatycznie tworzony jest klaster obiektów o podobnych cechach. Metoda klastrowania definiuje klasy, a następnie umieszcza odpowiednie obiekty w każdej klasie.
Analiza klasyfikacji — w tej metodzie opartej na ML każdy element w określonym zestawie jest klasyfikowany do wstępnie zdefiniowanych grup. Wykorzystuje zaawansowane techniki, takie jak programowanie liniowe, sieci neuronowe, drzewa decyzyjne itp.
Nauka reguł asocjacyjnych — ta metoda tworzy wzorzec oparty na relacji elementów w pojedynczej transakcji.

Zakres Data Mining to:

Przewiduj trendy i zachowania — Data Mining automatyzuje proces identyfikacji informacji predykcyjnych w dużych zbiorach/bazach danych.
Odkryj nieznane wcześniej wzorce — narzędzia Data Mining przeczesują szeroką i zróżnicowaną gamę baz danych w celu zidentyfikowania wcześniej ukrytych trendów. To nic innego jak proces odkrywania wzorców.

Jakie są rodzaje eksploracji danych?

Data Mining można podzielić na następujące typy:

Integracja
Wybór
Czyszczenie danych
Ocena wzoru
Transformacja danych
Reprezentacja wiedzy

Co to jest usuwanie danych?

Data Purging to kluczowa procedura w systemach zarządzania bazami danych. Pomaga utrzymać odpowiednie dane w bazie danych. Odnosi się do procesu czyszczenia niepotrzebnych danych poprzez eliminowanie lub usuwanie niepotrzebnych wartości NULL w wierszach i kolumnach. Za każdym razem, gdy trzeba załadować nowe dane do bazy danych, najpierw należy usunąć nieistotne dane.

Dzięki częstemu usuwaniu danych z bazy danych możesz pozbyć się niepotrzebnych danych, które zajmują znaczną ilość pamięci bazy danych, spowalniając w ten sposób wydajność bazy danych.

Jaka jest podstawowa różnica między hurtownią danych a eksploracją danych?

Magazynowanie danych to technika wykorzystywana do wydobywania danych z różnych źródeł. Następnie jest czyszczony i przechowywany do wykorzystania w przyszłości. Z drugiej strony Data Mining to proces eksploracji wyodrębnionych danych za pomocą zapytań, a następnie analizy wyników lub wyników. Jest niezbędny w raportowaniu, planowaniu strategii i wizualizacji cennych spostrzeżeń w danych.

Wyjaśnij różne etapy eksploracji danych.

Istnieją trzy główne etapy eksploracji danych:

Eksploracja – Ten etap skupia się przede wszystkim na zebraniu danych z wielu źródeł i przygotowaniu ich do dalszych czynności, takich jak czyszczenie i transformacja. Po oczyszczeniu i przekształceniu danych można je przeanalizować w celu uzyskania szczegółowych informacji.

Budowanie i walidacja modeli — ten etap obejmuje walidację danych poprzez zastosowanie do nich różnych modeli i porównanie wyników w celu uzyskania najlepszej wydajności. Ten krok jest również nazywany identyfikacją wzorca. Jest to czasochłonny proces, ponieważ użytkownik musi ręcznie określić, który wzorzec najlepiej nadaje się do łatwego przewidywania.

Wdrażanie — Po zidentyfikowaniu najlepiej dopasowanego wzorca do prognozowania jest on stosowany do zestawu danych w celu uzyskania szacunkowych prognoz lub wyników.

Jaki jest pożytek z zapytań Data Mining?

Zapytania Data Mining ułatwiają zastosowanie modelu do nowych danych w celu uzyskania jednego lub wielu wyników. Zapytania mogą skuteczniej wyszukiwać sprawy, które pasują do określonego wzorca. Wyodrębniają pamięć statystyczną danych uczących i pomagają w uzyskaniu dokładnego wzorca wraz z regułą typowego przypadku, który reprezentuje wzorzec w modelu. Ponadto zapytania mogą wyodrębniać formuły regresji i inne obliczenia w celu wyjaśnienia wzorców. Mogą również pobrać szczegóły dotyczące poszczególnych przypadków użytych w modelu.

Czym są dane „dyskretne” i „ciągłe” w eksploracji danych?

W Data Mining dane dyskretne to dane, które są skończone i mają przypisane im znaczenie. Płeć to klasyczny przykład danych dyskretnych. Z drugiej strony dane ciągłe to dane, które wciąż zmieniają się w dobrze ustrukturyzowany sposób. Wiek jest doskonałym przykładem danych ciągłych.

Co to jest OLAP? Czym różni się od OLTP?

OLAP (Online Analytical Processing) to technologia wykorzystywana w wielu aplikacjach Business Intelligence, które wymagają złożonych obliczeń analitycznych. Oprócz skomplikowanych obliczeń, OLAP służy do analizy trendów i zaawansowanego modelowania danych. Podstawowym celem korzystania z systemów OLAP jest zminimalizowanie czasu odpowiedzi na zapytania przy jednoczesnym zwiększeniu efektywności raportowania. Baza danych OLAP przechowuje zagregowane dane historyczne w wielowymiarowym schemacie. Będąc wielowymiarową bazą danych, OLAP pozwala użytkownikowi zrozumieć, w jaki sposób dane pochodzą z różnych źródeł.

OLTP oznacza transakcję i przetwarzanie online. Jest z natury różny od OLAP, ponieważ jest używany w aplikacjach, które obejmują transakcje masowe i duże ilości danych. Aplikacje te znajdują się głównie w sektorze BFSI. Architektura OLTP to architektura klient-serwer, która może obsługiwać transakcje międzysieciowe.

Nazwij różne modele pamięci masowej dostępne w OLAP?

Różne modele pamięci dostępne w OLAP to:

MOLAP (Multidimensional Online Analytical Processing) – Jest to rodzaj przechowywania danych, w którym dane są przechowywane w wielowymiarowych kostkach zamiast w standardowych relacyjnych bazach danych. To właśnie ta cecha sprawia, że wydajność zapytań jest doskonała.
ROLAP (Relational Online Analytical Processing) – W tym magazynie danych dane są przechowywane w relacyjnych bazach danych, dzięki czemu jest w stanie obsłużyć ogromne ilości danych.
HOLAP (Hybrid Online Analytical Processing) – Jest to połączenie MOLAP i ROLAP. HOLAP używa modelu MOLAP do wyodrębniania podsumowanych informacji z kostki, natomiast do możliwości drążenia wykorzystuje model ROLAP.

Co to jest „kostka”?

W Data Mining termin „kostka” odnosi się do przestrzeni przechowywania danych, w której przechowywane są dane. Przechowywanie danych w kostce pomaga przyspieszyć proces analizy danych. Zasadniczo kostki są logiczną reprezentacją danych wielowymiarowych. Podczas gdy krawędź kostki zawiera elementy wymiaru, treść kostki zawiera wartości danych.

Załóżmy, że firma przechowuje dane pracowników (rekordy) w kostce. Kiedy chce ocenić wydajność pracownika na podstawie tygodniowej lub miesięcznej, wtedy tydzień/miesiąc staje się wymiarami kostki.

Co to jest agregacja i generalizacja danych?

Agregacja danych to proces, w którym dane są łączone lub agregowane razem w celu utworzenia kostki do analizy danych. Generalizacja to proces zastępowania danych niskiego poziomu koncepcjami wysokiego poziomu, aby można było uogólnić dane i uzyskać sensowny wgląd.

Wyjaśnij algorytmy drzewa decyzyjnego i szeregów czasowych.

W algorytmie drzewa decyzyjnego każdy węzeł jest albo węzłem liścia, albo węzłem decyzyjnym. Za każdym razem, gdy wprowadzasz obiekt do algorytmu, powstaje decyzja. Drzewo decyzyjne jest tworzone przy użyciu prawidłowości danych. Wszystkie ścieżki łączące węzeł główny z węzłem liścia są osiągane za pomocą operatora AND, OR lub BOTH. Należy zauważyć, że automatyczne przygotowywanie danych nie ma wpływu na drzewo decyzyjne.

Algorytm szeregów czasowych jest używany do typów danych, których wartości zmieniają się stale w zależności od czasu (na przykład wieku danej osoby). Po wytrenowaniu algorytmu i dostrojeniu go do przewidywania zestawu danych, może on z powodzeniem śledzić ciągłe dane i dokonywać dokładnych prognoz. Algorytm szeregów czasowych tworzy określony model, który może przewidywać przyszłe trendy danych na podstawie oryginalnego zestawu danych.

Co to jest klastrowanie?

W Data Mining klastrowanie jest procesem używanym do grupowania obiektów abstrakcyjnych w klasy zawierające podobne obiekty. Tutaj klaster obiektów danych jest traktowany jako jedna grupa. W ten sposób podczas procesu analizy następuje podział danych na grupy, które są następnie etykietowane na podstawie identycznych danych. Analiza klastrów ma kluczowe znaczenie dla Data Mining, ponieważ jest wysoce skalowalna i wymiarowa, a także może radzić sobie z różnymi atrybutami, interpretowalnością i niechlujnymi danymi.

Grupowanie danych jest wykorzystywane w kilku aplikacjach, w tym w przetwarzaniu obrazów, rozpoznawaniu wzorców, wykrywaniu oszustw i badaniach rynku.

Jakie są najczęstsze problemy napotykane podczas eksploracji danych?

Podczas procesu Data Mining możesz napotkać następujące problemy:

Obsługa niepewności
Radzenie sobie z brakującymi wartościami
Radzenie sobie z zaszumionymi danymi
Wydajność algorytmów
Uwzględnianie wiedzy domenowej
Rozmiar i złożoność danych
Wybór danych
Niespójność danych z odkrytą wiedzą.

Określ składnię dla — Specyfikacja miar ciekawości, Specyfikacja prezentacji i wizualizacji wzorca oraz Specyfikacja danych istotnych dla zadania.

Składnia specyfikacji miar ciekawości jest następująca:

z <nazwa_miaru_zainteresowania> próg = wartość_progu

Składnia specyfikacji prezentacji i wizualizacji wzorców to:

wyświetl jako <formularz_wyniku>

Składnia specyfikacji danych istotnych dla zadania to:

użyj bazy danych nazwa_bazy danych

lub

użyj hurtowni danych nazwa_magazynu danych

w odniesieniu do att_or_dim_list

z relacji(ów)/kostki(ów) [warunek gdzie] uporządkuj według listy_zamówień

grupuj według grouping_list

Nazwij różne poziomy analizy w Data Mining?

Różne poziomy analizy w Data Mining to:

Indukcja reguł
Wizualizacja danych
Algorytmy genetyczne
Sztuczna sieć neuronowa
Metoda najbliższego sąsiada

Co to jest żądło?

STING oznacza siatkę informacji statystycznych. Jest to oparta na siatce metoda grupowania w wielu rozdzielczościach, w której wszystkie obiekty są zawarte w prostokątnych komórkach. Chociaż komórki są utrzymywane w różnych poziomach rozdzielczości, poziomy te są dodatkowo ułożone w strukturę hierarchiczną.

Co to jest ETL? Wymień jedne z najlepszych narzędzi ETL.

ETL to skrót od Extract, Transform and Load. Jest to oprogramowanie, które może odczytać dane z określonego źródła danych i wyodrębnić żądany podzbiór danych. Następnie przekształca dane za pomocą reguł i tabel przeglądowych i konwertuje je do żądanej postaci. Na koniec używa funkcji ładowania do załadowania wynikowych danych do docelowej bazy danych.

Najlepsze narzędzia ETL to:

Wyrocznia
Ab initio
Etap danych
Informatyka
Złącze danych
Konstruktor magazynu

Co to są metadane?

Mówiąc prościej, metadane to podsumowane dane, które prowadzą do większego zbioru danych. Metadane zawierają ważne informacje, takie jak liczba użytych kolumn, kolejność pól, typy danych pól, ustalona szerokość i ograniczona szerokość i tak dalej.

Jakie są zalety eksploracji danych?

Data Mining ma cztery podstawowe zalety:

Pomaga zrozumieć surowe dane oraz badać, identyfikować i rozumieć wzorce ukryte w danych.
Pomaga zautomatyzować proces wyszukiwania informacji predykcyjnych w dużych bazach danych, pomagając w ten sposób szybko zidentyfikować wcześniej ukryte wzorce.
Pomaga przeszukiwać i sprawdzać dane oraz zrozumieć, skąd one pochodzą.
Promuje szybsze i lepsze podejmowanie decyzji, pomagając tym samym firmom w podejmowaniu niezbędnych działań w celu zwiększenia przychodów i obniżenia kosztów operacyjnych.

To są powody, dla których Data Mining stała się integralną częścią wielu branż, w tym marketingu, reklamy, IT/ITES, wywiadu biznesowego, a nawet wywiadu rządowego.

Mamy nadzieję, że te pytania do wywiadów Data Mining i ich odpowiedzi pomogą Ci przełamać lody dzięki Data Mining. Chociaż to tylko kilka podstawowych pytań, które musisz znać, pomogą ci one wpłynąć i zagłębić się w temat.

Jeśli jesteś zainteresowany nauką o danych, sprawdź program IIIT-B i upGrad Executive PG w dziedzinie Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1 -on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Jakie są wady korzystania z algorytmu drzewa decyzyjnego?

Nawet niewielka zmiana danych może spowodować znaczącą zmianę w strukturze drzewa decyzyjnego, powodującą niestabilność. W porównaniu z innymi algorytmami obliczenie drzewa decyzyjnego może być czasami dość skomplikowane. Trening drzewa decyzyjnego jest stosunkowo drogi ze względu na złożoność i wymagany czas. Technika drzewa decyzyjnego zawodzi, jeśli chodzi o stosowanie regresji i przewidywanie wartości ciągłych.

Jaka jest różnica między klastrowaniem a klasyfikacją eksploracji danych?

Grupowanie jest techniką uczenia się bez nadzoru, podczas gdy klasyfikacja jest sposobem uczenia nadzorowanego. Klastrowanie to proces grupowania punktów danych w klastry na podstawie ich cech wspólnych. Klasyfikacja polega na oznaczeniu danych wejściowych jedną z etykiet klas zmiennej wyjściowej. Klastrowanie dzieli zbiór danych na podgrupy, umożliwiając grupowanie przykładów o podobnej funkcjonalności. Nie opiera się na danych oznaczonych etykietami ani na zestawie treningowym. Natomiast klasyfikacja klasyfikuje nowe dane na podstawie obserwacji ze zbioru uczącego.

Czy są jakieś wady eksploracji danych?

Podczas korzystania z eksploracji danych pojawia się wiele problemów związanych z prywatnością. Pomimo tego, że data mining otworzyło drogę do prostego zbierania danych na swój sposób. Jeśli chodzi o precyzję, to wciąż ma pewne ograniczenia. Uzyskane dane mogą być nieprawidłowe, powodując problemy z podejmowaniem decyzji. Procedura zbierania danych do eksploracji danych wykorzystuje wiele technologii. Każdy utworzony element danych wymaga własnego przechowywania i utrzymania. W wyniku tego koszt wdrożenia może wzrosnąć.