20 de întrebări pentru interviu pentru data mining

Publicat: 2020-02-10

Înseamnă că va exista o mulțime de locuri de muncă în AI și ML și, deoarece Data Mining este o parte integrantă a ambelor, trebuie să construiți o bază solidă în Data Mining. Data Mining se referă la tehnica folosită pentru a converti datele brute în perspective semnificative care pot fi utilizate de companii și organizații. Unele dintre aspectele fundamentale ale Data Mining includ gestionarea datelor și a bazelor de date, preprocesarea datelor, validarea datelor, actualizarea online și descoperirea modelelor valoroase ascunse în seturi de date complexe. În esență, Data Mining se concentrează pe analiza automată a unor volume mari de date pentru a extrage tendințele și perspectivele ascunse din acestea. Tocmai de aceea trebuie să fii pregătit să răspunzi la orice întrebare de data mining pe care intervievatorul ți-o pune în fața dacă vrei să obții jobul de vis în AI/ML.

Învață curs de certificare în știința datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.

În această postare, am compilat o listă cu cele mai frecvente întrebări de interviu pentru Data Mining. Acoperă toate nivelurile de întrebări și concepte de interviu Data Mining (atât nivelurile de bază, cât și nivelurile avansate) pe care fiecare aspirant AI/ML trebuie să le cunoască.

Așa că, fără mai multă întârziere, să intrăm direct în asta!

Numiți diferitele tehnici de Data Mining și explicați domeniul de aplicare al Data Miningului.

Diferitele tehnici de data mining sunt:

Predicție – Descoperă relația dintre instanțe independente și dependente. De exemplu, atunci când luați în considerare datele de vânzări, dacă doriți să preziceți profitul viitor, vânzarea acționează ca o instanță independentă, în timp ce profitul este instanța dependentă. În consecință, pe baza datelor istorice ale vânzărilor și profitului, profitul asociat este valoarea estimată.
Arbori de decizie – Rădăcina unui arbore de decizie funcționează ca o condiție/întrebare cu răspunsuri multiple. Fiecare răspuns duce la date specifice care ajută la determinarea deciziei finale pe baza datelor.
Modele secvențiale – Se referă la analiza modelului utilizată pentru a descoperi modele identice în datele tranzacțiilor sau evenimente obișnuite. De exemplu, datele istorice ale clienților ajută o marcă să identifice tiparele în tranzacțiile care au avut loc în ultimul an.
Analiza grupării – În această tehnică, se formează automat un grup de obiecte având caracteristici similare. Metoda de grupare definește clase și apoi plasează obiecte adecvate în fiecare clasă.
Analiza clasificării – În această metodă bazată pe ML, fiecare articol dintr-un anumit set este clasificat în grupuri predefinite. Utilizează tehnici avansate precum programarea liniară, rețelele neuronale, arbori de decizie etc.
Învățarea regulilor de asociere – Această metodă creează un model bazat pe relația elementelor dintr-o singură tranzacție.

Domeniul de aplicare al Data Mining este:

Preziceți tendințele și comportamentele – Data Mining automatizează procesul de identificare a informațiilor predictive în seturi de date/baze de date mari.
Descoperiți modele necunoscute anterior – instrumentele de exploatare a datelor parcurg o gamă largă și diversă de baze de date pentru a identifica tendințele ascunse anterior. Acesta nu este altceva decât un proces de descoperire a modelelor.

Care sunt tipurile de Data Mining?

Miningul de date poate fi clasificat în următoarele tipuri:

Integrare
Selecţie
Curățarea datelor
Evaluarea modelului
Transformarea datelor
Reprezentarea cunoștințelor

Ce este curățarea datelor?

Epurarea datelor este o procedură crucială în sistemele de management al bazelor de date. Ajută la menținerea datelor relevante într-o bază de date. Se referă la procesul de curățare a datelor nedorite prin eliminarea sau ștergerea valorilor NULL inutile ale rândurilor și coloanelor. Ori de câte ori trebuie să încărcați date noi în baza de date, mai întâi, este esențial să curățați datele irelevante.

Cu curățarea frecventă a bazei de date, puteți scăpa de datele nedorite care ocupă o cantitate substanțială de memorie a bazei de date, încetinind astfel performanța bazei de date.

Care este diferența fundamentală dintre Data Warehousing și Data Mining?

Data Warehousing este tehnica folosită pentru extragerea datelor din surse disparate. Apoi este curățat și depozitat pentru utilizare ulterioară. Pe de altă parte, Data Mining este procesul de explorare a datelor extrase folosind interogări și apoi de analizat rezultatele sau rezultatele. Este esențial în raportare, planificarea strategiei și vizualizarea informațiilor valoroase din date.

Explicați diferitele etape ale exploatării datelor.

Există trei etape principale ale Data Mining:

Explorare – Această etapă se concentrează în primul rând pe colectarea de date din mai multe surse și pregătirea acestora pentru activități ulterioare, cum ar fi curățarea și transformarea. Odată ce datele sunt curățate și transformate, pot fi analizate pentru informații.

Construirea și validarea modelului – Această etapă implică validarea datelor prin aplicarea diferitelor modele și compararea rezultatelor pentru performanță optimă. Acest pas se mai numește și identificarea modelului. Este un proces care consumă timp, deoarece utilizatorul trebuie să identifice manual care model este cel mai potrivit pentru predicții ușoare.

Implementare – Odată ce modelul cel mai potrivit pentru predicție este identificat, acesta este aplicat setului de date pentru obținerea de predicții sau rezultate estimate.

La ce folosesc interogările Data Mining?

Interogările Data Mining ajută la facilitarea aplicării modelului la noile date, fie pentru a obține rezultate unice, fie multiple. Interogările pot prelua mai eficient cazurile care se potrivesc unui anumit model. Ele extrag memoria statistică a datelor de antrenament și ajută la obținerea modelului exact împreună cu regula cazului tipic care reprezintă un model în model. În plus, interogările pot extrage formule de regresie și alte calcule pentru a explica modelele. De asemenea, pot prelua detalii despre cazurile individuale utilizate într-un model.

Ce sunt datele „Discrete” și „Continue” în Data Mining?

În Data Mining, datele discrete sunt datele care sunt finite și au o semnificație atașată. Genul este un exemplu clasic de date discrete. Datele continue, pe de altă parte, sunt datele care continuă să se schimbe într-o manieră bine structurată. Vârsta este un exemplu perfect de date continue.

Ce este OLAP? Cum este diferit de OLTP?

OLAP (Online Analytical Processing) este o tehnologie folosită în multe aplicații de Business Intelligence care implică calcule analitice complexe. Pe lângă calculele complexe, OLAP este utilizat pentru analiza tendințelor și modelarea avansată a datelor. Scopul principal al utilizării sistemelor OLAP este de a minimiza timpul de răspuns la interogare, sporind simultan eficacitatea raportării. Baza de date OLAP stochează date istorice agregate într-o schemă multidimensională. Fiind o bază de date multidimensională, OLAP permite utilizatorului să înțeleagă cum vin datele prin diferite surse.

OLTP înseamnă Online Transaction and Processing. Este în mod inerent diferit de OLAP, deoarece este utilizat în aplicații care implică tranzacții în vrac și volume mari de date. Aceste aplicații se găsesc în principal în sectorul BFSI. Arhitectura OLTP este o arhitectură client-server care poate suporta tranzacții între rețele.

Numiți diferitele modele de stocare care sunt disponibile în OLAP?

Diferitele modele de stocare disponibile în OLAP sunt:

MOLAP (Multidimensional Online Analytical Processing) – Acesta este un tip de stocare a datelor în care datele sunt stocate în cuburi multidimensionale în loc de baze de date relaționale standard. Această caracteristică face ca performanța interogării să fie excelentă.
ROLAP (Procesare analitică online relațională) – În această stocare a datelor, datele sunt stocate în baze de date relaționale și, prin urmare, sunt capabile să manipuleze un volum mare de date.
HOLAP (Hybrid Online Analytical Processing) – Aceasta este o combinație de MOLAP și ROLAP. HOLAP folosește modelul MOLAP pentru a extrage informații rezumate din cub, în timp ce pentru capabilitățile de detaliere, folosește modelul ROLAP.

Ce este „Cube?”

În Data Mining, termenul „cub” se referă la un spațiu de stocare a datelor în care sunt stocate datele. Stocarea datelor într-un cub ajută la accelerarea procesului de analiză a datelor. În esență, cuburile sunt reprezentarea logică a datelor multidimensionale. În timp ce marginea cubului are membrii dimensiunii, corpul cubului conține valorile datelor.

Să presupunem că o companie își stochează datele (înregistrările) angajaților într-un cub. Când dorește să evalueze performanța angajatului pe o bază săptămânală sau lunară, atunci săptămâna/luna devine dimensiunile cubului.

Ce este agregarea și generalizarea datelor?

Agregarea datelor este procesul în care datele sunt combinate sau agregate împreună pentru a crea un cub pentru analiza datelor. Generalizarea este procesul de înlocuire a datelor de nivel scăzut cu concepte de nivel înalt, astfel încât datele să poată fi generalizate și să producă perspective semnificative.

Explicați algoritmii Arborele de decizie și Seria temporală.

În algoritmul Arborele de decizie, fiecare nod este fie un nod frunză, fie un nod de decizie. De fiecare dată când introduceți un obiect în algoritm, acesta produce o decizie. Un arbore de decizie este creat folosind regularitățile datelor. Toate căile care conectează nodul rădăcină la nodul frunză sunt atinse fie folosind „ȘI”, „SAU” sau „AMBE”. Este important de reținut că Arborele de decizie rămâne neafectat de Pregătirea automată a datelor.

Algoritmul Time-Series este utilizat pentru tipurile de date ale căror valori se modifică continuu în funcție de timp (de exemplu, vârsta unei persoane). Când ați antrenat algoritmul și îl reglați pentru a prezice setul de date, acesta poate urmări cu succes datele continue și poate face predicții precise. Algoritmul Time-Series creează un model specific care poate prezice tendințele viitoare ale datelor pe baza setului de date original.

Ce este clustering?

În Data Mining, gruparea este procesul folosit pentru a grupa obiecte abstracte în clase care conțin obiecte similare. Aici, un grup de obiecte de date este tratat ca un singur grup. Astfel, în timpul procesului de analiză, partiția datelor are loc în grupuri care sunt apoi etichetate pe baza datelor identice. Analiza cluster este esențială pentru Data Mining, deoarece este foarte scalabilă și dimensională și poate, de asemenea, să se ocupe de diferite atribute, interpretabilitate și date dezordonate.

Gruparea datelor este utilizată în mai multe aplicații, inclusiv procesarea imaginilor, recunoașterea modelelor, detectarea fraudelor și cercetarea de piață.

Care sunt problemele comune cu care se confruntă în timpul Data Mining?

În timpul procesului de extragere a datelor, puteți întâmpina următoarele probleme:

Gestionarea incertitudinii
Confruntarea cu valorile lipsă
Tratarea datelor zgomotoase
Eficiența algoritmilor
Încorporarea cunoștințelor de domeniu
Dimensiunea și complexitatea datelor
Selectarea datelor
Incoerență între date și cunoștințele descoperite.

Specificați sintaxa pentru – Specificația măsurilor de interes, Specificația de prezentare și vizualizare a modelului și Specificația datelor relevante pentru sarcină.

Sintaxa pentru specificația măsurilor de interes este:

cu <nume_măsură_dobândă> prag = valoare_prag

Sintaxa pentru prezentarea modelului și specificația de vizualizare este:

afișați ca <form_rezultat>

Sintaxa pentru specificarea datelor relevante pentru sarcini este:

utilizați baza de date database_name

sau

utilizați depozitul de date numele_depozitul de date

în relevanță pentru att_or_dim_list

din relație(e)/cub(e) [unde condiție] ordonați după listă_comandă

grupați după listă_grupare

Numiți nivelul diferit de analiză în Data Mining?

Diferitele niveluri de analiză în Data Mining sunt:

Inducerea regulilor
Vizualizarea datelor
Algoritmi genetici
Retele neuronale artificiale
Metoda celui mai apropiat vecin

Ce este STING?

STING înseamnă Statistical Information Grid. Este o metodă de grupare cu mai multe rezoluții, bazată pe grilă, în care toate obiectele sunt conținute în celule dreptunghiulare. În timp ce celulele sunt păstrate la diferite niveluri de rezoluție, aceste niveluri sunt aranjate în continuare într-o structură ierarhică.

Ce este ETL? Numiți unele dintre cele mai bune instrumente ETL.

ETL înseamnă Extract, Transform and Load. Este un software care poate citi datele din sursa de date specificată și poate extrage un subset de date dorit. După aceasta, transformă datele folosind reguli și tabele de căutare și le convertește în forma dorită. În cele din urmă, folosește funcția de încărcare pentru a încărca datele rezultate în baza de date țintă.

Cele mai bune instrumente ETL sunt:

Oracol
Ab Initio
Etapa de date
Informatica
Data Junction
Constructor de depozite

Ce sunt metadatele?

Cu cuvinte simple, metadatele sunt datele rezumate care conduc la un set de date mai mare. Metadatele conțin informații importante precum numărul de coloane utilizate, ordinea câmpurilor, tipurile de date ale câmpurilor, lățime fixă și lățime limitată și așa mai departe.

Care sunt avantajele Data Mining-ului?

Data Mining are patru avantaje principale:

Acesta ajută la înțelegerea datelor brute și la explorarea, identificarea și înțelegerea tiparelor ascunse în date.
Ajută la automatizarea procesului de găsire a informațiilor predictive în baze de date mari, ajutând astfel la identificarea promptă a tiparelor ascunse anterior.
Ajută la filtrarea și validarea datelor și la înțelegerea de unde provin.
Promovează luarea deciziilor mai rapide și mai bune, ajutând astfel companiile să ia măsurile necesare pentru a crește veniturile și a reduce costurile operaționale.

Acestea sunt motivele pentru care Data Mining a devenit parte integrantă a numeroaselor industrii, inclusiv marketing, publicitate, IT/ITES, business intelligence și chiar informații guvernamentale.

Sperăm că aceste întrebări de interviu Data Mining și răspunsurile lor vă ajută să spargeți gheața cu Data Mining. Deși acestea sunt doar câteva întrebări de nivel de bază pe care trebuie să le cunoașteți, ele vă vor ajuta să intrați în flux și să aprofundați subiectul.

Dacă sunteți curios să aflați despre știința datelor, consultați programul Executive PG în știința datelor de la IIIT-B și upGrad, care este creat pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1 -on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Care sunt dezavantajele utilizării unui algoritm de arbore de decizie?

Chiar și o modificare minoră a datelor poate provoca o schimbare semnificativă a structurii arborelui de decizie, ducând la instabilitate. În comparație cu alți algoritmi, calculul unui arbore de decizie poate fi uneori destul de complex. Formarea în arborele de decizie este relativ costisitoare datorită complexității și timpului necesar. Tehnica Arborele de decizie eșuează atunci când vine vorba de aplicarea regresiei și de prezicerea valorilor continue.

Care este diferența dintre data mining clustering și clasificare?

Clustering este o tehnică de învățare nesupravegheată, în timp ce clasificarea este o modalitate de învățare supravegheată. Clustering este procesul de grupare a punctelor de date în clustere, pe baza caracteristicilor lor comune. Clasificarea presupune etichetarea datelor de intrare cu una dintre etichetele de clasă ale variabilei de ieșire. Clustering împarte setul de date în subgrupuri, permițând exemplelor cu funcționalități similare să fie grupate. Nu se bazează pe date etichetate sau pe un set de antrenament pentru a funcționa. Clasificarea, pe de altă parte, clasifică datele noi pe baza observațiilor din setul de antrenament.

Există dezavantaje ale minării de date?

Multe probleme de confidențialitate apar atunci când se utilizează data mining. În ciuda faptului că data mining-ul a deschis calea pentru colectarea simplă a datelor în felul său. Când vine vorba de precizie, încă mai are anumite limite. Datele obținute pot fi incorecte, producând probleme cu luarea deciziilor. Procedura de colectare a datelor pentru data mining utilizează multă tehnologie. Fiecare bucată de date creată necesită propria sa stocare și întreținere. Costul implementării ar putea crește vertiginos ca urmare a acestui fapt.