20 Domande sull'intervista sul data mining

Pubblicato: 2020-02-10

Significa che ci sarà un ampio ambito di lavoro in AI e ML e, poiché il data mining è parte integrante di entrambi, è necessario costruire una solida base nel data mining. Il data mining si riferisce alla tecnica utilizzata per convertire i dati grezzi in informazioni significative che possono essere utilizzate da aziende e organizzazioni. Alcuni degli aspetti fondamentali del Data Mining includono la gestione di dati e database, la pre-elaborazione dei dati, la convalida dei dati, l'aggiornamento online e la scoperta di modelli preziosi nascosti all'interno di set di dati complessi. In sostanza, il Data Mining si concentra sull'analisi automatica di grandi volumi di dati per estrarne le tendenze e gli insight nascosti. Questo è esattamente il motivo per cui devi essere pronto a rispondere a qualsiasi domanda sul data mining che l'intervistatore ti pone davanti se vuoi ottenere il lavoro dei tuoi sogni in AI/ML.

Impara il corso di certificazione della scienza dei dati dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.

In questo post, abbiamo compilato un elenco delle domande più frequenti nell'intervista sul Data Mining. Copre tutti i livelli di domande e concetti del colloquio di Data Mining (sia di base che avanzato) che ogni aspirante AI/ML deve conoscere.

Quindi, senza ulteriori indugi, entriamo subito!

  1. Assegna un nome alle diverse tecniche di Data Mining e spiega lo scopo del Data Mining.

Le diverse tecniche di Data Mining sono:

  • Predizione : scopre la relazione tra istanze indipendenti e dipendenti. Ad esempio, quando si considerano i dati di vendita, se si desidera prevedere il profitto futuro, la vendita agisce come un'istanza indipendente, mentre il profitto è l'istanza dipendente. Di conseguenza, sulla base dei dati storici delle vendite e del profitto, il profitto associato è il valore previsto.
  • Alberi decisionali : la radice di un albero decisionale funziona come una condizione/domanda con risposte multiple. Ogni risposta porta a dati specifici che aiutano a determinare la decisione finale in base ai dati.
  • Modelli sequenziali : si riferisce all'analisi dei modelli utilizzata per scoprire modelli identici nei dati delle transazioni o negli eventi regolari. Ad esempio, i dati storici dei clienti aiutano un marchio a identificare i modelli nelle transazioni avvenute nell'ultimo anno.
  • Analisi di clustering – Con questa tecnica si forma automaticamente un cluster di oggetti con caratteristiche simili. Il metodo di clustering definisce le classi e quindi inserisce gli oggetti adatti in ciascuna classe.
  • Analisi di classificazione : in questo metodo basato sul riciclaggio, ogni elemento in un insieme particolare è classificato in gruppi predefiniti. Utilizza tecniche avanzate come la programmazione lineare, le reti neurali, gli alberi decisionali, ecc.
  • Apprendimento delle regole di associazione : questo metodo crea un modello basato sulla relazione degli elementi in una singola transazione.

Lo scopo del Data Mining è:

  • Prevedi tendenze e comportamenti : il data mining automatizza il processo di identificazione delle informazioni predittive in set di dati/database di grandi dimensioni.
  • Scopri modelli precedentemente sconosciuti : gli strumenti di data mining esplorano e raschiano una gamma ampia e diversificata di database per identificare le tendenze precedentemente nascoste. Questo non è altro che un processo di scoperta di schemi.
  1. Quali sono i tipi di data mining?

Il data mining può essere classificato nelle seguenti tipologie:

  • Integrazione
  • Selezione
  • Pulizia dei dati
  • Valutazione del modello
  • Trasformazione dei dati
  • Rappresentazione della conoscenza
  1. Che cos'è l'eliminazione dei dati?

L'eliminazione dei dati è una procedura cruciale nei sistemi di gestione dei database. Aiuta a mantenere i dati rilevanti in un database. Si riferisce al processo di pulizia dei dati spazzatura eliminando o eliminando i valori NULL non necessari di riga e colonne. Ogni volta che è necessario caricare nuovi dati nel database, in primo luogo, è essenziale eliminare i dati irrilevanti.

Con l'eliminazione frequente dei dati del database, è possibile eliminare i dati spazzatura che occupano una notevole quantità di memoria del database, rallentando così le prestazioni del database.

  1. Qual è la differenza fondamentale tra Data Warehousing e Data Mining?

Il Data Warehousing è la tecnica utilizzata per estrarre dati da fonti disparate. Viene quindi pulito e conservato per un uso futuro. D'altra parte, il data mining è il processo di esplorazione dei dati estratti utilizzando query e quindi di analisi dei risultati o dei risultati. È essenziale nel reporting, nella pianificazione della strategia e nella visualizzazione delle preziose informazioni all'interno dei dati.

  1. Spiega le diverse fasi del Data Mining.

Ci sono tre fasi principali del Data Mining:

Esplorazione: questa fase si concentra principalmente sulla raccolta di dati da più fonti e sulla preparazione per ulteriori attività come la pulizia e la trasformazione. Una volta che i dati sono stati puliti e trasformati, possono essere analizzati per approfondimenti.

Costruzione e convalida del modello: questa fase prevede la convalida dei dati applicando modelli diversi e confrontando i risultati per ottenere le migliori prestazioni. Questo passaggio è anche chiamato identificazione del modello. È un processo che richiede tempo poiché l'utente deve identificare manualmente quale modello è il più adatto per previsioni facili.

Distribuzione: una volta identificato il modello più adatto per la previsione, viene applicato al set di dati per ottenere previsioni o risultati stimati.

  1. A cosa servono le query di data mining?

Le query di data mining aiutano a facilitare l'applicazione del modello ai nuovi dati, per ottenere risultati singoli o multipli. Le query possono recuperare i casi che si adattano a un modello particolare in modo più efficace. Estraggono la memoria statistica dei dati di addestramento e aiutano a ottenere il modello esatto insieme alla regola del caso tipico che rappresenta un modello nel modello. Inoltre, le query possono estrarre formule di regressione e altri calcoli per spiegare i modelli. Possono anche recuperare i dettagli sui singoli casi utilizzati in un modello.

  1. Cosa sono i dati "Discreti" e "Continui" nel Data Mining?

In Data Mining, i dati discreti sono i dati che sono finiti e hanno un significato annesso. Il genere è un classico esempio di dati discreti. I dati continui, invece, sono i dati che continuano a cambiare in modo ben strutturato. L'età è un perfetto esempio di dati continui.

  1. Cos'è l'OLAP? In cosa è diverso da OLTP?

OLAP (Online Analytical Processing) è una tecnologia utilizzata in molte applicazioni di Business Intelligence che implicano calcoli analitici complessi. Oltre ai calcoli complessi, OLAP viene utilizzato per l'analisi delle tendenze e la modellazione avanzata dei dati. Lo scopo principale dell'utilizzo dei sistemi OLAP è di ridurre al minimo il tempo di risposta alle query, aumentando allo stesso tempo l'efficacia del reporting. Il database OLAP archivia i dati storici aggregati in uno schema multidimensionale. Essendo un database multidimensionale, OLAP consente all'utente di capire come i dati provengono da diverse fonti.

OLTP sta per Transazione ed elaborazione online. È intrinsecamente diverso da OLAP poiché viene utilizzato in applicazioni che implicano transazioni in blocco e grandi volumi di dati. Queste applicazioni si trovano principalmente nel settore BFSI. L'architettura OLTP è un'architettura client-server in grado di supportare transazioni tra reti.

  1. Assegna un nome ai diversi modelli di archiviazione disponibili in OLAP?

I diversi modelli di archiviazione disponibili in OLAP sono:

  • MOLAP (Multidimensional Online Analytical Processing) – Questo è un tipo di archiviazione dati in cui i dati vengono archiviati in cubi multidimensionali anziché in database relazionali standard. È questa caratteristica che rende le prestazioni della query eccellenti.
  • ROLAP (Relational Online Analytical Processing) – In questo archivio di dati, i dati sono archiviati in database relazionali e, quindi, sono in grado di gestire un vasto volume di dati.
  • HOLAP (Hybrid Online Analytical Processing) – Questa è una combinazione di MOLAP e ROLAP. HOLAP utilizza il modello MOLAP per estrarre informazioni riepilogative dal cubo, mentre per le funzionalità di drill-down utilizza il modello ROLAP.
  1. Che cos'è "Cubo?"

In Data Mining, il termine "cubo" si riferisce a uno spazio di archiviazione dati in cui vengono archiviati i dati. La memorizzazione dei dati in un cubo aiuta ad accelerare il processo di analisi dei dati. In sostanza, i cubi sono la rappresentazione logica di dati multidimensionali. Mentre il bordo del cubo contiene i membri della dimensione, il corpo del cubo contiene i valori dei dati.

Supponiamo che un'azienda memorizzi i dati (record) dei suoi dipendenti in un cubo. Quando si desidera valutare le prestazioni dei dipendenti su base settimanale o mensile, la settimana/mese diventa la dimensione del cubo.

  1. Che cos'è l'aggregazione e la generalizzazione dei dati?

L'aggregazione dei dati è il processo in cui i dati vengono combinati o aggregati insieme per creare un cubo per l'analisi dei dati. La generalizzazione è il processo di sostituzione dei dati di basso livello con concetti di alto livello in modo che i dati possano essere generalizzati e produrre approfondimenti significativi.

  1. Spiegare gli algoritmi Decision Tree e Time Series.

Nell'algoritmo Decision Tree, ogni nodo è un nodo foglia o un nodo decisionale. Ogni volta che si inserisce un oggetto nell'algoritmo, si produce una decisione. Viene creato un albero decisionale utilizzando le regolarità dei dati. Tutti i percorsi che collegano il nodo radice al nodo foglia vengono raggiunti utilizzando 'AND' o 'OR' o 'BOTH.' È importante notare che l'albero decisionale non viene influenzato dalla preparazione automatica dei dati.

L'algoritmo Time-Series viene utilizzato per i tipi di dati i cui valori continuano a cambiare in base al tempo (ad esempio, l'età di una persona). Quando hai addestrato l'algoritmo e lo hai messo a punto per prevedere il set di dati, può tenere traccia con successo dei dati continui e fare previsioni accurate. L'algoritmo Time-Series crea un modello specifico in grado di prevedere le tendenze future dei dati in base al set di dati originale.

  1. Che cos'è il clustering?

In Data Mining, il clustering è il processo utilizzato per raggruppare oggetti astratti in classi contenenti oggetti simili. Qui, un cluster di oggetti dati viene trattato come un gruppo. Pertanto, durante il processo di analisi, la partizione dei dati avviene in gruppi che vengono quindi etichettati in base a dati identici. L'analisi dei cluster è fondamentale per il data mining perché è altamente scalabile e dimensionale e può anche gestire attributi, interpretabilità e dati disordinati diversi.

Il clustering dei dati viene utilizzato in diverse applicazioni, tra cui elaborazione di immagini, riconoscimento di modelli, rilevamento di frodi e ricerche di mercato.

  1. Quali sono i problemi comuni affrontati durante il Data Mining?

Durante il processo di data mining, puoi riscontrare i seguenti problemi:

  • Gestione dell'incertezza
  • Affrontare i valori mancanti
  • Gestire dati rumorosi
  • Efficienza degli algoritmi
  • Integrazione della conoscenza del dominio
  • Dimensioni e complessità dei dati
  • Selezione dei dati
  • Incoerenza tra i dati e la conoscenza scoperta.
  1. Specificare la sintassi per: Specifica delle misure di interesse, Specifica di presentazione e visualizzazione del modello e Specifica dei dati rilevanti per l'attività.

La sintassi per la specifica delle misure di interesse è:

con <nome_misura_interesse> soglia = valore_soglia

La sintassi per la specifica di presentazione e visualizzazione del modello è:

visualizzare come <modulo_risultato>

La sintassi per la specifica dei dati rilevanti per l'attività è:

usa database nome_database

o

usa data warehouse nome_magazzino

in pertinenza con att_or_dim_list

da relazione(i)/cubo(i) [dove condizione] order by order_list

raggruppa per grouping_list

  1. Denominare il diverso livello di analisi in Data Mining?

I vari livelli di analisi in Data Mining sono:

  • Induzione di regole
  • Visualizzazione dati
  • Algoritmi genetici
  • Rete neurale artificiale
  • Metodo del vicino più vicino
  1. Cos'è STING?

STING sta per Statistical Information Grid. È un metodo di clustering multirisoluzione basato su griglia in cui tutti gli oggetti sono contenuti in celle rettangolari. Mentre le celle sono mantenute in vari livelli di risoluzioni, questi livelli sono ulteriormente disposti in una struttura gerarchica.

  1. Che cos'è ETL? Nomina alcuni dei migliori strumenti ETL.

ETL sta per Estrai, Trasforma e Carica. È un software in grado di leggere i dati dall'origine dati specificata ed estrarre un sottoinsieme di dati desiderato. Successivamente, trasforma i dati utilizzando regole e tabelle di ricerca e li converte nel modulo desiderato. Infine, utilizza la funzione di caricamento per caricare i dati risultanti nel database di destinazione.

I migliori strumenti ETL sono:

  • Oracolo
  • Dall'inizio
  • Fase dati
  • Informatica
  • Giunzione dati
  • Costruttore di magazzini
  1. Cosa sono i metadati?

In parole semplici, i metadati sono i dati riepilogati che portano al set di dati più ampio. I metadati contengono informazioni importanti come il numero di colonne utilizzate, l'ordine dei campi, i tipi di dati dei campi, la larghezza fissa e la larghezza limitata e così via.

  1. Quali sono i vantaggi del Data Mining?

Il data mining presenta quattro vantaggi principali:

  • Aiuta a dare un senso ai dati grezzi ed esplorare, identificare e comprendere i modelli nascosti all'interno dei dati.
  • Aiuta ad automatizzare il processo di ricerca delle informazioni predittive in database di grandi dimensioni, aiutando così a identificare tempestivamente i modelli precedentemente nascosti.
  • Aiuta a selezionare e convalidare i dati e a capire da dove provengono.
  • Promuove un processo decisionale più rapido e migliore, aiutando così le aziende a intraprendere le azioni necessarie per aumentare i ricavi e ridurre i costi operativi.

Questi sono i motivi per cui il data mining è diventato parte integrante di numerosi settori, tra cui marketing, pubblicità, IT/ITES, business intelligence e persino intelligence governativa.

Ci auguriamo che queste domande dell'intervista sul Data Mining e le relative risposte ti aiutino a rompere il ghiaccio con il Data Mining. Sebbene queste siano solo alcune domande di livello base che devi conoscere, ti aiuteranno a entrare nel flusso e ad approfondire l'argomento.

Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al programma Executive PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1 -on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.

Quali sono gli svantaggi dell'utilizzo di un algoritmo dell'albero decisionale?

Anche una piccola modifica dei dati può causare un cambiamento significativo nella struttura dell'albero decisionale, con conseguente instabilità. Rispetto ad altri algoritmi, il calcolo di un albero decisionale potrebbe essere a volte piuttosto complesso. La formazione sull'albero decisionale è relativamente costosa a causa della complessità e del tempo richiesti. La tecnica Decision Tree fallisce quando si tratta di applicare la regressione e prevedere valori continui.

Qual è la differenza tra il clustering e la classificazione del data mining?

Il clustering è una tecnica di apprendimento non supervisionato, mentre la classificazione è un modo di apprendimento supervisionato. Il clustering è il processo di raggruppamento dei punti dati in cluster in base alle loro caratteristiche comuni. La classificazione comporta l'etichettatura dei dati di input con una delle etichette di classe della variabile di output. Il clustering divide il set di dati in sottogruppi, consentendo di raggruppare insieme esempi con funzionalità simili. Non si basa su dati etichettati o su un set di formazione per funzionare. La classificazione, d'altra parte, classifica i nuovi dati sulla base delle osservazioni del training set.

Ci sono degli svantaggi nel data mining?

Molti problemi di privacy sorgono quando si utilizza il data mining. Nonostante il fatto che il data mining abbia aperto la strada alla semplice raccolta di dati a modo suo. Quando si tratta di precisione, ha ancora alcuni limiti. I dati ottenuti potrebbero essere errati, producendo problemi con il processo decisionale. La procedura di raccolta dei dati per il data mining utilizza molta tecnologia. Ogni dato creato richiede la propria archiviazione e manutenzione. Di conseguenza, il costo di implementazione potrebbe salire alle stelle.