7 Funzionalità di data mining che tutti i data scientist dovrebbero conoscere
Pubblicato: 2020-11-17Sommario
introduzione
Il data mining ha una vasta applicazione nei big data per prevedere e caratterizzare i dati. La funzione è trovare le tendenze nella scienza dei dati. In generale, il data mining è classificato come:
- Data mining descrittivo: fornisce determinate conoscenze sui dati, ad esempio conteggio, media. Fornisce informazioni su ciò che sta accadendo all'interno dei dati senza alcuna idea precedente. Mostra le caratteristiche comuni nei dati. In parole semplici, conosci le proprietà generali dei dati presenti nel database.
- Data mining predittivo: aiuta gli sviluppatori a comprendere le caratteristiche che non sono esplicitamente disponibili. Ad esempio, la previsione dell'analisi aziendale nel prossimo trimestre con l'andamento dei trimestri precedenti. In generale, l'analisi predittiva prevede o deduce le caratteristiche con i dati precedentemente disponibili.
La funzionalità del data mining è elencata di seguito
- Descrizione di classe/concetto: caratterizzazione e discriminazione
- Classificazione
- Predizione
- Analisi dell'Associazione
- Analisi di gruppo
- Analisi anomala
- Analisi dell'evoluzione e della deviazione
1. Descrizione della classe/concetto: caratterizzazione e discriminazione
I dati sono associati a classi o concetti in modo che possano essere correlati ai risultati. Ad esempio, il nuovo modello di iPhone viene rilasciato in tre varianti per soddisfare i clienti mirati in base alle loro esigenze come Pro, Pro max e Plus.
Caratterizzazione dei dati
Quando si riassumono le caratteristiche generali dei dati, si parla di caratterizzazione dei dati. Produce le regole caratteristiche per la classe target, come i nostri acquirenti di iPhone. Possiamo raccogliere i dati utilizzando semplici query SQL ed eseguire funzioni OLAP per generalizzare i dati.
La tecnica di induzione orientata agli attributi viene utilizzata anche per generalizzare o caratterizzare i dati con una minima interazione da parte dell'utente. I dati generalizzati vengono presentati in varie forme come tabelle, grafici a torta, grafici a linee, grafici a barre e grafici. La relazione multidimensionale tra i dati è presentata in una regola chiamata regola delle caratteristiche della classe target.
Discriminazione dei dati
Confronta i dati tra le due classi. In genere, mappa la classe target con un gruppo o una classe predefiniti. Confronta e contrappone le caratteristiche della classe con la classe predefinita utilizzando un insieme di regole chiamate regole discriminanti. I metodi utilizzati nella discriminazione dei dati sono simili alla caratterizzazione dei dati.
2. Classificazione
Utilizza modelli di dati per prevedere le tendenze dei dati. Ad esempio, il grafico della spesa mostra il nostro internet banking o l'applicazione mobile in base ai nostri modelli di spesa. Questo a volte viene utilizzato per definire il nostro rischio di ottenere un nuovo prestito.
Utilizza metodi come IF-THEN, albero decisionale, formule matematiche o rete neurale per prevedere o analizzare un modello. Utilizza i dati di addestramento per produrre nuove istanze da confrontare con quella esistente.
Leggi: Carriera nella scienza dei dati
3. Previsione
La previsione trova i valori numerici mancanti nei dati. Utilizza l'analisi di regressione per trovare i dati non disponibili. Se manca l'etichetta della classe, la previsione viene eseguita utilizzando la classificazione. La previsione è popolare per la sua importanza nella business intelligence. Esistono due modi per prevedere i dati:
- Prevedere i dati non disponibili o mancanti utilizzando l'analisi di previsione
- Previsione dell'etichetta di classe utilizzando il modello di classe creato in precedenza.
È una tecnica di previsione che ci permette di trovare valore nel profondo del futuro. Abbiamo bisogno di un enorme set di dati di valori passati per prevedere le tendenze future.
4. Analisi dell'Associazione
Mette in relazione due o più attributi dei dati. Scopre la relazione tra i dati e le regole che li vincolano. Trova ampiamente la sua applicazione nelle vendite al dettaglio. Il suggerimento che Amazon mostra in basso, "I clienti che hanno acquistato questo hanno acquistato anche.." è un esempio in tempo reale di analisi di associazione.

Associa gli attributi che vengono spesso scambiati insieme. Scoprono quelle che vengono chiamate regole di associazione e sono ampiamente utilizzate nell'analisi del paniere di mercato. Ci sono due elementi per associare gli attributi. Uno è la fiducia che indica la probabilità di entrambi associati, e un altro è il supporto, che indica l'occorrenza passata di associazioni.
Ad esempio, se i cellulari vengono acquistati con le cuffie: il supporto è del 2% e la fiducia è del 40%. Ciò significa che il 2% delle volte che i clienti hanno acquistato telefoni cellulari con le cuffie. Il 40% della confidenza è la probabilità che la stessa associazione si ripeta.
Leggi: Progetti di data mining in India
5. Analisi dei cluster
La classificazione senza supervisione è chiamata analisi dei cluster. È simile alla classificazione in cui sono raggruppati i dati. A differenza della classificazione, nell'analisi dei cluster, l'etichetta della classe è sconosciuta. I dati sono raggruppati in base ad algoritmi di clustering.
Gli oggetti che sono raggruppati in modo simile in un cluster. Ci sarà un'enorme differenza tra un cluster e l'altro. Il raggruppamento viene eseguito per massimizzare la somiglianza all'interno della classe e ridurre al minimo la somiglianza all'interno della classe. Il clustering viene applicato in molti campi come l'apprendimento automatico, l'elaborazione delle immagini, il riconoscimento di modelli e la bioinformatica.
6. Analisi dei valori anomali
Quando vengono visualizzati dati che non possono essere raggruppati in nessuna delle classi, utilizziamo l'analisi dei valori anomali. Ci saranno occorrenze di dati che avranno attributi diversi rispetto a qualsiasi altra classe o modello generale. Questi dati eccezionali sono chiamati valori anomali. Di solito sono considerati rumore o eccezioni e l'analisi di questi valori anomali è chiamata mining anomalo.
Questi valori anomali possono essere associazioni preziose in molte applicazioni, sebbene di solito vengano scartati come rumore. Si chiamano anche eccezioni o sorprese, ed è significativo identificarle. I valori anomali sono identificati utilizzando test statistici che trovano la probabilità. Altri nomi per valori anomali sono:
- Devianti
- Anomalie
- Discordante
- Anomalie
7. Analisi dell'evoluzione e della deviazione
Con l'analisi dell'evoluzione, otteniamo il raggruppamento dei dati relativo al tempo. Possiamo trovare tendenze e cambiamenti nel comportamento in un periodo. Possiamo trovare caratteristiche come dati di serie temporali, periodicità e somiglianza nelle tendenze con un'analisi così distinta.
Leggi anche: Stipendio per data scientist in India
Conclusione
Olisticamente il data mining e le funzionalità trovano molte applicazioni dalla scienza spaziale al marketing al dettaglio.
Se sei curioso di imparare la scienza dei dati per essere all'avanguardia nei rapidi progressi tecnologici, dai un'occhiata al programma Executive PG in Data Science di upGrad & IIIT-B.
Cosa significa funzionalità nel data mining?
Il data mining è il processo di raccolta di informazioni da enormi set di dati, rilevamento di modelli e scoperta di connessioni. Le funzionalità nel data mining vengono utilizzate per definire il tipo di modelli che i data scientist scopriranno nelle attività di data mining. Le operazioni di data mining sono divise in due tipi, descrittive e predittive. Le attività di mining descrittive descrivono le caratteristiche generali dei dati del database. Le attività di mining predittivo producono previsioni facendo inferenze sui dati correnti. Le funzionalità sono scelte in base ai processi di data mining.
Cosa significano i modelli di dati?
I modelli di dati sono una rappresentazione delle interrelazioni logiche e del flusso di dati tra i vari componenti dei dati nel dominio dell'informazione. Descrive anche il processo di archiviazione e accesso ai dati. I modelli di dati migliorano la comunicazione, il business e lo sviluppo tecnologico esprimendo in modo appropriato i requisiti del sistema informativo e creando risposte a tali requisiti. I modelli di dati aiutano a descrivere quali dati sono necessari e in quale formato i data scientist dovrebbero utilizzarli per varie attività commerciali.
Cosa succede nell'analisi dei valori anomali?
Outlier Analysis è un tipo di attività di data mining nota come "outlier mining". I data scientist possono utilizzarlo per rilevare le frodi in una varietà di situazioni, inclusi l'uso imprevisto di carte di credito o telecomunicazioni, analisi sanitarie per rilevare risposte strane a trattamenti medici e marketing per scoprire le abitudini di acquisto dei clienti. I professionisti della scienza dei dati possono trovare valori anomali in una varietà di metodi. Tutte queste strategie utilizzano vari modi per scoprire valori fuori dall'ordinario in contrasto con il resto del set di dati.