Misure di distanza in Mahout: i primi 3 tipi di misure [2022]
Pubblicato: 2021-01-07Mahout è un progetto open source della Apache Software Foundation che i data scientist utilizzano per creare algoritmi di apprendimento automatico distribuiti o scalabili. Mahout si concentra principalmente sull'algebra lineare e i suoi algoritmi sono scritti sopra l'infrastruttura Hadoop. Alcune delle tecniche di data mining più diffuse implementate da questo framework includono Raccomandazione, Classificazione e Clustering. Le misure di distanza in Mahout sono un argomento essenziale da imparare per i problemi di clustering.
Poiché Mahout fornisce ai programmatori una struttura pronta per l'uso e consente una gestione rapida ed efficace dei dati di massa, è diventato uno dei migliori progetti di Apache. E varie aziende come Twitter, Facebook, LinkedIn, Adobe, Yahoo, ecc. lo usano per le loro attività di data mining interne.
Saperne di più: 12 applicazioni di data mining più utili
Sommario
Cosa sono le misure di distanza?
Come suggerisce il nome, è una misura della distanza tra i punti dati. Le misure di distanza in Mahout calcolano quanto vicini si trovano due vettori arbitrari e indicano la somiglianza tra i punti. Consideriamo ora alcuni esempi.
- Supponiamo che tu gestisca una compagnia telefonica e desideri creare una rete di torri in una determinata regione. Per garantire una potenza del segnale ottimale, è necessario determinare le posizioni per erigere le torri.
- L'amministrazione regionale vuole aprire una serie di reparti pubblici di pronto soccorso. L'ubicazione di queste unità nella regione dovrebbe essere tale da trovarsi in prossimità delle aree soggette a incidenti.
- Per un'efficace applicazione della legge e una sorveglianza rigorosa nelle aree con alti tassi di criminalità, è possibile valutare le vicinanze in cui devono essere stazionati i furgoni di pattuglia.
In tutti questi scenari, puoi vedere che le misure di distanza sono al centro degli algoritmi di clustering. Nei problemi di apprendimento senza supervisione, questo calcolo costituisce uno dei fattori più cruciali per il processo decisionale. La vostra scelta sulla tecnica di misurazione della distanza influenzerebbe in larga misura i risultati.
Inoltre, non è necessario utilizzare le tecniche disponibili nella Libreria Mahout. Puoi anche applicare un metodo personalizzato per scoprire le metriche di distanza basate sul contesto dei tuoi dati o algoritmi specifici. Tutto quello che devi fare è implementare la logica matematica per i punti vettoriali e assegnare un valore per determinare se tale implementazione rientra in un particolare centroide. Il centro di un cluster viene chiamato baricentro.
Ulteriori informazioni su: Le migliori aziende che assumono data scientist in India
Ripassare le basi del clustering
Prima di approfondire le diverse categorie, aggiorniamo prima le nostre nozioni di base sul clustering. I cluster sono fondamentalmente gruppi di somiglianza o dissomiglianza di istanze di dati. Ecco alcune applicazioni reali.
- Gli esperti di marketing possono utilizzare il clustering per segmentare i clienti ed eseguire una strategia di marketing mirata.
- In qualità di produttore di abbigliamento, potresti voler raggruppare le persone in base alle taglie di magliette simili, come "Small", "Medium" e "Large". Un approccio unico non funziona ogni volta. E le magliette personalizzate per ogni persona possono essere costose.
- Nei sistemi di gestione delle biblioteche, il clustering viene utilizzato per organizzare libri e documenti in base alle somiglianze di contenuto.
- In un database di osservazione della Terra, il raggruppamento può aiutare a identificare le aree con un uso del suolo simile.
- In biologia, il clustering può essere utilizzato per classificare i geni con funzionalità simili e comprendere le strutture inerenti a diverse popolazioni vegetali e animali.
Inoltre, in questa era digitale, ogni giorno vengono generati e utilizzati enormi volumi di dati. Pertanto, il clustering è una delle tecniche di data mining più utilizzate per la comodità che offre.
La qualità del clustering è determinata da due aspetti principali: l'algoritmo di clustering e la funzione di distanza.
- Algoritmo di clustering (partizionale, gerarchico, ecc.)
- Funzione distanza (somiglianza o dissomiglianza)
Ora che abbiamo rivisto i concetti fondamentali, passiamo ai diversi tipi di misure di distanza disponibili in Apache Mahout.
Leggi: Analisi dei cluster nel data mining
Misure di distanza in Mahout
Misura della distanza del coseno
Questo tipo di misura della distanza è più adatto per trovare la somiglianza del testo. Data una raccolta di documenti di testo, può produrre una gerarchia di argomenti raggruppandoli utilizzando le parole comuni con la ponderazione più alta.
La misura della distanza del coseno utilizza l'algoritmo TF-IDF per convertire gli attributi in vettori. E i pesi dei vettori sono maggiori per le parole dell'argomento rispetto alle parole di arresto. Quindi, documenti simili hanno parole d'argomento comuni tra di loro. Di conseguenza, il vettore centroide (o il centro del cluster) ha un peso medio più elevato per le parole dell'argomento.

Una delle applicazioni più popolari è il ranking delle pagine o i riepiloghi di ricerca che incontri sulle pagine di Google. L'algoritmo prima forma i cluster e poi trova il baricentro. Questa procedura è utile anche per il rilevamento delle informazioni nelle applicazioni di intelligenza artificiale come Siri e Alexa.
Misura della distanza tra i cluster
È la distanza tra gli oggetti appartenenti a due cluster separati. La misura della distanza tra i cluster è appropriata per valutare la qualità del tuo cluster. Se i centroidi sono troppo vicini tra loro, ostacolerà il processo di creazione di gruppi con caratteristiche simili. Pertanto, diventa fondamentale tracciare chiare distinzioni tra i membri del cluster. L'obiettivo generale è partizionare o segmentare i punti dati in cluster specifici.
Leggi tutto: Cluster Analysis in R
Misura della distanza all'interno del cluster
Questa misura fornisce la distanza tra due membri dello stesso cluster. Quindi, è l'opposto della misura della distanza tra i cluster. Le distanze tra i cluster sono inferiori rispetto alle distanze tra i cluster. Piccole misure di distanza tra oggetti simili indicano che i cluster sono stretti e discriminati in modo affidabile l'uno dall'altro.
Questo tipo di metrica della distanza dipende da due cose: i) penalità per oggetti più lontani ii) valore minore per oggetti più vicini. E i cluster più separati hanno un rapporto elevato di questi due valori.
Ora, diamo un'occhiata alla seguente dimostrazione delle misure di distanza di similarità nell'analisi dei cluster.
Un servizio di corriere può creare diverse "zone di consegna" raggruppando le località che hanno una distanza minima tra loro. In questo modo, l'algoritmo facilita la consegna rapida ed efficace da parte del personale. Il nostro compito è ottimizzare la distanza tra i punti baricentro dei cluster, ridurre al minimo la varianza all'interno del cluster e garantire che i set di dati con le caratteristiche più simili siano raggruppati insieme.
Impara i corsi di scienza dei dati dalle migliori università del mondo. Guadagna programmi Executive PG, programmi di certificazione avanzati o programmi di master per accelerare la tua carriera.
Avvolgendo
Con questo, abbiamo spiegato il concetto di misure di distanza in Mahout . E ora che hai l'essenza di questo importante strumento per i big data, puoi facilmente spiegarlo in qualsiasi colloquio di lavoro. Inoltre, una chiara comprensione delle diverse misure di distanza ti aiuterebbe a raggiungere la precisione durante l'implementazione di algoritmi di clustering.
Se sei curioso di conoscere la scienza dei dati, dai un'occhiata al Diploma PG in Data Science di IIIT-B e upGrad, creato per i professionisti che lavorano e offre oltre 10 casi di studio e progetti, workshop pratici pratici, tutoraggio con esperti del settore, 1- on-1 con mentori del settore, oltre 400 ore di apprendimento e assistenza al lavoro con le migliori aziende.
Che cos'è la cluster analysis e quali sono le sue caratteristiche?
Un processo in cui definiamo un oggetto senza etichettarlo è noto come analisi dei cluster. Utilizza il data mining per raggruppare vari oggetti simili in un unico cluster, proprio come nell'analisi discriminante. Le sue applicazioni includono il riconoscimento di modelli, l'analisi delle informazioni, l'analisi delle immagini, l'apprendimento automatico, la computer grafica e vari altri campi.
L'analisi dei cluster è un'attività che viene condotta utilizzando diversi altri algoritmi che sono diversi tra loro in molti modi e creando così un cluster.
Di seguito sono elencate alcune delle caratteristiche dell'analisi dei cluster: l'analisi dei cluster è altamente scalabile. Può gestire un diverso insieme di attributi. Mostra alta dimensionalità, Interpretabilità.
Vale la pena contribuire a progetti open source?
I progetti open source sono quei progetti il cui codice sorgente è aperto a tutti e chiunque può accedervi per apportare modifiche. Contribuire a progetti open source è estremamente vantaggioso in quanto non solo affina le tue capacità, ma ti dà anche alcuni grandi progetti da inserire nel tuo curriculum.
Poiché molte grandi aziende stanno passando al software open source, sarà redditizio per te se inizi a contribuire in anticipo. Alcuni dei grandi nomi come Microsoft, Google, IBM e Cisco hanno abbracciato l'open source in un modo o nell'altro.
Esiste una vasta comunità di abili sviluppatori open source là fuori che contribuiscono costantemente a rendere il software migliore e aggiornato. La community è molto adatta ai principianti e sempre pronta a farsi avanti e ad accogliere nuovi contributori. C'è anche una buona quantità di documentazione che può guidarti per contribuire all'open source.
Distinguere tra metodi univariati e multivariati.
Il metodo univariato è il metodo più semplice per gestire un valore anomalo. Non fornisce una panoramica di alcuna relazione poiché è una singola variabile e il suo scopo principale è analizzare i dati e determinare il modello ad essi associato. Media, mediana e moda sono esempi di modelli trovati nei dati univariati.
D'altra parte, il metodo multivariato serve per analizzare tre o più variabili. È più preciso del metodo precedente poiché, a differenza del metodo univariato, il metodo multivariato si occupa di relazioni e modelli. L'albero additivo, l'analisi della correlazione canonica e l'analisi dei cluster sono alcuni dei modi per eseguire l'analisi multivariata.