Măsuri de distanță în Mahout: Top 3 tipuri de măsură [2022]

Publicat: 2021-01-07

Mahout este un proiect open-source al Apache Software Foundation pe care oamenii de știință de date îl folosesc pentru a crea algoritmi de învățare automată distribuiți sau scalabili. Mahout se concentrează în primul rând pe algebra liniară, iar algoritmii săi sunt scriși deasupra infrastructurii Hadoop. Unele dintre tehnicile populare de extragere a datelor implementate de acest cadru includ Recomandare, Clasificare și Clustering. Măsurile distanței în Mahout este un subiect esențial de învățat pentru problemele de clustering.

Deoarece Mahout oferă codificatorilor o structură gata de utilizat și permite gestionarea rapidă și eficientă a datelor în bloc, a devenit unul dintre proiectele de top ale Apache. Și diverse companii precum Twitter, Facebook, LinkedIn, Adobe, Yahoo etc. îl folosesc pentru sarcinile lor interne de extragere a datelor.

Aflați mai multe: 12 cele mai utile aplicații de data mining

Cuprins

Care sunt măsurile de distanță?

După cum sugerează și numele, este o măsură a distanței dintre punctele de date. Măsurile distanței în Mahout calculează cât de aproape sunt localizați doi vectori arbitrari și indică asemănarea dintre puncte. Să luăm acum în considerare câteva exemple.

Să presupunem că conduceți o companie de telefonie și doriți să configurați o rețea de turnuri într-o anumită regiune. Pentru a asigura o putere optimă a semnalului, trebuie să determinați locațiile pentru ridicarea turnurilor.
Administrația regională vrea să deschidă o serie de secții publice de urgență. Amplasarea acestor unități în regiune ar trebui să fie astfel încât să se afle în apropierea zonelor predispuse la accidente.
Pentru o aplicare eficientă a legii și o supraveghere strictă în zonele cu rate mari ale criminalității, puteți evalua vecinătatea în care ar trebui să fie staționate autoutilitarele de patrulare.

În toate aceste scenarii, puteți vedea că măsurile distanței se află la baza algoritmilor de grupare. În problemele de învățare nesupravegheată, acest calcul formează unul dintre cei mai importanți factori pentru luarea deciziilor. Alegerea dvs. cu privire la tehnica de măsurare a distanței ar influența rezultatele într-o mare măsură.

De asemenea, nu trebuie să utilizați tehnicile disponibile în Biblioteca Mahout. De asemenea, puteți aplica o metodă personalizată pentru a afla valorile distanței care se bazează pe contextul datelor sau al algoritmului dvs. Tot ce trebuie să faceți este să implementați logica matematică pentru punctele vectoriale și să atribuiți o valoare pentru a determina dacă acea implementare se încadrează într-un anumit centroid. Centrul unui cluster este denumit centroid.

Aflați despre: Cele mai bune companii care angajează oameni de știință ai datelor în India

Perfecţionarea elementelor de bază ale grupării

Înainte de a pătrunde în diferitele categorii, mai întâi să ne reîmprospătăm elementele de bază despre clustering. Clusterele sunt, practic, grupuri de asemănări sau deosebiri ale instanțelor de date. Iată câteva aplicații din viața reală.

Specialiștii în marketing pot folosi gruparea pentru a segmenta clienții și a executa o strategie de marketing țintită.
În calitate de producător de îmbrăcăminte, este posibil să doriți să grupați oameni în funcție de mărimi similare de tricouri, cum ar fi „Small”, „Medium” și „Large”. O abordare universală nu funcționează de fiecare dată. Iar tricourile personalizate pentru fiecare persoană pot fi scumpe.
În sistemele de management al bibliotecilor, gruparea este utilizată pentru organizarea cărților și documentelor în funcție de asemănările de conținut.
Într-o bază de date de observare a Pământului, gruparea poate ajuta la identificarea zonelor cu utilizare similară a terenurilor.
În biologie, gruparea poate fi utilizată pentru clasificarea genelor cu funcționalitate similară și pentru înțelegerea structurilor inerente diferitelor populații de plante și animale.

Mai mult, volume mari de date sunt generate și utilizate în fiecare zi în această era digitală. Prin urmare, clustering-ul este una dintre cele mai utilizate tehnici de data mining datorită confortului pe care îl oferă.

Calitatea grupării este determinată de două aspecte primare – algoritmul de grupare și funcția de distanță.

Algoritm de grupare (partiționar, ierarhic etc.)
Funcția de distanță (asemănarea sau diferența)

Acum că am revizuit conceptele de bază, să trecem la diferitele tipuri de măsuri de distanță disponibile în Apache Mahout.

Citiți: Analiza clusterului în data mining

Măsuri distanță în Mahout

Măsurarea distanței cosinus

Acest tip de măsurare a distanței este cel mai potrivit pentru a găsi asemănarea textului. Având în vedere o colecție de documente text, poate produce o ierarhie a subiectelor prin gruparea lor folosind cuvintele comune cu cea mai mare ponderare.

Măsurarea distanței cosinus folosește algoritmul TF-IDF pentru a converti atributele în vectori. Și greutățile vectorului sunt mai mari pentru cuvintele subiect decât cuvintele stop. Deci, documente similare au cuvinte tematice comune între ele. Ca rezultat, vectorul centroid (sau centrul clusterului) are o pondere medie mai mare pentru cuvintele subiect.

Una dintre cele mai populare aplicații este clasarea paginilor sau rezumatele căutărilor pe care le întâlniți pe paginile Google. Algoritmul formează mai întâi clustere și apoi găsește centroidul. Această procedură este utilă și pentru descoperirea de informații în aplicații AI precum Siri și Alexa.

Măsurarea distanței între clustere

Este distanța dintre obiectele aparținând a două grupuri separate. Măsurarea distanței dintre clustere este adecvată pentru evaluarea calității clusterului dvs. Dacă centroizii sunt prea aproape unul de celălalt, va împiedica procesul de creare a grupurilor cu caracteristici similare. Prin urmare, devine esențial să se facă distincții clare între membrii clusterului. Scopul general este de a partiziona sau segmenta punctele de date în grupuri specifice.

Citiți mai multe: Analiza clusterului în R

Măsurarea distanței intra-cluster

Această măsură vă oferă distanța dintre doi membri ai aceluiași grup. Deci, este opusul măsurării distanței dintre clustere. Distanțele intra-cluster sunt mai mici în comparație cu distanțele dintre-cluster. Măsurile mici ale distanței dintre obiecte similare indică faptul că grupurile sunt strânse și discriminate în mod fiabil unele de altele.

Acest tip de metrică a distanței depinde de două lucruri: i) penalizare pentru obiectele mai îndepărtate ii) valoare mai mică pentru obiectele mai apropiate. Și clusterele care sunt mai separate au un raport mare dintre aceste două valori.

Acum, să ne uităm la următoarea demonstrație a măsurilor de distanță de similaritate în analiza clusterului.

Un serviciu de curierat poate crea diferite „zone de livrare” prin gruparea acelor locații care au distanță minimă între ele. În acest fel, algoritmul facilitează livrarea rapidă și eficientă de către personal. Sarcina noastră este să optimizăm distanța dintre punctele centroide ale clusterelor, să minimizăm varianța intra-cluster și să ne asigurăm că seturile de date cu caracteristicile cele mai asemănătoare sunt grupate împreună.

Învață cursuri de știință a datelor de la cele mai bune universități din lume. Câștigă programe Executive PG, programe avansate de certificat sau programe de master pentru a-ți accelera cariera.

Încheierea

Cu aceasta, am explicat conceptul de măsurare a distanței în Mahout . Și acum că ați înțeles esența acestui instrument important de date mari, îl puteți elucida cu ușurință în orice interviu de angajare. De asemenea, o înțelegere clară a diferitelor măsuri de distanță v-ar ajuta să obțineți acuratețe în timp ce implementați algoritmi de grupare.

Dacă sunteți curios să aflați despre știința datelor, consultați Diploma PG în știința datelor de la IIIT-B și upGrad, care este creată pentru profesioniști care lucrează și oferă peste 10 studii de caz și proiecte, ateliere practice practice, mentorat cu experți din industrie, 1- on-1 cu mentori din industrie, peste 400 de ore de învățare și asistență profesională cu firme de top.

Ce este analiza cluster și care sunt caracteristicile acesteia?

Un proces în care definim un obiect fără a-l eticheta este cunoscut sub numele de analiză cluster. Utilizează data mining pentru a grupa diferite obiecte similare într-un singur cluster, la fel ca în analiza discriminantă. Aplicațiile sale includ recunoașterea modelelor, analiza informațiilor, analiza imaginilor, învățarea automată, grafica pe computer și diverse alte domenii.
Analiza clusterului este o sarcină care se desfășoară folosind câțiva alți algoritmi care sunt diferiți unul de celălalt în multe feluri și creând astfel un cluster.
Următoarele sunt câteva dintre caracteristicile analizei cluster - Analiza clusterului este foarte scalabilă. Se poate ocupa de un set diferit de atribute. Prezintă dimensionalitate ridicată, interpretabilitate.

Merită să contribui la proiecte open-source?

Proiectele open-source sunt acele proiecte al căror cod sursă este deschis tuturor și oricine îl poate accesa pentru a-i face modificări. Contribuția la proiecte cu sursă deschisă este foarte benefică, deoarece nu numai că vă perfecționează abilitățile, ci vă oferă și câteva proiecte mari de pus în CV.
Deoarece multe companii mari trec la software open-source, va fi profitabil pentru tine dacă începi să contribui devreme. Unele dintre nume mari precum Microsoft, Google, IBM și Cisco au îmbrățișat open source într-un fel sau altul.
Există o comunitate mare de dezvoltatori open-source competenți care contribuie în mod constant la îmbunătățirea și actualizarea software-ului. Comunitatea este foarte prietenoasă pentru începători și întotdeauna gata să intensifice și să primească noi contribuitori. Există, de asemenea, o cantitate bună de documentație care vă poate ghida spre contribuția la sursa deschisă.

Faceți diferența între metodele univariate și multivariate.

Metoda univariată este cea mai simplă metodă de a gestiona un outlier. Nu prezintă nicio relație, deoarece este o singură variantă și scopul său principal este de a analiza datele și de a determina modelul asociat cu acestea. Media, mediana și modul sunt exemple de modele găsite în datele univariate.
Pe de altă parte, metoda multivariată este pentru analiza a trei sau mai multe variabile. Este mai precisă decât metoda anterioară deoarece, spre deosebire de metoda univariată, metoda multivariată se ocupă de relații și tipare. Arborele aditiv, Analiza corelației canonice și Analiza clusterelor sunt câteva dintre modalitățile de a efectua o analiză multivariată.