Miary odległości w Mahout: 3 najlepsze typy miar [2022]

Opublikowany: 2021-01-07

Mahout to projekt typu open source realizowany przez Apache Software Foundation, którego naukowcy zajmujący się danymi wykorzystują do tworzenia rozproszonych lub skalowalnych algorytmów uczenia maszynowego. Mahout skupia się przede wszystkim na algebrze liniowej, a jego algorytmy są napisane na infrastrukturze Hadoop. Niektóre z popularnych technik eksploracji danych wdrożonych przez ten framework obejmują rekomendację, klasyfikację i klastrowanie. Miary odległości w Mahout to zasadniczy temat, którego należy się nauczyć w przypadku problemów z grupowaniem.

Ponieważ Mahout dostarcza koderom gotową do użycia strukturę i pozwala na szybkie i efektywne zarządzanie danymi masowymi, stał się jednym z topowych projektów Apache. Różne firmy, takie jak Twitter, Facebook, LinkedIn, Adobe, Yahoo itp., używają go do swoich wewnętrznych zadań eksploracji danych.

Dowiedz się więcej: 12 najbardziej przydatnych aplikacji do eksploracji danych

Spis treści

Czym są miary odległości?

Jak sama nazwa wskazuje, jest to miara odległości między punktami danych. Miary odległości w Mahout obliczają, jak blisko znajdują się dwa dowolne wektory i wskazują podobieństwo między punktami. Rozważmy teraz kilka przykładów.

Załóżmy, że prowadzisz firmę telekomunikacyjną i chcesz skonfigurować sieć wież w określonym regionie. Aby zapewnić optymalną siłę sygnału, musisz określić miejsca wznoszenia wież.
Administracja regionalna chce otworzyć szereg publicznych oddziałów ratunkowych. Rozmieszczenie tych jednostek w całym regionie powinno być takie, aby znajdowały się w pobliżu obszarów zagrożonych wypadkami.
Aby zapewnić skuteczne egzekwowanie prawa i rygorystyczną obserwację na obszarach o wysokim wskaźniku przestępczości, możesz ocenić okolice, w których powinny znajdować się furgonetki patrolowe.

We wszystkich tych scenariuszach widać, że miary odległości leżą u podstaw algorytmów klastrowania. W problemach z uczeniem się nienadzorowanym obliczenia te stanowią jeden z najważniejszych czynników decydujących o podejmowaniu decyzji. Twój wybór techniki pomiaru odległości miałby duży wpływ na wyniki.

Nie musisz też używać technik dostępnych w Bibliotece Mahouta. Możesz również zastosować niestandardową metodę, aby znaleźć metryki odległości oparte na kontekście konkretnych danych lub algorytmu. Wszystko, co musisz zrobić, to zaimplementować logikę matematyczną dla punktów wektora i przypisać wartość, aby określić, czy ta implementacja mieści się w określonym centroidzie. Środek klastra nazywany jest centroidem.

Dowiedz się więcej o: Najlepsze firmy zatrudniające analityków danych w Indiach

Odświeżanie podstaw klastrowania

Zanim zagłębimy się w różne kategorie, najpierw odświeżmy nasze podstawy dotyczące klastrowania. Klastry są w zasadzie grupami podobieństw lub odmienności instancji danych. Oto kilka rzeczywistych aplikacji.

Marketerzy mogą używać klastrów do segmentacji klientów i realizacji ukierunkowanej strategii marketingowej.
Jako producent odzieży możesz chcieć pogrupować osoby według podobnych rozmiarów koszulek, na przykład „Mały”, „Średni” i „Duży”. Podejście uniwersalne nie zawsze działa. A spersonalizowane koszulki dla każdej osoby mogą być drogie.
W systemach zarządzania bibliotekami klaster służy do organizowania książek i dokumentów zgodnie z ich podobieństwami treści.
W bazie danych obserwacji Ziemi grupowanie może pomóc w identyfikacji obszarów o podobnym użytkowaniu gruntów.
W biologii grupowanie można wykorzystać do kategoryzacji genów o podobnej funkcjonalności i zrozumieniu struktur właściwych dla różnych populacji roślin i zwierząt.

Co więcej, w erze cyfrowej codziennie generowane są i wykorzystywane ogromne ilości danych. Dlatego klastrowanie jest jedną z najczęściej stosowanych technik eksploracji danych ze względu na wygodę, jaką oferuje.

O jakości grupowania decydują dwa podstawowe aspekty – algorytm grupowania i funkcja odległości.

Algorytm grupowania (partycjonowany, hierarchiczny itp.)
Funkcja odległości (podobieństwo lub odmienność)

Teraz, gdy zrewidowaliśmy podstawowe koncepcje, przejdźmy do różnych rodzajów miar odległości dostępnych w Apache Mahout.

Przeczytaj: Analiza skupień w eksploracji danych

Pomiary odległości w Mahout

Cosinus pomiaru odległości

Ten rodzaj miary odległości najlepiej nadaje się do znajdowania podobieństwa tekstu. Mając zbiór dokumentów tekstowych, może utworzyć hierarchię tematów, grupując je przy użyciu najczęściej używanych słów o najwyższej wadze.

Cosinusowa miara odległości wykorzystuje algorytm TF-IDF do konwersji atrybutów na wektory. A wagi wektorów są wyższe dla słów tematu niż słów stop. Tak więc podobne dokumenty mają między sobą wspólne słowa tematyczne. W rezultacie wektor centroid (lub centrum skupień) ma wyższą średnią wagę słów tematu.

Jedną z najpopularniejszych aplikacji są rankingi stron lub podsumowania wyszukiwania, które napotykasz na stronach Google. Algorytm najpierw tworzy klastry, a następnie znajduje środek ciężkości. Ta procedura jest również przydatna do wyszukiwania informacji w aplikacjach AI, takich jak Siri i Alexa.

Miara odległości między klastrami

Jest to odległość między obiektami należącymi do dwóch odrębnych klastrów. Miara odległości między skupieniami jest odpowiednia do oceny jakości twojego skupienia. Jeśli centroidy są zbyt blisko siebie, utrudni to proces tworzenia grup o podobnych cechach. Dlatego kluczowe staje się wyraźne rozróżnienie między członkami klastra. Ogólnym celem jest podzielenie lub segmentacja punktów danych na określone klastry.

Czytaj więcej: Analiza skupień w R

Miara odległości wewnątrz klastra

Ta miara podaje odległość między dwoma członkami tego samego skupienia. Jest to więc przeciwieństwo miary odległości między skupiskami. Odległości między skupieniami są mniejsze w porównaniu z odległościami między skupieniami. Małe miary odległości między podobnymi obiektami wskazują, że skupiska są ciasne i niezawodnie rozróżniane od siebie.

Ten rodzaj metryki odległości zależy od dwóch rzeczy: i) kary dla dalszych obiektów ii) mniejszej wartości dla bliższych obiektów. A klastry bardziej odseparowane mają wysoki stosunek tych dwóch wartości.

Przyjrzyjmy się teraz poniższej demonstracji miar odległości podobieństwa w analizie skupień.

Firma kurierska może tworzyć różne „strefy dostawy”, grupując te lokalizacje, które mają między sobą minimalną odległość. W ten sposób algorytm ułatwia szybką i skuteczną dostawę przez personel. Naszym zadaniem jest optymalizacja odległości między punktami centroidów klastrów, minimalizacja wariancji wewnątrz klastrów oraz zapewnienie, że zestawy danych o najbardziej podobnych cechach są zgrupowane razem.

Ucz się kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.

Zawijanie

W ten sposób wyjaśniliśmy koncepcję miar odległości w Mahout . A teraz, gdy znasz już istotę tego ważnego narzędzia do analizy dużych zbiorów danych, możesz go łatwo wyjaśnić podczas każdej rozmowy o pracę. Ponadto dokładne zrozumienie różnych miar odległości pomogłoby w osiągnięciu dokładności podczas wdrażania algorytmów klastrowania.

Jeśli jesteś zainteresowany nauką o danych, sprawdź IIIT-B i upGrad's PG Diploma in Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1- on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Czym jest analiza skupień i jakie są jej cechy?

Proces, w którym definiujemy obiekt bez etykietowania, jest znany jako analiza skupień. Wykorzystuje eksplorację danych do grupowania różnych podobnych obiektów w jeden klaster, tak jak w analizie dyskryminacyjnej. Jego zastosowania obejmują rozpoznawanie wzorców, analizę informacji, analizę obrazu, uczenie maszynowe, grafikę komputerową i wiele innych dziedzin.
Analiza klastrów to zadanie, które wykonuje się za pomocą kilku innych algorytmów, które pod wieloma względami różnią się od siebie i dzięki temu tworzą klaster.
Poniżej przedstawiono niektóre cechy analizy skupień — Analiza skupień jest wysoce skalowalna. Może radzić sobie z innym zestawem atrybutów. Wykazuje wysoką wymiarowość, Interpretowalność.

Czy warto przyczyniać się do projektów open source?

Projekty typu open source to te projekty, których kod źródłowy jest otwarty dla wszystkich i każdy może uzyskać do niego dostęp, aby dokonać w nim modyfikacji. Wkład w projekty typu open source jest bardzo korzystny, ponieważ nie tylko poprawia twoje umiejętności, ale także daje ci kilka dużych projektów do umieszczenia w swoim CV.
Ponieważ wiele dużych firm przechodzi na oprogramowanie typu open source, będzie to opłacalne, jeśli zaczniesz wnosić wkład wcześnie. Niektóre wielkie nazwiska, takie jak Microsoft, Google, IBM i Cisco, w taki czy inny sposób przyjęły open source.
Istnieje duża społeczność biegłych programistów open-source, którzy stale przyczyniają się do ulepszania i aktualizowania oprogramowania. Społeczność jest bardzo przyjazna dla początkujących i zawsze gotowa do podjęcia działań i powitania nowych współpracowników. Istnieje również duża ilość dokumentacji, która może poprowadzić Cię do współtworzenia open source.

Rozróżnij metody jednowymiarowe i wielowymiarowe.

Metoda jednowymiarowa to najprostsza metoda obsługi wartości odstających. Nie zawiera przeglądu żadnej relacji, ponieważ jest pojedynczą zmienną, a jej głównym celem jest analiza danych i określenie powiązanego z nią wzorca. Średnia, mediana i moda to przykłady wzorców znalezionych w danych jednowymiarowych.
Z drugiej strony metoda wielowymiarowa służy do analizy trzech lub więcej zmiennych. Jest bardziej precyzyjna niż metoda wcześniejsza, ponieważ w przeciwieństwie do metody jednowymiarowej, metoda wielowymiarowa zajmuje się relacjami i wzorcami. Drzewo addytywne, analiza korelacji kanonicznych i analiza skupień to tylko niektóre ze sposobów wykonywania analizy wielowymiarowej.