Co to jest klastrowanie i różne rodzaje metod klastrowania

Opublikowany: 2020-12-01

Pomyśl o rozmowie z dyrektorem ds. marketingu swojej organizacji. Organizacja chce lepiej zrozumieć klientów za pomocą danych, aby mogła pomóc w realizacji celów biznesowych i zapewnić klientom lepsze doświadczenia. Jest to jeden ze scenariuszy, w których na ratunek przychodzi klastrowanie.

Spis treści

Co to jest klastrowanie?

Klastrowanie to rodzaj nienadzorowanej metody uczenia maszynowego. W metodzie uczenia nienadzorowanego wnioski są wyciągane ze zbiorów danych, które nie zawierają oznaczonej zmiennej wyjściowej. Jest to technika eksploracyjnej analizy danych, która pozwala nam analizować wielowymiarowe zbiory danych.

Grupowanie to zadanie polegające na podzieleniu zbiorów danych na określoną liczbę klastrów w taki sposób, aby punkty danych należące do klastra miały podobne cechy. Klastry to nic innego jak grupowanie punktów danych w taki sposób, że odległość między punktami danych w klastrach jest minimalna.

Innymi słowy, klastry to regiony, w których gęstość podobnych punktów danych jest wysoka. Jest zwykle używany do analizy zbioru danych, aby znaleźć wnikliwe dane wśród ogromnych zbiorów danych i wyciągnąć z nich wnioski. Na ogół gromady mają kształt kulisty, ale nie jest to konieczne, ponieważ gromady mogą mieć dowolny kształt. Dowiedz się więcej o klastrowaniu i więcej pojęć związanych z nauką o danych w naszym kursie online na temat nauki o danych.

Zależy to od rodzaju zastosowanego algorytmu, który decyduje o tym, jak będą tworzone klastry. Wnioski, które należy wyciągnąć z zestawów danych, zależą również od użytkownika, ponieważ nie ma kryterium dobrego grupowania.

Jakie są rodzaje metod klastrowania?

Samo klastrowanie można podzielić na dwa typy, a mianowicie. Klastrowanie twarde i klastrowanie miękkie. W twardym klastrowaniu jeden punkt danych może należeć tylko do jednego klastra. Ale w miękkim grupowaniu dostarczanym wynikiem jest prawdopodobieństwo prawdopodobieństwa punktu danych należącego do każdego z wcześniej zdefiniowanych klastrów.

Klastrowanie oparte na gęstości

W tej metodzie klastry są tworzone na podstawie gęstości punktów danych, które są reprezentowane w przestrzeni danych. Regiony, które stają się gęste z powodu ogromnej liczby punktów danych znajdujących się w tym regionie, są uważane za klastry.

Punkty danych w regionie rzadkim (obszar, w którym punktów danych jest bardzo mniej) są uważane za szum lub wartości odstające. Klastry tworzone w tych metodach mogą mieć dowolny kształt. Poniżej znajdują się przykłady algorytmów klastrowania opartych na gęstości:

DBSCAN (przestrzenne klastrowanie aplikacji na podstawie gęstości z hałasem)

DBSCAN grupuje punkty danych razem na podstawie metryki odległości i kryterium minimalnej liczby punktów danych. Przyjmuje dwa parametry – eps i minimum punktów. Eps wskazuje, jak blisko powinny znajdować się punkty danych, aby były uważane za sąsiadów. Kryterium minimalnej liczby punktów należy wypełnić, aby uznać ten region za region gęsty.

OPTYKA (punkty porządkowania do identyfikacji struktury klastrów)

Jest podobny w procesie do DBSCAN, ale ma jedną z wad poprzedniego algorytmu, tj. niemożność tworzenia klastrów z danych o dowolnej gęstości. Uwzględnia jeszcze dwa parametry, którymi są odległość rdzenia i odległość osiągalności. Odległość rdzenia wskazuje, czy brany pod uwagę punkt danych jest rdzeniem, czy nie, poprzez ustawienie dla niego minimalnej wartości.

Odległość osiągalności to maksymalna odległość rdzenia i wartość metryki odległości, która jest używana do obliczania odległości między dwoma punktami danych. Jedną rzeczą, którą należy wziąć pod uwagę w przypadku odległości osiągalności, jest to, że jej wartość pozostaje niezdefiniowana, jeśli jeden z punktów danych jest punktem centralnym.

HDBSCAN (Hierarchiczne klastrowanie przestrzenne aplikacji z hałasem oparte na gęstości)

HDBSCAN to metoda klastrowania oparta na gęstości, która rozszerza metodologię DBSCAN, przekształcając ją w hierarchiczny algorytm klastrowania.

Klastrowanie hierarchiczne

Hierarchiczne Grupowanie grup (aglomeracyjne lub nazywane również podejściem oddolnym) lub dzieli (podejście dzielone lub nazywane również podejściem odgórnym) klastry na podstawie metryk odległości. W klastrowaniu aglomeracyjnym każdy punkt danych działa początkowo jako klaster, a następnie grupuje klastry jeden po drugim.

Podział jest przeciwieństwem Aglomeracji, zaczyna się od wszystkich punktów w jednym skupieniu i dzieli je, aby stworzyć więcej skupień. Algorytmy te tworzą macierz odległości wszystkich istniejących klastrów i wykonują powiązanie między klastrami w zależności od kryteriów powiązania. Grupowanie punktów danych jest reprezentowane za pomocą dendrogramu. Istnieją różne rodzaje powiązań: –

o Połączenie pojedyncze : – W połączeniu pojedynczym odległość między dwoma skupieniami jest najkrótszą odległością między punktami w tych dwóch skupieniach.

o Kompletne powiązanie : – W przypadku pełnego powiązania odległość między dwoma skupieniami jest najdalszą odległością między punktami w tych dwóch skupieniach.

o Średnie powiązanie : – W średnim powiązaniu odległość między dwoma skupieniami jest średnią odległością każdego punktu w klastrze z każdym punktem w innym klastrze.

Przeczytaj: Typowe przykłady eksploracji danych.

Klastrowanie rozmyte

W klastrowaniu rozmytym przypisanie punktów danych w żadnym ze skupień nie jest decydujące. Tutaj jeden punkt danych może należeć do więcej niż jednego klastra. Dostarcza wynik jako prawdopodobieństwo przynależności punktu danych do każdego z klastrów. Jednym z algorytmów wykorzystywanych w klastrowaniu rozmytym jest klastrowanie rozmyte c-średnie.

Algorytm ten jest podobny w procesie do grupowania K-średnich i różni się parametrami biorącymi udział w obliczeniach, takimi jak wartości fuzzifier i przynależności.

Klastrowanie partycjonowania

Ta metoda jest jednym z najpopularniejszych wyborów analityków do tworzenia klastrów. W przypadku partycjonowania klastrów klastry są partycjonowane w oparciu o charakterystykę punktów danych. Musimy określić liczbę klastrów, które mają zostać utworzone dla tej metody klastrowania. Te algorytmy grupowania podążają za iteracyjnym procesem ponownego przypisywania punktów danych między klastrami na podstawie odległości. Algorytmy należące do tej kategorii to: –

o Klastrowanie K-Means: – Klastrowanie K-Means jest jednym z najczęściej używanych algorytmów. Dzieli punkty danych na k klastrów w oparciu o metrykę odległości używaną do grupowania. Wartość „k” określa użytkownik. Odległość jest obliczana między punktami danych a centroidami klastrów.

Punkt danych, który jest najbliżej centroidu klastra, zostaje przypisany do tego klastra. Po iteracji ponownie oblicza centroidy tych klastrów, a proces jest kontynuowany aż do zakończenia określonej liczby iteracji lub gdy centroidy klastrów nie zmienią się po iteracji.

Jest to bardzo kosztowny obliczeniowo algorytm, ponieważ oblicza odległość każdego punktu danych z centroidami wszystkich klastrów w każdej iteracji. Utrudnia to implementację tego samego dla ogromnych zbiorów danych.

PAM (podział wokół medoidów)

Algorytm ten jest również nazywany algorytmem k-medoid. Jest również podobny w procesie do algorytmu grupowania K-średnich, z różnicą polegającą na przypisaniu środka skupienia. W PAM medoida klastra musi być punktem danych wejściowych, podczas gdy nie jest to prawdą w przypadku grupowania K-średnich, ponieważ średnia wszystkich punktów danych w klastrze może nie należeć do punktu danych wejściowych.

o CLARA (Clustering Large Applications) : – CLARA to rozszerzenie algorytmu PAM, w którym skrócono czas obliczeń, aby poprawić jego wydajność w przypadku dużych zestawów danych. Aby to osiągnąć, wybiera arbitralnie pewną część danych spośród całego zestawu danych jako reprezentatywną dla danych rzeczywistych. Stosuje algorytm PAM do wielu próbek danych i wybiera najlepsze klastry z szeregu iteracji.

Przeczytaj także: Algorytmy eksploracji danych, które powinieneś znać

Klastrowanie oparte na siatce

W klastrowaniu opartym na siatce zestaw danych jest reprezentowany w strukturze siatki, która składa się z siatek (zwanych również komórkami). Ogólne podejście w algorytmach tej metody różni się od pozostałych algorytmów.

Są bardziej zainteresowani przestrzenią wartości otaczającą punkty danych niż samymi punktami danych. Jedną z największych zalet tych algorytmów jest zmniejszenie złożoności obliczeniowej. To sprawia, że ​​jest odpowiedni do radzenia sobie z ogromnymi zestawami danych.

Po podzieleniu zestawów danych na komórki oblicza gęstość komórek, co pomaga w identyfikacji klastrów. Oto kilka algorytmów opartych na grupowaniu opartym na siatce: –

o STING (ang. Statistical Information Grid Approach) : – W STING zbiór danych jest dzielony rekurencyjnie w sposób hierarchiczny. Każda komórka jest dalej podzielona na inną liczbę komórek. Przechwytuje miary statystyczne komórek, co pomaga w odpowiadaniu na zapytania w krótkim czasie.

o WaveCluster : – W tym algorytmie przestrzeń danych jest reprezentowana w postaci falek. Przestrzeń danych składa się z n-wymiarowego sygnału, który pomaga w identyfikacji klastrów. Części sygnału o niższej częstotliwości i wysokiej amplitudzie wskazują, że punkty danych są skoncentrowane. Regiony te są identyfikowane przez algorytm jako klastry. Części sygnału, w których wysoka częstotliwość reprezentuje granice klastrów. Więcej informacji można znaleźć w tym dokumencie .

o CLIQUE (Clustering in Quest) : – CLIQUE to połączenie algorytmu klastrowania opartego na gęstości i siatce. Dzieli przestrzeń danych i identyfikuje podprzestrzenie zgodnie z zasadą Apriori. Identyfikuje klastry, obliczając gęstości komórek.

Uwagi końcowe

W tym artykule zobaczyliśmy przegląd tego, czym jest klastrowanie i różne metody klastrowania wraz z jego przykładami. Ten artykuł miał na celu pomóc Ci w rozpoczęciu pracy z klastrami.

Te metody klastrowania mają swoje zalety i wady, co ogranicza je, aby były odpowiednie tylko dla niektórych zestawów danych. To nie tylko algorytm, ale jest wiele innych czynników, takich jak specyfikacje sprzętowe maszyn, złożoność algorytmu itp., które pojawiają się podczas wykonywania analizy zbioru danych.

Jako analityk musisz podejmować decyzje, który algorytm wybrać i który dawałby lepsze wyniki w danych sytuacjach. Jeden algorytm pasujący do wszystkich strategii nie działa w żadnym z problemów z uczeniem maszynowym. Więc eksperymentuj dalej i ubrudź sobie ręce w świecie klastrów.

Jeśli jesteś zainteresowany nauką o danych, sprawdź nasz program IIIT-B i upGrad Executive PG w dziedzinie Data Science, który jest stworzony dla pracujących profesjonalistów i oferuje ponad 10 studiów przypadków i projektów, praktyczne warsztaty praktyczne, mentoring z ekspertami z branży, 1 -on-1 z mentorami branżowymi, ponad 400 godzin nauki i pomocy w pracy z najlepszymi firmami.

Jakie są rodzaje metod klastrowania stosowanych w analizie biznesowej?

Klastrowanie to nieukierunkowana technika wykorzystywana w eksploracji danych do identyfikowania kilku ukrytych wzorców w danych bez wysuwania żadnej konkretnej hipotezy. Powodem korzystania z klastrowania jest identyfikacja podobieństw między pewnymi obiektami i utworzenie grupy podobnych.
Istnieją dwa różne typy grupowania, które są metodami hierarchicznymi i niehierarchicznymi.

1. Klastrowanie niehierarchiczne

W tej metodzie zbiór danych zawierający N obiektów jest podzielony na M klastrów. W analizie biznesowej najczęściej stosowaną niehierarchiczną techniką grupowania jest K-średnie.
2. Klastrowanie hierarchiczne
W tej metodzie tworzony jest zestaw zagnieżdżonych klastrów. W tych zagnieżdżonych skupiskach każda para obiektów jest dalej zagnieżdżana, tworząc duże skupienie, aż na końcu pozostanie tylko jedno skupisko.

Kiedy używa się klastrowania?

Podstawową funkcją klastrowania jest przeprowadzanie segmentacji, niezależnie od tego, czy jest to sklep, produkt czy klient. Klientów i produkty można łączyć w grupy hierarchiczne na podstawie różnych atrybutów.
Innym zastosowaniem techniki grupowania jest wykrywanie anomalii, takich jak transakcje oszustwa. Tutaj klaster ze wszystkimi dobrymi transakcjami jest wykrywany i przechowywany jako próbka. Mówi się, że jest to normalny klaster . Ilekroć coś jest poza linią z tej gromady, trafia do sekcji podejrzanych. Stwierdzono, że ta metoda jest naprawdę przydatna w wykrywaniu obecności nieprawidłowych komórek w ciele.
Poza tym klastrowanie jest szeroko stosowane do dzielenia dużych zestawów danych w celu tworzenia mniejszych grup danych. Zwiększa to efektywność oceny danych.

Jakie są zalety klastrowania?

Mówi się, że klastrowanie jest skuteczniejsze niż losowe próbkowanie danych z kilku powodów. Dwie główne zalety klastrowania to:
1. Wymaga mniej zasobów
Klaster tworzy grupę o mniejszej liczbie zasobów z całej próbki. Z tego powodu zapotrzebowanie na zasoby jest mniejsze niż w przypadku losowego pobierania próbek. Wyrywkowe pobieranie próbek będzie wymagało kosztów podróży i kosztów administracyjnych, ale w tym przypadku tak nie jest.
2. Możliwa opcja
Tutaj każde skupienie determinuje cały zbiór populacji, ponieważ z całej populacji tworzone są grupy jednorodne. Dzięki temu łatwiej jest uwzględnić więcej przedmiotów w jednym badaniu.