Klastrowanie w uczeniu maszynowym: wyjaśnienie 3 rodzajów klastrowania

Opublikowany: 2020-11-30

Spis treści

Wstęp

Uczenie maszynowe jest jedną z najgorętszych technologii w 2020 roku, ponieważ ilość danych rośnie z dnia na dzień, a zapotrzebowanie na uczenie maszynowe również rośnie wykładniczo. Uczenie maszynowe to bardzo obszerny temat, który ma różne algorytmy i przypadki użycia w każdej domenie i branży. Jednym z nich jest nienadzorowane uczenie się, w którym możemy zobaczyć wykorzystanie klastrowania.

Uczenie nienadzorowane to technika, w której maszyna uczy się na podstawie danych nieoznaczonych. Ponieważ nie znamy etykiet, nie ma właściwej odpowiedzi, aby maszyna mogła się z nich uczyć, ale sama maszyna znajduje pewne wzorce z podanych danych, aby znaleźć odpowiedzi na problem biznesowy.

Klastrowanie to technika uczenia maszynowego bez nadzoru, która obejmuje grupowanie danych nieoznaczonych. W każdym oczyszczonym zestawie danych, korzystając z algorytmu klastrowania, możemy pogrupować dane punkty danych w każdą grupę. Algorytm grupowania zakłada, że ​​punkty danych znajdujące się w tym samym klastrze powinny mieć podobne właściwości, podczas gdy punkty danych w różnych klastrach powinny mieć bardzo odmienne właściwości.

W tym artykule poznamy potrzebę klastrowania, różne rodzaje klastrowania wraz z ich zaletami i wadami.

Przeczytaj: Warunek wstępny uczenia maszynowego

Jaka jest potrzeba klastrowania?

Klastrowanie to szeroko stosowany algorytm ML, który pozwala nam znaleźć ukryte relacje między punktami danych w naszym zbiorze danych.

Przykłady:

1) Klienci są segmentowani według podobieństwa do poprzednich klientów i mogą być wykorzystywani do rekomendacji.

2) Na podstawie zbioru danych tekstowych możemy uporządkować dane zgodnie z podobieństwami treści w celu stworzenia hierarchii tematów.

3) Przetwarzanie obrazu głównie w badaniach biologicznych w celu identyfikacji podstawowych wzorców.

4) Filtrowanie spamu.

5) Identyfikowanie oszukańczych i przestępczych działań.

6) Może być również używany do fantasy football i sportu.

Rodzaje klastrowania

Istnieje wiele rodzajów algorytmów klastrowania w uczeniu maszynowym. W tym artykule omówimy poniższe trzy algorytmy:

1) Klastrowanie K-średnich.

2) Klastrowanie ze średnią zmianą.

3) DBSCAN.

1. Klastrowanie K-średnich

K-Means to najpopularniejszy algorytm klastrowania wśród innych algorytmów klastrowania w uczeniu maszynowym. Widzimy ten algorytm używany w wielu topowych branżach, a nawet w wielu kursach wprowadzających. Jest to jeden z najłatwiejszych modeli, od którego można zacząć zarówno we wdrażaniu, jak i zrozumieniu.

Krok 1 Najpierw wybieramy losową liczbę k do użycia i losowo inicjujemy ich odpowiednie punkty środkowe.

Krok 2 Każdy punkt danych jest następnie klasyfikowany przez obliczenie odległości (euklidesowej lub Manhattan) między tym punktem a każdym centrum grupy, a następnie grupowanie punktu danych tak, aby znajdował się w klastrze, którego środek jest najbliżej niego.

Krok 3 Przeliczamy centrum grupy, biorąc średnią wszystkich wektorów w grupie.

Krok 4 Powtarzamy wszystkie te kroki przez kilka iteracji lub dopóki centra grup nie zmienią się zbytnio.

Plusy

1) Bardzo szybko.

2) Bardzo mało obliczeń

3) Złożoność liniowa O(n).

Cons

1) Wybór wartości k.

2) Różne centra klastrowania w różnych przebiegach.

3) Brak spójności.

2. Klastrowanie średniej zmiany

Grupowanie średniej zmiany to algorytm oparty na przesuwanych oknach, który próbuje zidentyfikować gęste obszary punktów danych. Jest to algorytm oparty na centroidach, co oznacza, że ​​celem jest zlokalizowanie punktów środkowych każdej klasy, co z kolei działa poprzez aktualizację kandydatów na punkty środkowe, aby były średnią punktów w przesuwanym oknie.

Te wybrane okna kandydatów są następnie filtrowane na etapie przetwarzania końcowego w celu wyeliminowania duplikatów, co pomoże w stworzeniu ostatecznego zestawu ośrodków i odpowiadających im klas.

Krok 1 Zaczynamy od okrągłego okna przesuwnego wyśrodkowanego w punkcie C (wybranym losowo) i mającego promień r jako jądro. Mean shift to algorytm pokonywania wzniesień, który obejmuje iteracyjne przesuwanie tego jądra do regionu o wyższej gęstości na każdym kroku, aż do osiągnięcia zbieżności.

Krok 2 Po każdej iteracji przesuwane okienko jest przesuwane w kierunku obszarów o większej gęstości poprzez przesunięcie punktu środkowego do średniej punktów w okienku. Gęstość w oknie przesuwnym wzrasta wraz ze wzrostem liczby znajdujących się w nim punktów. Przesunięcie średniej punktów w oknie będzie stopniowo przesuwało się w kierunku obszarów o większej gęstości punktów.

Krok 3 W tym kroku kontynuujemy przesuwanie okna przesuwnego w oparciu o wartość średnią, aż nie będzie kierunku, w którym przesunięcie może uzyskać więcej punktów wewnątrz wybranego jądra.

Krok 4 Kroki 1-2 są wykonywane z wieloma przesuwanymi oknami, aż wszystkie punkty znajdą się w oknie. Gdy wiele okien przesuwnych ma tendencję do nakładania się na siebie, wybrane jest okno zawierające najwięcej punktów. Punkty danych są teraz grupowane zgodnie z przesuwanym oknem, w którym się znajdują.

Plusy

1) Brak konieczności wybierania liczby klastrów.

2) Dobrze pasuje w sensie naturalnie opartym na danych

Cons

1) Jedyną wadą jest to, że wybór rozmiaru okna(r) może być nietrywialny.

3. Przestrzenne klastrowanie aplikacji z szumem na podstawie gęstości (DBSCAN)

DBSCAN przypomina klastrowanie Mean-Shift, które jest również algorytmem opartym na gęstości z kilkoma zmianami.

Krok-1 Rozpoczyna się od dowolnego punktu początkowego, sąsiedztwo tego punktu jest wyodrębniane za pomocą odległości zwanej epsilon.

Krok 2 Grupowanie rozpocznie się, jeśli będzie wystarczająca liczba punktów, a punkt danych stanie się pierwszym nowym punktem w klastrze. Jeśli nie ma wystarczających danych, punkt zostanie oznaczony jako szum, a punkt zostanie oznaczony jako odwiedzony.

Krok 3 Punkty w obrębie epsilon stają się częścią klastra. Ta procedura jest powtarzana we wszystkich punktach wewnątrz klastra.

Krok 4 Kroki 2 i 3 są powtarzane, aż punkty w klastrze zostaną odwiedzone i oznaczone.

Krok 5 Po zakończeniu bieżącego klastra, nowy nieodwiedzony punkt jest przetwarzany w nowy klaster, co prowadzi do sklasyfikowania go w klaster lub jako szum.

Plusy

1) Nie ma potrzeby ustawiania liczby klastrów.

2) Definiuje wartości odstające jako szum.

3) Pomaga dość dobrze znaleźć gromady o dowolnej wielkości i dowolnym kształcie.

Cons

1) Nie działa dobrze w klastrach o różnej gęstości.

2) Nie działa dobrze w przypadku danych wielowymiarowych.

Przeczytaj także: Pomysły na projekty uczenia maszynowego

Wniosek

W tym artykule poznaliśmy potrzebę klastrowania na obecnym rynku, różne rodzaje algorytmów klastrowania wraz z ich zaletami i wadami. Klastrowanie jest naprawdę bardzo interesującym tematem w uczeniu maszynowym i istnieje wiele innych rodzajów algorytmów klastrowania, których warto się nauczyć.

Jeśli chcesz dowiedzieć się więcej o uczeniu maszynowym, sprawdź dyplom PG IIIT-B i upGrad w uczeniu maszynowym i sztucznej inteligencji, który jest przeznaczony dla pracujących profesjonalistów i oferuje ponad 450 godzin rygorystycznego szkolenia, ponad 30 studiów przypadków i zadań, IIIT- Status absolwenta B, ponad 5 praktycznych, praktycznych projektów zwieńczenia i pomoc w pracy z najlepszymi firmami.

Co oznacza grupowanie mieszanin gaussowskich?

Modele mieszanki Gaussa są zwykle używane w przypadku danych zapytań do wykonywania twardych lub miękkich klastrów. Modele mieszanin gaussowskich przyjmują kilka założeń, aby dobrze przeprowadzić grupowanie. W oparciu o założenia model grupuje razem punkty danych należące do jednej dystrybucji. Są to modele probabilistyczne i wykorzystują podejście miękkiego klastrowania w celu efektywnego przeprowadzenia procesu klastrowania.

Jaki jest współczynnik sylwetki w grupowaniu?

Aby zmierzyć, jak dobrze przeprowadzono grupowanie, używamy współczynnika sylwetki. Zasadniczo mierzy się średnią odległość między dwoma skupiskami, a następnie oblicza się szerokość sylwetki za pomocą wzoru. W ten sposób możemy w łatwy sposób zmierzyć optymalną liczbę klastrów obecnych w danych danych, a tym samym dowiedzieć się o efektywności wykonanego klastrowania.

Co oznacza klastrowanie rozmyte w uczeniu maszynowym?

Gdy dane dane należą do więcej niż jednego klastra lub grupy, stosowana jest metoda klastrowania rozmytego, która działa na algorytmie rozmytej C-średniej lub rozmytej algorytmie K-średniej. Jest to metoda miękkiego grupowania. Zgodnie z odległością między środkiem skupienia a punktem obrazu, sposób przypisuje wartości przynależności do każdego punktu obrazu związanego z każdym środkiem skupienia.