Analiza skupień w R: kompletny przewodnik, którego będziesz potrzebować [2022]

Opublikowany: 2021-01-04

Jeśli kiedykolwiek wkroczyłeś na stopę w świecie data science lub Pythona, słyszałeś o R.

Opracowany jako projekt GNU, R jest zarówno językiem, jak i środowiskiem zaprojektowanym dla grafiki i obliczeń statystycznych. Jest podobny do języka S i dlatego może być uważany za jego implementację.

Jako język R jest bardzo rozszerzalny. Zapewnia różnorodne techniki statystyczne i graficzne, takie jak analiza szeregów czasowych, modelowanie liniowe, modelowanie nieliniowe, grupowanie, klasyfikacja, klasyczne testy statystyczne.

Jest to jedna z tych technik, którą będziemy zgłębiać i jest to grupowanie lub analiza skupień!

Spis treści

Co to jest analiza skupień?

Mówiąc najprościej, grupowanie to metoda segmentacji danych, w której dane są dzielone na kilka grup na podstawie podobieństwa.

Jak oceniane jest podobieństwo? Na podstawie miar odległości międzyobserwacyjnych. Mogą to być miary odległości euklidesowe lub oparte na korelacji.

Analiza skupień jest jedną z najpopularniejszych i na swój sposób intuicyjnych metod analizy i eksploracji danych. Jest to idealne rozwiązanie w przypadkach, w których istnieją obszerne dane i musimy z nich wydobyć spostrzeżenia. W takim przypadku dane zbiorcze można podzielić na mniejsze podzbiory lub grupy.

Małe grupy, które są tworzone i wyprowadzane z całego zestawu danych, nazywane są klastrami. Są one uzyskiwane poprzez wykonanie jednej lub więcej operacji statystycznych. Każdy klaster, chociaż zawiera różne elementy, ma następujące właściwości:

Ich liczba nie jest z góry znana.
Uzyskuje się je poprzez przeprowadzenie operacji statystycznej.
Każdy klaster zawiera obiekty, które są podobne i mają wspólne cechy.

Nawet bez „wymyślnej” nazwy analizy skupień, to samo jest często używane w życiu codziennym.

Na poziomie indywidualnym tworzymy grupy rzeczy, które musimy spakować, gdy wybieramy się na wakacje. Najpierw ubrania, potem przybory toaletowe, potem książki i tak dalej. Tworzymy kategorie, a następnie podchodzimy do nich indywidualnie.

Firmy korzystają również z analizy klastrowej, gdy przeprowadzają segmentację na swoich listach e-mailowych i kategoryzują klientów na podstawie wieku, sytuacji ekonomicznej, wcześniejszych zachowań zakupowych itp.

Analiza klastrów jest również określana jako „nienadzorowane uczenie maszynowe” lub rozpoznawanie wzorców. Nienadzorowane, ponieważ nie chcemy kategoryzować poszczególnych próbek tylko w określonych próbkach. Uczenie się, ponieważ algorytm uczy się również klastrowania.

3 metody klastrowania

Mamy trzy metody, które są najczęściej używane do grupowania. To są:

Aglomeracyjny klaster hierarchiczny
Grupowanie relacyjne/metoda Condorcet
grupowanie k-średnich

1. Aglomeracyjny klaster hierarchiczny

Jest to najczęstszy rodzaj grupowania hierarchicznego. Algorytm dla AHC działa w sposób oddolny. Rozpoczyna się traktowaniem każdego punktu danych jako samego klastra (zwanego liściem).

Następnie łączy ze sobą dwa najbardziej podobne klastry. Te nowe i większe klastry nazywane są węzłami. Grupowanie jest powtarzane, aż cały zestaw danych zostanie zebrany w jeden, duży klaster zwany rootem.

Wizualizacja i rysowanie każdego etapu procesu AHC prowadzi do wygenerowania drzewa zwanego dendrogramem.

Odwrócenie procesu AHC prowadzi do grupowania dzielącego i generowania klastrów.

Dendrogram można również zwizualizować jako:

Źródło

Podsumowując, jeśli potrzebujesz algorytmu, który jest dobry w identyfikowaniu małych klastrów, wybierz AHC. Jeśli chcesz taki, który jest dobry w identyfikowaniu dużych skupień, to metoda grupowania z podziałem powinna być twoim wyborem.

2. Grupowanie relacyjne/metoda Condorceta

„Clustering by podobieństwo agregacji” to inna nazwa tej metody. Działa w następujący sposób:

Porównywane są poszczególne obiekty w parach, które tworzą globalne grupowanie. Wektorom m(A, B) i d(A, B) przyporządkowana jest para indywidualnych wartości (A, B). W wektorze b(A, B) zarówno A, jak i B mają te same wartości, natomiast w wektorze d(A, B) oba mają różne wartości).

Mówi się, że dwie indywidualne wartości A i B są zgodne z kryterium Condorcet w następujący sposób:

c(A, B) = m(A, B)- d(A, B)

Dla indywidualnej wartości, takiej jak A i klastra o nazwie S, kryterium Condorcet ma postać:

c(A,S) = Σ i c(A,B i )

Ogólna suma to Bi ∈ S.

Po spełnieniu powyższych warunków konstruowane są klastry postaci c(A,S). A może mieć najmniejszą wartość równą 0 i jest największym ze wszystkich punktów danych w klastrze.

Na koniec obliczane jest globalne kryterium Condorcet. Odbywa się to poprzez zsumowanie poszczególnych punktów danych obecnych w A i klastrze SA , który je zawiera.

Powyższe kroki są powtarzane, aż globalne kryterium Condorceta nie ulegnie poprawie lub zostanie osiągnięta największa liczba iteracji.

3. grupowanie k-średnich

Jest to jeden z najpopularniejszych algorytmów partycjonowania. Wszystkie dostępne dane (czasami nazywane również punktami danych/obserwacjami) zostaną zgrupowane tylko w tych klastrach. Oto podział działania algorytmu:

Wybierz k klastrów losowo. Te k wierszy będą również oznaczać znalezienie k centroidów dla każdego skupienia.
Każdy punkt danych jest następnie przypisywany do najbliższego centroidu.
W miarę przypisywania coraz większej liczby punktów danych, centroidy są ponownie obliczane jako średnia wszystkich dodanych punktów danych (bycia).
Kontynuuj przypisywanie punktów danych i przesuwanie środka ciężkości zgodnie z potrzebami.
Powtarzaj kroki 3 i 4, aż żadne punkty danych nie zmienią klastra.

Odległość między punktem danych a centroidem jest obliczana przy użyciu jednej z następujących metod:

Odległość euklidesowa
Odległość Manhattanu
Odległość Minłowskiego

Najpopularniejszy z nich – odległość euklidesowa – obliczany jest w następujący sposób:

Za każdym razem, gdy algorytm jest uruchamiany, w wyniku zwracane są różne grupy. Pierwsze przypisanie zmiennej k jest całkowicie losowe. To sprawia, że k-średnie są bardzo wrażliwe na pierwszy wybór. W rezultacie uzyskanie takiego samego skupienia staje się prawie niemożliwe, chyba że liczba grup i ogólnych obserwacji jest niewielka.

Jak przypisać wartość do Na początku losowo przypiszemy wartość k , która będzie dyktować kierunek, w którym zmierzają wyniki. Aby upewnić się, że dokonano najlepszego wyboru, warto pamiętać o następującym wzorze:

Tutaj n to liczba punktów danych w zestawie danych.
Niezależnie od obecności formuły, liczba klastrów byłaby w dużym stopniu uzależniona od charakteru zbioru danych, branży i biznesu, do którego należy itp. Dlatego warto zwrócić uwagę również na własne doświadczenie i intuicję.
W przypadku niewłaściwego rozmiaru klastra grupowanie może nie być tak skuteczne i może prowadzić do nadmiernego dopasowania. Z powodu nadmiernego dopasowania nowe punkty danych mogą nie być w stanie znaleźć miejsca w klastrze, ponieważ algorytm wydobył drobne szczegóły i cała generalizacja zostanie utracona.
Zastosowania analizy skupień
Więc gdzie dokładnie są używane potężne metody klastrowania? Kilka przykładów wymieniliśmy pobieżnie powyżej. Poniżej kilka innych przykładów:

Medycyna i zdrowie
Lekarze są w stanie postawić lepszą diagnozę na podstawie wieku i struktury genetycznej pacjentów. To ostatecznie prowadzi do bardziej korzystnego i wyrównanego leczenia. W ten sposób można również odkrywać nowe leki. W medycynie klastrowanie określa się mianem nozologii.
Socjologia
W sferach społecznych grupowanie ludzi na podstawie demografii, wieku, zawodu, miejsca zamieszkania itp. pomaga rządowi egzekwować prawa i kształtować politykę, która odpowiada różnym grupom.
Marketing
W marketingu termin grupowanie zastępuje się segmentacją / analizą typologiczną. Służy do eksploracji i selekcji potencjalnych nabywców danego produktu. Następnie firmy testują elementy każdego klastra, aby dowiedzieć się, którzy klienci wykazują zachowania prozatrzymaniowe.
Profilowanie cybernetyczne
Jako dane wejściowe dla algorytmu klastrowania, który zostanie zaimplementowany w tym miejscu, wprowadzane są strony internetowe, do których miał dostęp użytkownik. Te strony internetowe są następnie grupowane. Na koniec generowany jest profil użytkownika na podstawie jego aktywności przeglądania. Od personalizacji po bezpieczeństwo cybernetyczne, ten wynik można wykorzystać w dowolnym miejscu.
Sprzedaż detaliczna
Punkty sprzedaży korzystają również z grupowania klientów na podstawie wieku, preferencji kolorystycznych, preferencji dotyczących stylu, wcześniejszych zakupów itp. Pomaga to sprzedawcom tworzyć spersonalizowane doświadczenia, a także planować przyszłe oferty dostosowane do życzeń klientów.
Wniosek
Jak widać, analiza skupień jest bardzo wartościową metodą – bez względu na język lub środowisko, w którym jest wdrażana. Niezależnie od tego, czy ktoś chce uzyskać spostrzeżenia, wypracować wzorce, czy wykreować profile, analiza skupień jest bardzo przydatnym narzędziem z wynikami, które mogą być praktycznie wdrożone. Biegłość w pracy z różnymi algorytmami klastrowania może prowadzić do dokładnej i naprawdę cennej analizy danych.
Ucz się kursów nauki o danych z najlepszych światowych uniwersytetów. Zdobywaj programy Executive PG, Advanced Certificate Programs lub Masters Programs, aby przyspieszyć swoją karierę.
Przygotuj się na karierę przyszłości
DYPLOM PG Z IIIT-B, PONAD 100 GODZIN NAUKI W KLASIE, PONAD 400 GODZIN NAUKI ONLINE I 360 STOPNI WSPARCIA KARIERY
Ucz się więcej