Przegląd zasad asocjacyjnych i ich zastosowań

Opublikowany: 2019-06-05

Association Rule Mining, jak sama nazwa wskazuje, reguły asocjacji to proste instrukcje If/Then, które pomagają odkryć relacje między pozornie niezależnymi relacyjnymi bazami danych lub innymi repozytoriami danych.

Większość algorytmów uczenia maszynowego działa z liczbowymi zestawami danych, a zatem są one matematyczne. Jednak eksploracja reguł asocjacyjnych jest odpowiednia dla danych nienumerycznych, kategorycznych i wymaga nieco więcej niż prostego liczenia.

Eksploracja reguł asocjacyjnych to procedura, która ma na celu obserwowanie często występujących wzorców, korelacji lub asocjacji z zestawów danych znalezionych w różnego rodzaju bazach danych, takich jak relacyjne bazy danych, transakcyjne bazy danych i inne formy repozytoriów.

Reguła stowarzyszenia składa się z 2 części:

  • poprzednik (jeśli) i
  • następca (wtedy)

Poprzednik to coś, co znajduje się w danych, a następnik to element, który znajduje się w połączeniu z poprzednikiem. Spójrz na tę zasadę na przykład:

„Jeśli klient kupuje chleb, ma 70% szans, że kupi mleko”.

W powyższej regule asocjacyjnej chleb jest poprzednikiem, a mleko następstwem. Mówiąc najprościej, można to rozumieć jako zasadę stowarzyszenia sklepu detalicznego mającą na celu lepsze ukierunkowanie na swoich klientów. Jeśli powyższa zasada jest wynikiem wnikliwej analizy niektórych zbiorów danych, może być wykorzystana nie tylko do poprawy obsługi klienta, ale także do zwiększenia przychodów firmy.
Reguły asocjacji są tworzone przez dogłębną analizę danych i wyszukiwanie częstych wzorców typu „jeśli/to”. Następnie, w zależności od następujących dwóch parametrów, obserwuje się ważne zależności:

  1. Support : Support wskazuje, jak często relacja if/then pojawia się w bazie danych.
  2. Zaufanie : Zaufanie mówi o tym, ile razy te relacje okazały się prawdziwe.

Tak więc, w danej transakcji z wieloma przedmiotami, Association Rule Mining przede wszystkim stara się znaleźć zasady rządzące tym, w jaki sposób i dlaczego takie produkty/elementy są często kupowane razem. Na przykład masło orzechowe i galaretka są często kupowane razem, ponieważ wiele osób lubi robić kanapki PB&J.

Association Rule Mining jest czasami określana jako „Market Basket Analysis”, ponieważ była to pierwsza dziedzina zastosowania asocjacji. Celem jest odkrycie skojarzeń elementów występujących razem częściej, niż można by się spodziewać po losowym próbkowaniu wszystkich możliwości. Klasyczna anegdota Piwo i pielucha pomoże to lepiej zrozumieć.

Historia wygląda tak: młodzi Amerykanie, którzy w piątki chodzą do sklepów, żeby kupić pieluchy, mają też predyspozycje do łapania butelki piwa. Jakkolwiek niepowiązane i niejasne może to zabrzmieć dla nas laików, eksploracja zasad stowarzyszenia pokazuje nam, jak i dlaczego!
Zróbmy sami trochę analiz, dobrze?
Załóżmy, że baza danych transakcji detalicznych sklepu X zawiera następujące dane:

  • Całkowita liczba transakcji: 600 000
  • Transakcje zawierające pieluchy: 7500 (1,25 proc.)
  • Transakcje zawierające piwo: 60 000 (10 proc.)
  • Transakcje zawierające zarówno piwo, jak i pieluchy: 6000 (1,0 procent)

Z powyższych danych można wywnioskować, że gdyby nie było związku między piwem a pieluchami (czyli byłyby statystycznie niezależne), to tylko 10% kupujących pieluchy kupiłoby piwo.

Jednak, co może wydawać się zaskakujące, liczby mówią nam, że 80% (=6000/7500) osób kupujących pieluchy kupuje również piwo .
To znaczny skok o 8 w stosunku do oczekiwanego prawdopodobieństwa. Ten czynnik wzrostu znany jest jako Lift – jest to stosunek obserwowanej częstotliwości współwystępowania naszych przedmiotów do częstotliwości oczekiwanej.

Jak ustaliliśmy windę?
Po prostu obliczając transakcje w bazie danych i wykonując proste operacje matematyczne.
Tak więc, dla naszego przykładu, jedna prawdopodobna reguła asocjacyjna może stwierdzać, że ludzie, którzy kupują pieluchy, będą również kupować piwo ze współczynnikiem Lift równym 8. Jeśli mówimy matematycznie, lift można obliczyć jako stosunek łącznego prawdopodobieństwa dwóch przedmiotów x i y, podzielone przez iloczyn ich prawdopodobieństw.
Podnoszenie = P(x,y)/[P(x)P(y)]
Jeśli jednak te dwie pozycje są statystycznie niezależne, wówczas łączne prawdopodobieństwo tych dwóch pozycji będzie takie samo jak iloczyn ich prawdopodobieństw. Innymi słowy,
P(x,y)=P(x)P(y),
co sprawia, że ​​współczynnik Wzrostu = 1. Warto tutaj wspomnieć, że antykorelacja może dać nawet wartości Wzrostu mniejsze niż 1 – co odpowiada wzajemnie wykluczającym się elementom, które rzadko występują razem.
Association Rule Mining pomogło naukowcom zajmującym się danymi odkryć wzorce, o których istnieniu nigdy nie wiedzieli.
Podstawowe podstawy statystyki dla nauki o danych

Spis treści

Przyjrzyjmy się niektórym obszarom, w których Association Rule Mining bardzo pomogło:

  1. Analiza koszyka rynkowego:

To najbardziej typowy przykład górnictwa asocjacyjnego. Dane są zbierane za pomocą skanerów kodów kreskowych w większości supermarketów. Ta baza danych, znana jako baza danych „koszyka rynkowego”, składa się z dużej liczby rekordów dotyczących przeszłych transakcji. Pojedynczy rekord zawiera listę wszystkich towarów zakupionych przez klienta w ramach jednej sprzedaży. Wiedza o tym, które grupy skłaniają się ku jakiemu zestawowi przedmiotów, daje tym sklepom swobodę w dostosowywaniu układu sklepu i katalogu sklepu, aby optymalnie rozmieścić te, które dotyczą siebie nawzajem.

  1. Diagnoza medyczna:

Zasady stowarzyszenia w diagnozie medycznej mogą być przydatne do pomocy lekarzom w leczeniu pacjentów. Diagnoza nie jest procesem łatwym i zawiera szereg błędów, które mogą skutkować nierzetelnymi wynikami końcowymi. Wykorzystując eksplorację reguł skojarzeń relacyjnych, możemy określić prawdopodobieństwo wystąpienia choroby dotyczącej różnych czynników i objawów. Ponadto, korzystając z technik uczenia się, interfejs ten można rozszerzyć, dodając nowe objawy i określając relacje między nowymi objawami a odpowiadającymi im chorobami.

  1. Dane spisowe:

Każdy rząd ma tony danych spisowych. Dane te mogą posłużyć do planowania efektywnych usług publicznych (edukacja, zdrowie, transport), a także pomocy przedsiębiorstwom publicznym (przy zakładaniu nowych fabryk, galerii handlowych, a nawet marketingu poszczególnych produktów). To zastosowanie eksploracji reguł stowarzyszeniowych i eksploracji danych ma ogromny potencjał we wspieraniu zdrowej polityki publicznej i zapewnianiu efektywnego funkcjonowania społeczeństwa demokratycznego.

  1. Sekwencja białek:

Białka to sekwencje złożone z dwudziestu rodzajów aminokwasów. Każde białko posiada unikalną strukturę 3D, która zależy od sekwencji tych aminokwasów. Niewielka zmiana w sekwencji może spowodować zmianę struktury, która może zmienić funkcjonowanie białka. Ta zależność funkcjonowania białka od jego sekwencji aminokwasowej była przedmiotem wielu badań. Wcześniej sądzono, że te sekwencje są losowe, ale teraz uważa się, że tak nie jest. Nitin Gupta, Nitin Mangal, Kamal Tiwari i Pabitra Mitra rozszyfrowały naturę powiązań między różnymi aminokwasami obecnymi w białku. Znajomość i zrozumienie tych reguł asocjacyjnych będzie niezwykle pomocne podczas syntezy sztucznych białek.

Mam nadzieję, że dzięki temu udało mi się wyjaśnić wszystko, co trzeba było wiedzieć o wydobywaniu reguł asocjacyjnych.
Jeśli masz jakieś wątpliwości, pytania lub sugestie – zostaw je w komentarzach poniżej!

Jakie są przykłady aplikacji do eksploracji reguł asocjacyjnych?

Technika identyfikowania wspólnych wzorców, korelacji, powiązań i struktur przyczynowych na podstawie zbiorów danych przechowywanych w różnych bazach danych, w tym relacyjnych bazach danych, transakcyjnych bazach danych i innych formach repozytoriów danych, jest znana jako eksploracja reguł asocjacyjnych. Eksploracja reguł asocjacyjnych pozwala na znalezienie interesujących połączeń i powiązań między dużymi zestawami elementów danych. Ta reguła określa, jak często określony towar pojawia się w transakcji. Dobrym przykładem jest analiza rynku. Reguły asocjacyjne mają kluczowe znaczenie w eksploracji danych do analizy i prognozowania zachowań konsumentów. Analizy klientów, analiza koszyka rynkowego, grupowanie produktów, projektowanie katalogów i układ sklepu to przykłady ich zastosowania. Do tworzenia programów uczenia maszynowego programiści używają reguł asocjacyjnych.

Dlaczego zasada Apriori jest skuteczna, jeśli chodzi o zasady stowarzyszeń górniczych?

Apriori jest algorytmem relacyjnej bazy danych do częstego wyszukiwania zestawów elementów i uczenia się reguł asocjacji. Działa poprzez znajdowanie najczęstszych pojedynczych elementów w bazie danych, a następnie rozszerzanie ich na coraz większe zestawy elementów, o ile te zestawy elementów pojawiają się wystarczająco często. Metoda Apriori jest przeznaczona do użytku z bazami danych transakcji i generuje reguły asocjacji przy użyciu częstych zestawów elementów. Te kryteria skojarzeń są używane do określenia siły lub słabości związku między dwiema rzeczami. Możemy być w stanie zmniejszyć liczbę zestawów przedmiotów, które musimy ocenić, stosując koncepcję Apriori.

Jakie są wady wydobywania reguł asocjacyjnych?

Podstawowymi wadami algorytmów reguł asocjacyjnych są nudne reguły, duża liczba odkrytych reguł i niska wydajność algorytmu. Zastosowane algorytmy zawierają zbyt wiele parametrów dla kogoś, kto nie jest ekspertem w eksploracji danych, a stworzonych reguł zbyt wiele, z których większość jest nieciekawa i mało zrozumiała.