선험적 알고리즘: 어떻게 작동합니까? 브랜드는 선험적 알고리즘을 어떻게 활용할 수 있습니까?

게시 됨: 2020-03-26

당신이 슈퍼마켓에 있고 마음 속에 사고 싶은 품목이 있다고 상상해 보십시오. 그러나 당신은 당신이 생각했던 것보다 훨씬 더 많은 것을 사게 됩니다. 이것을 충동 구매라고 하며 브랜드는 이 현상을 활용하기 위해 선험적 알고리즘 을 사용합니다. 데이터 과학 알고리즘에 대해 자세히 알아보려면 클릭하여 자세히 알아보세요.

이 알고리즘은 무엇입니까? 어떻게 작동합니까? 이 기사에서 이러한 질문에 대한 답을 찾을 수 있습니다. 먼저 이 알고리즘이 무엇인지 살펴본 다음 작동 방식을 살펴보겠습니다.

의 시작하자.

선험적 알고리즘이란 무엇입니까?

선험적 알고리즘은 빈번한 항목 집합을 제공합니다. 그것의 기초는 우리가 다음과 같은 방식으로 설명할 수 있는 선험적 속성입니다:

당신이 가지고 있는 아이템 세트가 필요한 지지 값보다 작은 지지 값을 가지고 있다고 가정합니다. 그러면 이 항목 집합의 하위 집합도 필요한 것보다 적은 지원 가치를 갖게 됩니다. 따라서 계산에 포함하지 않으므로 많은 공간을 절약할 수 있습니다.

지원 가치는 거래에서 특정 항목 집합이 나타나는 횟수를 나타냅니다. apriori 알고리즘은 추천 시스템에 적용하기 때문에 꽤 유명합니다. 일반적으로 이 알고리즘을 트랜잭션 데이터베이스, 즉 트랜잭션 데이터베이스에 적용합니다. 이 알고리즘의 실제 응용 프로그램도 많이 있습니다. 또한 선험적 알고리즘을 올바르게 이해하려면 연관 규칙 마이닝 에 익숙해져야 합니다.

읽어보기: 데이터 과학의 전제 조건. 시간이 지남에 따라 어떻게 변합니까?

선험적 알고리즘은 어떻게 작동합니까?

선험적 알고리즘은 빈번한 항목 집합을 사용하여 연관 규칙을 생성합니다. 그 원리는 간단합니다. 빈번한 항목 집합의 하위 집합도 빈번한 항목 집합이 됩니다. 임계값보다 큰 지원 값을 갖는 항목 집합은 빈번한 항목 집합입니다. 다음 데이터를 고려하십시오.

TID	아이템
T1	1 3 4
T2	2 3 5
T3	1 2 3 5
T4	2 5
T5	1 3 5

첫 번째 반복에서 지원 값이 2이고 크기가 1인 항목 집합을 만든다고 가정합니다. 이제 그에 따라 지원 값을 계산합니다. 지원 가치가 최소값보다 낮은 항목을 버립니다. 이 예에서는 항목 번호 4가 됩니다.

C1(첫 번째 반복의 결과)

항목 집합	지원하다
{1}	삼
{2}	삼
{삼}	4
{4}	1
{5}	4

F1({4}을 버린 후)

항목 집합	지원하다
{1}	삼
{2}	삼
{삼}	4
{5}	4

두 번째 반복에서는 항목 집합의 크기를 2로 유지한 다음 지원 값을 계산합니다. 이 반복에서 테이블 F1의 모든 조합을 사용할 것입니다. 지원 값이 2보다 작은 항목 집합을 제거합니다.

C2(F1에 있는 항목만 있음)

항목 집합	지원하다
{1,2}	1
{1,3}	삼
{1,5}	2
{2,3}	2
{2,5}	삼
{3,5}	삼

F2(지원 값이 2보다 작은 항목을 제거한 후)

항목 집합	지원하다
{1,3}	삼
{1,5}	2
{2,3}	2
{2,5}	삼
{3,5}	삼

이제 가지 치기를 수행합니다. 이 경우 C3의 항목 집합을 하위 집합으로 나누고 지원 값이 2보다 작은 항목 집합을 제거합니다.

C3(정정 후)

항목 집합	F2에서?
{1,2,3}, {1,2}, {1,3}, {2,3}	아니요
{1,2,5}, {1,2}, {1,5}, {2,5}	아니요
{1,3,5}, {1,5}, {1,3}, {3,5}	네
{2,3,5}, {2,3}, {2,5}, {3,5}	네

세 번째 반복에서는 {1,2,5}와 {1,2,3}이 모두 {1,2}를 가지고 있으므로 버릴 것입니다. 이것이 선험적 알고리즘의 주요 영향입니다.

F3({1,2,5} 및 {1,2,3}을 버린 후)

항목 집합	지원하다
{1,3,5}	2
{2,3,5}	2

네 번째 반복에서는 F3 세트를 사용하여 C4를 생성합니다. 그러나 C4의 지원 값이 2보다 작으므로 진행하지 않고 최종 항목 집합은 F3입니다.

항목 집합	지원하다
{1,2,3,5}	1

F3을 사용하여 다음 항목 집합이 있습니다.

I = {1,3,5}인 경우, 우리가 가진 부분집합은 {5}, {3}, {1}, {3,5}, {1,5}, {1,3}입니다.

I = {2,3,5}인 경우 우리가 가진 부분집합은 {5}, {3}, {2}, {3,5}, {2,5}, {2,3}입니다.

이제 항목 집합 F3에 대한 규칙을 만들고 적용합니다. 이를 위해 최소 신뢰 값이 현재 60%라고 가정합니다. I의 부분 집합 S에 대해 다음과 같은 규칙이 출력됩니다.

S -> (I,S) (S가 IS를 권장한다는 의미)
support(I) / support(S) >= min_conf 값인 경우

우리가 가지고 있는 첫 번째 부분집합, 즉 {1,3,5}에 대해 이 작업을 수행해 보겠습니다.

규칙 번호 1: {1,3} -> ({1,3,5} – {1,3}) 이것은 1 & 3-> 5를 의미합니다

신뢰 가치 = (1,3,5)의 지지 가치 / (1,3)의 지지 가치 = ⅔ = 66.66%

결과가 60%보다 높으므로 규칙 1번을 선택합니다.

규칙 2번: {1,5} -> {(1,3,5) – {1,5}) 이것은 1 & 5 -> 3을 의미합니다.

신뢰 값 = (1,3,5)의 지지 값 / (1,5)의 지지 값 = 2/2 = 100%

결과가 60%보다 높으므로 규칙 2번을 선택합니다.

규칙 3번: {3} -> ({1,3,5} – {3}) 이것은 3 -> 1 & 5를 의미합니다.

신뢰 값 = (1,3,5)의 지지 값 / (3)의 지지 값 = 2/4 = 50%

결과가 60% 미만이므로 규칙 3번을 기각합니다.

세계 최고의 대학에서 데이터 과학 과정 을 이수하 십시오. 귀하의 경력을 빠르게 추적하려면 Executive PG 프로그램, 고급 인증 프로그램 또는 석사 프로그램에 가입하십시오.

위의 예에서 Apriori 알고리즘이 규칙을 만들고 적용하는 방법을 볼 수 있습니다. 두 번째 항목 세트({2,3,5})에 대해 다음 단계를 수행할 수 있습니다. 그것을 시도하면 알고리즘이 허용하는 규칙과 거부하는 규칙을 이해하는 데 큰 경험을 얻을 수 있을 것입니다. 알고리즘은 Apriori 알고리즘 Python과 같은 다른 위치에서 동일하게 유지됩니다.

결론

이 기사를 읽은 후에는 이 알고리즘과 해당 응용 프로그램에 매우 익숙할 것입니다. 추천 시스템에서 사용되기 때문에 꽤 인기를 얻었습니다.

Apriori 알고리즘보다 더 효율적인 알고리즘이 있습니까?

ECLAT(Equivalence Class Clustering and bottom-up Lattice Traversal) 알고리즘은 연관 규칙 마이닝에 매우 유용하고 널리 사용되는 알고리즘입니다. 또한 Apriori 알고리즘에 비해 더 효율적이고 빠른 알고리즘으로 알려져 있습니다.

Apriori 알고리즘은 그래프의 너비 우선 탐색을 모방하여 수평 방식으로 작동하는 반면 ECLAT 알고리즘은 그래프의 깊이 우선 탐색을 모방하여 수직 방식으로 작동합니다. 이러한 수직적 접근 방식은 Apriori 알고리즘에 비해 ECLAT 알고리즘이 더 빠른 속도와 더 나은 효율성을 제공하는 이유입니다.

Apriori 알고리즘은 어떤 목적에 유용합니까?

Apriori 알고리즘은 데이터 마이닝에 널리 사용되는 고전적인 알고리즘입니다. 관련 연관 규칙과 사용 가능한 데이터베이스에서 빈번한 항목 집합을 마이닝하는 데 정말 유용합니다. 일반적으로 이 알고리즘은 많은 트랜잭션으로 구성된 데이터베이스를 처리해야 하는 조직에서 사용합니다. 예를 들어, 선험적 알고리즘을 사용하면 고객이 상점에서 자주 구매하는 품목을 매우 쉽게 결정할 수 있습니다. 이 알고리즘의 도움으로 시장 판매를 크게 향상시킬 수 있습니다.

그 외에도 이 알고리즘은 약물 부작용을 감지하기 위해 의료 분야에서도 활용됩니다. 알고리즘은 약물 부작용을 유발할 수 있는 환자 특성과 약물의 모든 조합을 결정하기 위한 연관 규칙을 생성합니다.

Apriori 알고리즘의 장단점은 무엇입니까?

Apriori 알고리즘은 구현, 이해가 매우 쉽고 큰 항목 집합에서 매우 효율적으로 사용할 수 있습니다. 때로는 많은 수의 후보 규칙을 찾아야 할 수도 있으며 이 프로세스는 계산 비용이 약간 높을 수 있습니다. 전체 데이터베이스를 거쳐야 하기 때문에 지지도를 계산하는 데에도 비용이 많이 듭니다.