연관 규칙 마이닝 및 응용 프로그램 개요

게시 됨: 2019-06-05

연관 규칙 마이닝(Association Rule Mining) 이름에서 알 수 있듯이 연관 규칙은 겉보기에 독립적인 관계형 데이터베이스 또는 기타 데이터 저장소 간의 관계를 발견하는 데 도움이 되는 간단한 If/Then 문입니다.

대부분의 기계 학습 알고리즘은 숫자 데이터 세트와 함께 작동하므로 수학적인 경향이 있습니다. 그러나 연관 규칙 마이닝은 숫자가 아닌 범주형 데이터에 적합하며 단순한 계산보다 약간 더 많은 것이 필요합니다.

연관 규칙 마이닝은 관계형 데이터베이스, 트랜잭션 데이터베이스 및 기타 형태의 저장소와 같은 다양한 종류의 데이터베이스에서 발견되는 데이터 세트에서 자주 발생하는 패턴, 상관 관계 또는 연관을 관찰하는 것을 목표로 하는 절차입니다.

연결 규칙은 두 부분으로 구성됩니다.

  • 선행사(만약)와
  • 결과적으로 (그때)

선행 항목은 데이터에서 발견되는 항목이고 후건은 선행 항목과 조합하여 발견되는 항목입니다. 예를 들어 다음 규칙을 살펴보십시오.

"고객이 빵을 사면 우유를 살 가능성이 70%입니다."

위의 연관 규칙에서 빵은 선행 조건이고 우유는 후건 조건입니다. 간단히 말해서, 고객을 더 잘 타겟팅하기 위한 소매점의 연관 규칙으로 이해할 수 있습니다. 위의 규칙이 일부 데이터 세트에 대한 철저한 분석의 결과라면 고객 서비스 향상은 물론 회사 수익 향상에도 사용할 수 있습니다.
연관 규칙은 데이터를 철저히 분석하고 빈번한 if/then 패턴을 찾아 생성됩니다. 그런 다음 다음 두 매개변수에 따라 중요한 관계가 관찰됩니다.

  1. 지원 : 지원은 데이터베이스에 if/then 관계가 나타나는 빈도를 나타냅니다.
  2. Confidence : Confidence는 이러한 관계가 사실로 밝혀진 횟수를 나타냅니다.

따라서 여러 항목이 있는 특정 트랜잭션에서 연관 규칙 마이닝은 주로 이러한 제품/항목을 함께 구매하는 방법 또는 이유를 제어하는 ​​규칙을 찾으려고 합니다. 예를 들어 피넛버터와 젤리는 많은 사람들이 PB&J 샌드위치를 ​​만드는 것을 좋아하기 때문에 함께 구매하는 경우가 많습니다.

연관 규칙 마이닝은 연관 마이닝의 첫 번째 적용 영역이었기 때문에 때때로 "시장 바구니 분석"이라고도 합니다. 목표는 모든 가능성을 무작위로 샘플링하여 예상하는 것보다 더 자주 함께 발생하는 항목의 연관성을 발견하는 것입니다. 맥주와 기저귀에 관한 고전적인 일화가 이것을 더 잘 이해하는 데 도움이 될 것입니다.

이야기는 이렇습니다. 금요일에 기저귀를 사러 가게에 가는 젊은 미국 남성들은 맥주 한 병도 사려는 경향이 있습니다. 우리 평신도에게는 관련이 없고 모호하게 들릴 수 있지만 연관 규칙 마이닝은 어떻게 그리고 왜 그런지 보여줍니다!
우리 스스로 약간의 분석을 해 볼까요?
X 매장의 소매 거래 데이터베이스에 다음 데이터가 포함되어 있다고 가정합니다.

  • 총 거래 건수: 600,000
  • 기저귀 포함 거래: 7,500건(1.25%)
  • 맥주 포함 거래: 60,000(10%)
  • 맥주와 기저귀를 모두 포함하는 거래: 6,000(1.0%)

위의 그림에서 우리는 맥주와 기저귀 사이에 관계가 없다면(즉, 통계적으로 독립적임) 기저귀 구매자의 10%만이 맥주도 구매하게 되었을 것이라는 결론을 내릴 수 있습니다.

그러나 놀랍게 보일 수 있지만 수치 는 기저귀를 사는 사람들의 80%(=6000/7500)가 맥주도 산다는 것을 알려줍니다.
이것은 예상 확률보다 8이 크게 증가한 것입니다. 이 증가 요인을 상승도라고 합니다. 이는 관찰된 항목의 동시 발생 빈도와 예상 빈도의 비율입니다.

리프트를 어떻게 결정했습니까?
데이터베이스의 트랜잭션을 계산하고 간단한 수학 연산을 수행하기만 하면 됩니다.
따라서 우리의 예에서 하나의 그럴듯한 연관 규칙은 기저귀를 사는 사람들이 리프트 계수가 8인 맥주도 구입할 것이라고 명시할 수 있습니다. 수학적으로 말하면 리프트는 두 항목의 결합 확률 x의 비율로 계산할 수 있습니다. y는 확률의 곱으로 나눈 값입니다.
리프트 = P(x,y)/[P(x)P(y)]
그러나 두 항목이 통계적으로 독립적이면 두 항목의 결합 확률은 확률의 곱과 같습니다. 또는 다시 말해서,
P(x,y)=P(x)P(y),
이는 리프트 팩터를 1로 만듭니다. 여기서 언급할 가치가 있는 흥미로운 점은 반상관이 1보다 작은 리프트 값을 생성할 수도 있다는 것입니다. 이는 함께 거의 발생하지 않는 상호 배타적인 항목에 해당합니다.
Association Rule Mining은 데이터 과학자들이 존재하지 않는 패턴을 찾는 데 도움이 되었습니다.
데이터 과학 통계 기초 기초

목차

연관 규칙 마이닝이 상당히 도움이 된 몇 가지 영역을 살펴보겠습니다.

  1. 시장 바구니 분석:

이것은 연관 마이닝의 가장 일반적인 예입니다. 데이터는 대부분의 슈퍼마켓에서 바코드 스캐너를 사용하여 수집됩니다. "장바구니" 데이터베이스로 알려진 이 데이터베이스는 과거 거래에 대한 많은 기록으로 구성됩니다. 단일 레코드는 한 번의 판매에서 고객이 구매한 모든 항목을 나열합니다. 어떤 그룹이 어떤 항목 세트에 대해 경향이 있는지 알면 이러한 상점은 상점 레이아웃과 상점 카탈로그를 자유롭게 조정하여 서로에 대해 최적으로 배치할 수 있습니다.

  1. 의료 진단:

의료 진단의 연관 규칙은 의사가 환자를 치료하는 데 유용할 수 있습니다. 진단은 쉬운 과정이 아니며 신뢰할 수 없는 최종 결과를 초래할 수 있는 오류 범위가 있습니다. 관계 연관 규칙 마이닝을 사용하여 다양한 요인 및 증상에 대한 질병 발생 확률을 식별할 수 있습니다. 또한 학습 기술을 사용하여 새로운 증상을 추가하고 새로운 징후와 해당 질병 간의 관계를 정의하여 이 인터페이스를 확장할 수 있습니다.

  1. 인구 조사 데이터:

모든 정부에는 수많은 인구 조사 데이터가 있습니다. 이 데이터는 효율적인 공공 서비스(교육, 건강, 교통)를 계획하고 공공 비즈니스(새로운 공장, 쇼핑몰 설정 및 특정 제품 마케팅)를 돕는 데 사용할 수 있습니다. 이러한 연관 규칙 마이닝 및 데이터 마이닝의 적용은 건전한 공공 정책을 지원하고 민주 사회의 효율적인 기능을 가져오는 데 엄청난 잠재력을 가지고 있습니다.

  1. 단백질 서열:

단백질은 20가지 유형의 아미노산으로 구성된 서열입니다. 각 단백질은 이러한 아미노산의 서열에 따라 달라지는 독특한 3D 구조를 가지고 있습니다. 서열의 약간의 변화는 단백질의 기능을 변화시킬 수 있는 구조의 변화를 일으킬 수 있습니다. 아미노산 서열에 대한 단백질 기능의 이러한 의존성은 많은 연구의 주제였습니다. 이전에는 이러한 시퀀스가 ​​임의적이라고 생각했지만 지금은 그렇지 않다고 믿어집니다. Nitin Gupta, Nitin Mangal, Kamal Tiwari 및 Pabitra Mitra 는 단백질에 존재하는 서로 다른 아미노산 간의 결합 특성을 해독했습니다. 이러한 연관 규칙에 대한 지식과 이해는 인공 단백질 합성 시 매우 도움이 될 것입니다.

이를 통해 연관 규칙 마이닝에 대해 알아야 할 모든 것을 명확히 할 수 있기를 바랍니다.
의심, 질문 또는 제안 사항이 있는 경우 아래 의견에 기재하십시오!

연관 규칙 마이닝 응용 프로그램의 몇 가지 예는 무엇입니까?

관계형 데이터베이스, 트랜잭션 데이터베이스 및 기타 형태의 데이터 저장소를 포함하여 다양한 데이터베이스에 저장된 데이터 세트에서 공통 패턴, 상관 관계, 연결 및 인과 구조를 식별하는 기술을 연관 규칙 마이닝이라고 합니다. 연관 규칙 마이닝을 사용하면 대규모 데이터 항목 집합 간의 흥미로운 연결 및 연결을 찾을 수 있습니다. 이 규칙은 트랜잭션에서 특정 항목이 나타나는 빈도를 지정합니다. 좋은 예는 시장 기반 분석입니다. 연관 규칙은 소비자 행동을 분석하고 예측하기 위한 데이터 마이닝에서 중요합니다. 고객 분석, 장바구니 분석, 제품 클러스터링, 카탈로그 디자인 및 상점 레이아웃은 모두 이들이 사용되는 위치의 예입니다. 기계 학습 프로그램을 만들기 위해 프로그래머는 연관 규칙을 사용합니다.

마이닝 협회 규칙과 관련하여 Apriori 원칙이 효과적인 이유는 무엇입니까?

빈번한 항목 집합 마이닝 및 연관 규칙 학습을 위해 Apriori는 관계형 데이터베이스 알고리즘입니다. 데이터베이스에서 가장 일반적인 개별 항목을 찾은 다음 해당 항목 집합이 충분히 자주 나타나는 한 더 큰 항목 집합으로 확장하여 작동합니다. Apriori 방법은 트랜잭션 데이터베이스와 함께 사용하기 위한 것으로 빈번한 항목 집합을 사용하여 연관 규칙을 생성합니다. 이러한 연관 기준은 두 사물 간의 연결 강도 또는 약점을 결정하는 데 사용됩니다. Apriori 개념을 사용하여 평가해야 하는 항목 집합의 수를 줄일 수 있습니다.

연관 규칙 마이닝의 단점은 무엇입니까?

연관 규칙 알고리즘의 주요 단점은 지루한 규칙을 얻고, 발견된 규칙이 많고, 알고리즘 성능이 낮다는 것입니다. 사용된 알고리즘은 데이터 마이닝 전문가가 아닌 사람에게 너무 많은 매개변수를 포함하고 생성된 규칙은 너무 많아 대부분이 재미없고 이해도가 낮습니다.