關聯規則挖掘及其應用概述

已發表: 2019-06-05

關聯規則挖掘,顧名思義,關聯規則是簡單的 If/Then 語句,有助於發現看似獨立的關係數據庫或其他數據存儲庫之間的關係。

大多數機器學習算法都使用數字數據集,因此往往是數學的。 然而,關聯規則挖掘適用於非數字的分類數據,並且只需要簡單的計數。

關聯規則挖掘是一個旨在從各種數據庫(如關係數據庫、事務數據庫和其他形式的存儲庫)中發現的數據集中觀察頻繁出現的模式、相關性或關聯的過程。

關聯規則有 2 個部分:

  • 先行詞(如果)和
  • 結果(然後)

前件是在數據中找到的東西,而後件是與前件一起找到的項目。 例如,看看這個規則:

“如果顧客買麵包,他有 70% 的可能性會買牛奶。”

在上述關聯規則中,麵包是前因,牛奶是後因。 簡而言之,可以理解為零售店的關聯規則,以更好地定位客戶。 如果上述規則是對某些數據集進行徹底分析的結果,那麼它不僅可以用於改善客戶服務,還可以提高公司的收入。
關聯規則是通過徹底分析數據並尋找頻繁的 if/then 模式來創建的。 然後,根據以下兩個參數,觀察到重要的關係:

  1. 支持:支持表示 if/then 關係在數據庫中出現的頻率。
  2. 信心:信心表明這些關係被證實為真的次數。

因此,在具有多個項目的給定交易中,關聯規則挖掘主要嘗試找到管理這些產品/項目經常一起購買的方式或原因的規則。 例如,花生醬和果凍經常一起購買,因為很多人喜歡做 PB&J 三明治。

關聯規則挖掘有時被稱為“市場籃子分析”,因為它是關聯挖掘的第一個應用領域。 目的是通過隨機抽樣所有可能性來發現比您期望的更頻繁地一起發生的項目關聯。 啤酒和尿布的經典軼事將有助於更好地理解這一點。

故事是這樣的:週五去商店買尿布的美國年輕男性也有搶一瓶啤酒的傾向。 無論對我們外行來說聽起來多麼不相關和模糊,關聯規則挖掘向我們展示瞭如何以及為什麼!
讓我們自己做一些分析,好嗎?
假設某 X 商店的零售交易數據庫包含以下數據:

  • 交易總數:600,000
  • 包含尿布的交易:7,500 (1.25%)
  • 包含啤酒的交易:60,000(10%)
  • 包含啤酒和尿布的交易:6,000 (1.0%)

從上面的數據我們可以得出結論,如果啤酒和尿布之間沒有關係(即它們在統計上是獨立的),那麼我們也只有 10% 的尿布購買者會購買啤酒。

然而,儘管看起來令人驚訝,但數據告訴我們,購買尿布的人中有 80% (=6000/7500) 也購買啤酒
這比預期的概率高出 8 倍。 這個增加的因素被稱為提升——這是我們觀察到的項目同時出現的頻率與預期頻率的比率。

我們是如何確定電梯的?
只需計算數據庫中的事務並執行簡單的數學運算。
因此,對於我們的示例,一個似是而非的關聯規則可以說明購買尿布的人也會購買升力因子為 8 的啤酒。如果我們從數學上講,升力可以計算為兩個項目的聯合概率 x和 y,除以它們的概率的乘積。
升力 = P(x,y)/[P(x)P(y)]
但是,如果這兩個項目在統計上是獨立的,那麼這兩個項目的聯合概率將等於它們概率的乘積。 或者,換句話說,
P(x,y)=P(x)P(y),
這使得提升因子 = 1。這裡值得一提的是,反相關甚至可以產生小於 1 的提升值——這對應於很少一起出現的互斥項目。
關聯規則挖掘幫助數據科學家發現了他們從未知道存在的模式。
數據科學統計學基礎

目錄

讓我們看一下關聯規則挖掘有很大幫助的一些領域:

  1. 市場籃子分析:

這是關聯挖掘最典型的例子。 大多數超市使用條形碼掃描儀收集數據。 該數據庫被稱為“購物籃”數據庫,包含大量過去交易的記錄。 一條記錄列出了客戶在一次銷售中購買的所有物品。 知道哪些群體傾向於哪一組商品,這些商店可以自由地調整商店佈局和商店目錄,以最佳地相互關聯。

  1. 醫學診斷:

醫學診斷中的關聯規則可用於幫助醫生治愈患者。 診斷不是一個簡單的過程,並且存在一定範圍的錯誤,可能導致不可靠的最終結果。 使用關係關聯規則挖掘,我們可以識別出與各種因素和症狀有關的疾病發生的概率。 此外,使用學習技術,可以通過添加新症狀和定義新體徵與相應疾病之間的關係來擴展該界面。

  1. 人口普查數據:

每個政府都有大量的人口普查數據。 這些數據可用於規劃高效的公共服務(教育、健康、交通)以及幫助公共企業(建立新工廠、購物中心,甚至營銷特定產品)。 關聯規則挖掘和數據挖掘的這種應用在支持健全的公共政策和實現民主社會的有效運作方面具有巨大的潛力。

  1. 蛋白質序列:

蛋白質是由二十種氨基酸組成的序列。 每種蛋白質都具有獨特的 3D 結構,這取決於這些氨基酸的序列。 序列中的微小變化會導致結構發生變化,從而可能改變蛋白質的功能。 蛋白質功能對其氨基酸序列的這種依賴性一直是重要研究的主題。 早些時候人們認為這些序列是隨機的,但現在認為它們不是。 Nitin Gupta、Nitin Mangal、Kamal Tiwari 和 Pabitra Mitra已經破譯了蛋白質中存在的不同氨基酸之間關聯的性質。 對這些關聯規則的了解和理解將在人工蛋白質的合成過程中非常有幫助。

有了這個,我希望我能夠澄清你需要知道的關於關聯規則挖掘的一切。
如果您碰巧有任何疑問、疑問或建議 - 請在下面的評論中留言!

關聯規則挖掘應用有哪些例子?

用於從存儲在各種數據庫(包括關係數據庫、事務數據庫和其他形式的數據存儲庫)中的數據集中識別常見模式、相關性、鏈接和因果結構的技術稱為關聯規則挖掘。 關聯規則挖掘允許在大量數據項之間發現有趣的聯繫和聯繫。 此規則指定特定項目在事務中出現的頻率。 一個很好的例子是基於市場的分析。 關聯規則在用於分析和預測消費者行為的數據挖掘中至關重要。 客戶分析、市場購物籃分析、產品集群、目錄設計和商店佈局都是使用它們的示例。 為了創建機器學習程序,程序員使用關聯規則。

說到挖掘關聯規則,為什麼 Apriori 原則有效?

對於頻繁項集挖掘和關聯規則學習,Apriori 是一種關係數據庫算法。 它的工作原理是在數據庫中找到最常見的單個項目,然後將它們擴展到越來越大的項目集,只要這些項目集出現得足夠頻繁。 Apriori 方法旨在與事務數據庫一起使用,它通過使用頻繁項集生成關聯規則。 這些關聯標準用於確定兩個事物之間連接的強弱。 我們可以通過使用 Apriori 概念來減少需要評估的項目集的數量。

關聯規則挖掘的缺點是什麼?

關聯規則算法的主要缺點是獲取的規則枯燥,發現的規則數量多,算法性能低。 對於不是數據挖掘專家的人來說,所採用的算法包含的參數太多,產生的規則也太多,其中大多數是無趣的,可理解性低。