关联规则挖掘及其应用概述
已发表: 2019-06-05关联规则挖掘,顾名思义,关联规则是简单的 If/Then 语句,有助于发现看似独立的关系数据库或其他数据存储库之间的关系。
大多数机器学习算法都使用数字数据集,因此往往是数学的。 然而,关联规则挖掘适用于非数字的分类数据,并且只需要简单的计数。
关联规则挖掘是一个旨在从各种数据库(如关系数据库、事务数据库和其他形式的存储库)中发现的数据集中观察频繁出现的模式、相关性或关联的过程。
关联规则有 2 个部分:
- 先行词(如果)和
- 结果(然后)
前件是在数据中找到的东西,而后件是与前件一起找到的项目。 例如,看看这个规则:
“如果顾客买面包,他有 70% 的可能性会买牛奶。”
在上述关联规则中,面包是前因,牛奶是后因。 简而言之,可以理解为零售店的关联规则,以更好地定位客户。 如果上述规则是对某些数据集进行彻底分析的结果,那么它不仅可以用于改善客户服务,还可以提高公司的收入。
关联规则是通过彻底分析数据并寻找频繁的 if/then 模式来创建的。 然后,根据以下两个参数,观察到重要的关系:
- 支持:支持表示 if/then 关系在数据库中出现的频率。
- 信心:信心表明这些关系被证实为真的次数。
因此,在具有多个项目的给定交易中,关联规则挖掘主要尝试找到管理这些产品/项目经常一起购买的方式或原因的规则。 例如,花生酱和果冻经常一起购买,因为很多人喜欢做 PB&J 三明治。
关联规则挖掘有时被称为“市场篮子分析”,因为它是关联挖掘的第一个应用领域。 目的是通过随机抽样所有可能性来发现比您期望的更频繁地一起发生的项目关联。 啤酒和尿布的经典轶事将有助于更好地理解这一点。
故事是这样的:周五去商店买尿布的美国年轻男性也有抢一瓶啤酒的倾向。 无论对我们外行来说听起来多么不相关和模糊,关联规则挖掘向我们展示了如何以及为什么!
让我们自己做一些分析,好吗?
假设某 X 商店的零售交易数据库包含以下数据:
- 交易总数:600,000
- 包含尿布的交易:7,500 (1.25%)
- 包含啤酒的交易:60,000(10%)
- 包含啤酒和尿布的交易:6,000 (1.0%)
从上面的数据我们可以得出结论,如果啤酒和尿布之间没有关系(即它们在统计上是独立的),那么我们也只有 10% 的尿布购买者会购买啤酒。
然而,尽管看起来令人惊讶,但数据告诉我们,购买尿布的人中有 80% (=6000/7500) 也购买啤酒。
这比预期的概率高出 8 倍。 这个增加的因素被称为提升——这是我们观察到的项目同时出现的频率与预期频率的比率。
我们是如何确定电梯的?
只需计算数据库中的事务并执行简单的数学运算。
因此,对于我们的示例,一个似是而非的关联规则可以说明购买尿布的人也会购买升力因子为 8 的啤酒。如果我们从数学上讲,升力可以计算为两个项目的联合概率 x和 y,除以它们的概率的乘积。
升力 = P(x,y)/[P(x)P(y)]
但是,如果这两个项目在统计上是独立的,那么这两个项目的联合概率将等于它们概率的乘积。 或者,换句话说,
P(x,y)=P(x)P(y),
这使得提升因子 = 1。这里值得一提的是,反相关甚至可以产生小于 1 的提升值——这对应于很少一起出现的互斥项目。
关联规则挖掘帮助数据科学家发现了他们从未知道存在的模式。
数据科学统计学基础
目录
让我们看一下关联规则挖掘有很大帮助的一些领域:
市场篮子分析:
这是关联挖掘最典型的例子。 大多数超市使用条形码扫描仪收集数据。 该数据库被称为“购物篮”数据库,包含大量过去交易的记录。 一条记录列出了客户在一次销售中购买的所有物品。 知道哪些群体倾向于哪一组商品,这些商店可以自由地调整商店布局和商店目录,以最佳地相互关联。

医学诊断:
医学诊断中的关联规则可用于帮助医生治愈患者。 诊断不是一个简单的过程,并且存在一定范围的错误,可能导致不可靠的最终结果。 使用关系关联规则挖掘,我们可以识别出与各种因素和症状有关的疾病发生的概率。 此外,使用学习技术,可以通过添加新症状和定义新体征与相应疾病之间的关系来扩展该界面。
人口普查数据:
每个政府都有大量的人口普查数据。 这些数据可用于规划高效的公共服务(教育、健康、交通)以及帮助公共企业(建立新工厂、购物中心,甚至营销特定产品)。 关联规则挖掘和数据挖掘的这种应用在支持健全的公共政策和实现民主社会的有效运作方面具有巨大的潜力。
蛋白质序列:
蛋白质是由二十种氨基酸组成的序列。 每种蛋白质都具有独特的 3D 结构,这取决于这些氨基酸的序列。 序列中的微小变化会导致结构发生变化,从而可能改变蛋白质的功能。 蛋白质功能对其氨基酸序列的这种依赖性一直是重要研究的主题。 早些时候人们认为这些序列是随机的,但现在认为它们不是。 Nitin Gupta、Nitin Mangal、Kamal Tiwari 和 Pabitra Mitra已经破译了蛋白质中存在的不同氨基酸之间关联的性质。 对这些关联规则的了解和理解将在人工蛋白质的合成过程中非常有帮助。
有了这个,我希望我能够澄清你需要知道的关于关联规则挖掘的一切。
如果您碰巧有任何疑问、疑问或建议 - 请在下面的评论中留言!
关联规则挖掘应用有哪些例子?
用于从存储在各种数据库(包括关系数据库、事务数据库和其他形式的数据存储库)中的数据集中识别常见模式、相关性、链接和因果结构的技术称为关联规则挖掘。 关联规则挖掘允许在大量数据项之间发现有趣的联系和联系。 此规则指定特定项目在事务中出现的频率。 一个很好的例子是基于市场的分析。 关联规则在用于分析和预测消费者行为的数据挖掘中至关重要。 客户分析、市场购物篮分析、产品集群、目录设计和商店布局都是使用它们的示例。 为了创建机器学习程序,程序员使用关联规则。
说到挖掘关联规则,为什么 Apriori 原则有效?
对于频繁项集挖掘和关联规则学习,Apriori 是一种关系数据库算法。 它的工作原理是在数据库中找到最常见的单个项目,然后将它们扩展到越来越大的项目集,只要这些项目集出现的频率足够高。 Apriori 方法旨在与事务数据库一起使用,它通过使用频繁项集生成关联规则。 这些关联标准用于确定两个事物之间连接的强弱。 我们可以通过使用 Apriori 概念来减少需要评估的项目集的数量。
关联规则挖掘的缺点是什么?
关联规则算法的主要缺点是获取的规则枯燥,发现的规则数量多,算法性能低。 对于不是数据挖掘专家的人来说,所采用的算法包含的参数太多,生成的规则太多,其中大多数是无趣的,可理解性低。