数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）

在各种数据挖掘算法中，关联规则挖掘算是比較重要的一种，尤其是受购物篮分析的影响，关联规则被应用到非常多实际业务中，本文对关联规则挖掘做一个小的总结。

首先，和聚类算法一样，关联规则挖掘属于无监督学习方法，它描写叙述的是在一个事物中物品间同一时候出现的规律的知识模式，现实生活中，比方超市购物时，顾客购买记录经常隐含着非常多关联规则。比方购买圆珠笔的顾客中有65%也购买了笔记本。利用这些规则。商场人员能够非常好的规划商品摆放问题；

为叙述方便。设R= { I1,I2 ......Im} 是一组物品集，W 是一组事务集。W 中的每一个事务T 是一组物品，T是R的子集。

如果有一个物品集A，一个事务T，关联规则是例如以下形式的一种蕴含：A→B，当中A、B 是两组物品，A属于I子集，B属于I子集。

在关联规则中设计4个经常使用关键指标

1.置信度(confidence)

定义：设W中支持物品集A的事务中。有c ％的事务同一时候也支持物品集B，c ％称为关联规则A→B 的可信度。

通俗解释：简单地说，可信度就是指在出现了物品集A 的事务T 中，物品集B 也同一时候出现的概率有多大。

实例说明：上面所举的圆珠笔和笔记本的样例。该关联规则的可信度就回答了这样一个问题：假设一个顾客购买了圆珠笔，那么他也购买笔记本的可能性有多大呢？在上述样例中，购买圆珠笔的顾客中有65％的人购买了笔记本, 所以可信度是65％。

概率描写叙述：物品集A对物品集B的置信度confidence（A==>B）=P（A|B）

2.支持度(support)

定义：设W 中有s ％的事务同一时候支持物品集A 和B，s ％称为关联规则A→B 的支持度。

支持度描写叙述了A 和B 这两个物品集的并集C 在全部的事务中出现的概率有多大。

通俗解释：简单地说。A==>B的支持度就是指物品集A和物品集B同一时候出现的概率。

实例说明：某天共同拥有1000 个顾客到商场购买物品，当中有150个顾客同一时候购买了圆珠笔和笔记本，那么上述的关联规则的支持度就是15％。

概率描写叙述：物品集A对物品集B的支持度support（A==>B）=P（A n B）

3.期望置信度（Expected confidence）

定义：设W 中有e ％的事务支持物品集B，e ％称为关联规则A→B 的期望可信度度。

通俗解释：期望可信度描写叙述了在没有不论什么条件影响时，物品集B 在全部事务中出现的概率有多大。

实例说明：假设某天共同拥有1000 个顾客到商场购买物品，当中有250 个顾客购买了圆珠笔，则上述的关联规则的期望可信度就是25
％。

概率描写叙述：物品集A对物品集B的期望置信度为support（B）=P（B）

4.提升度（lift）

定义：提升度是可信度与期望可信度的比值

通俗解释：提升度反映了“物品集A的出现”对物品集B的出现概率发生了多大的变化。

实例说明：上述的关联规则的提升度=65%/25%=2.6

概率描写叙述：物品集A对物品集B的期望置信度为lift（A==>B）=confidence（A==>B）/support(B)=p(B|A)/p(B)

总之，可信度是对关联规则的精确度的衡量，支持度是对关联规则重要性的衡量。支持度说明了这条规则在全部事务中有多大的代表性。显然支持度越大，关联规则越重要。

有些关联规则可信度尽管非常高，但支持度却非常低。说明该关联规则有用的机会非常小，因此也不重要。

在关联规则挖掘中。满足一定最小置信度以及支持度的集合成为频繁集（frequent itemset），或者强关联。关联规则挖掘则是一个寻找频繁集的过程。

关联规则挖掘的相关算法

1.Apriori算法：使用候选项集找频繁项集

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里。全部支持度大于最小支持度的项集称为频繁项集，简称频集。

该算法的基本思想是：首先找出全部的频集，这些项集出现的频繁性至少和提前定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则。产生仅仅包括集合的项的全部规则，当中每一条规则的右部仅仅有一项。这里採用的是中规则的定义。一旦这些规则被生成。那么仅仅有那些大于用户给定的最小可信度的规则才被留下来。

为了生成全部频集，使用了递推的方法。

可能产生大量的候选集,以及可能须要反复扫描数据库，是Apriori算法的两大缺点。

2.基于划分的算法

Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块，每次单独考虑一个分块并对它生成全部的频集。然后把产生的频集合并。用来生成全部可能的频集，最后计算这些项集的支持度。这里分块的大小选择要使得每一个分块能够被放入主存，每一个阶段仅仅需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是能够高度并行的，能够把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后。处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法运行时间的主要瓶颈；而还有一方面，每一个独立的处理器生成频集的时间也是一个瓶颈。

3.FP-树频集算法

针对Apriori算法的固有缺陷，J. Han等提出了不产生候选挖掘频繁项集的方法：FP-树频集算法。

採用分而治之的策略。在经过第一遍扫描之后，把数据库中的频集压缩进一棵频繁模式树（FP-tree），同一时候依旧保留当中的关联信息，随后再将FP-tree分化成一些条件库，每一个库和一个长度为1的频集相关，然后再对这些条件库分别进行挖掘。

当原始数据量非常大的时候，也能够结合划分的方法,使得一个FP-tree能够放入主存中。实验表明，FP-growth对不同长度的规则都有非常好的适应性。同一时候在效率上较之Apriori算法有巨大的提高。

数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）的更多相关文章

数据挖掘算法之-关联规则挖掘(Association Rule)
在数据挖掘的知识模式中,关联规则模式是比较重要的一种.关联规则的概念由Agrawal.Imielinski.Swami 提出,是数据中一种简单但很实用的规则.关联规则模式属于描述型模式,发现关联规则的 ...
数据挖掘算法之关联规则挖掘（一）apriori算法
关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用举个简单的例子如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+... ...
数据挖掘算法之关联规则挖掘（二）FPGrowth算法
之前介绍的apriori算法中因为存在许多的缺陷,例如进行大量的全表扫描和计算量巨大的自然连接,所以现在几乎已经不再使用在mahout的算法库中使用的是PFP算法,该算法是FPGrowth算法的分布 ...
数据挖掘系列 (1) 关联规则挖掘基本概念与 Aprior 算法
转自:http://www.cnblogs.com/fengfenggirl/p/associate_apriori.html 数据挖掘系列 (1) 关联规则挖掘基本概念与 Aprior 算法我计划 ...
数据挖掘进阶之关联规则挖掘FP-Growth算法
数据挖掘进阶之关联规则挖掘FP-Growth算法绪近期在写论文方面涉及到了数据挖掘,需要通过数据挖掘方法实现软件与用户间交互模式的获取.分析与分类研究.主要涉及到关联规则与序列模式挖掘两块.关联规 ...
(转载)微软数据挖掘算法:Microsoft 关联规则分析算法(7)
前言本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:微软数据挖掘算法:Microsoft 决策树分析算法(1).微软数据挖掘算法:Microsoft 聚类分析算法(2).微软数据挖掘算法: ...
数据算法 --hadoop/spark数据处理技巧 --（5.移动平均 6. 数据挖掘之购物篮分析MBA）
五.移动平均多个连续周期的时间序列数据平均值(按相同时间间隔得到的观察值,如每小时一次或每天一次)称为移动平均.之所以称之为移动,是因为随着新的时间序列数据的到来,要不断重新计算这个平均值,由于会删 ...
Apriori算法在购物篮分析中的运用
购物篮分析是一个很经典的数据挖掘案例,运用到了Apriori算法.下面从网上下载的一超市某月份的数据库,利用Apriori算法进行管理分析.例子使用Python+MongoDB 处理过程1 数据建模( ...
R语言和数据分析十大：购物篮分析
提到数据挖掘,我们的第一个反应是之前的啤酒和尿布的故事听说过,这个故事是一个典型的数据挖掘关联规则.篮分析的传统线性回归之间的主要差别的差别,对于离散数据的相关性分析: 常见的关联规则: 关联规则:牛 ...

随机推荐

深入了解Token认证的来龙去脉
Token 是在服务端产生的,如果前端使用用户名/密码向服务端请求认证,服务端认证成功,那么在服务端会返回 Token 给前端.前端可以在每次请求的时候带上 Token 证明自己的合法地位. 不久 ...
使用BindingList来实现DataGridview数据源为list时的动态增删改
当DataGridview的数据源list的时候,对list进行操作后重新绑定,数据并不会更新使用BindingList能很好的解决这个问题(framework2.0新增) 例如,使用list时候的 ...
微信小程序video组件出现无法播放或卡顿
微信小程序使用video组件播放视频的时候,会出现卡顿或者无法播放的问题,加一个custom-cache=”true“即可解决,这个属性文档上没有,是从小程序开发社区中get到的.
vue1.0.js的初步学习
vue.js是一个mvvm框架 {{.....}} 常用模板渲染方式 v-model :将对应变量的值的变化反映到input的vaule中 vue.js 的一个组件 .vue文件包含<te ...
（转）基于MVC4+EasyUI的Web开发框架经验总结（8）--实现Office文档的预览
http://www.cnblogs.com/wuhuacong/p/3871991.html 基于MVC4+EasyUI的Web开发框架经验总结(8)--实现Office文档的预览在博客园很多文章 ...
（转）基于MVC4+EasyUI的Web开发框架形成之旅--框架总体界面介绍
http://www.cnblogs.com/wuhuacong/p/3344096.html 在前面介绍了一些关于最新基于MVC4+EasyUI的Web开发框架文章,虽然Web开发框架的相关技术文章 ...
Windows批量查找文件
for /r 目录名 %i in (匹配模式1,匹配模式2) do @echo %i for /r SATA %i in (*.txt) do @echo %i D:\REY\test>for ...
无法打开文件"CChart_d.lib"
把4个.lib文件删掉重新加一遍就好了
input type=”file“ change事件只执行一次的问题
js解决办法 HTML:<input id="file",type="file" onchange="upload()" /> ...
[luogu2052 NOI2011] 道路修建 (树形dp)
传送门 Description 在 W 星球上有 n 个国家.为了各自国家的经济发展,他们决定在各个国家之间建设双向道路使得国家之间连通.但是每个国家的国王都很吝啬,他们只愿意修建恰好 n – 1 ...

数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）

数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）的更多相关文章

随机推荐

热门专题