FGrowth算法

一：背景

　　http://www.cnblogs.com/aijianiula/p/5397857.html

　　上节中，总结了频繁项集挖掘的最基本算法:Apriori算法。这篇文章写下它的改进算法FGrowth算法，记得这个算法是香港一位教授提出来的，其思想非常值得借鉴和思考。

二：FGrowth

　　FPGrowth算法采用频繁增长模式，通过建立增长树来产生优化Apriori算法，减少数据库的扫描次数和在必要时候剪枝来减少枚举程度，同样以上面的例子来说明FPGrowth算法优化过程。这里引用《数据挖掘概念和技术》这本书中的图来进行说明。

　　这个算法主要分为两个步骤：

　　1.FP树的构造，2.FP树中频繁项集的挖掘

　　1.FP树的构造

　　FP树的构造过程其实也非常简单，首先建立一个只有null节点的树。然后在数据库中拿出第一个事务，按照事务中的1项集支持度进行排序，从大到小。

交易ID	商品ID列表	交易ID	商品ID列表
T100	I1，I2，I5	T600	I2，I3
T200	I2，I4	T700	I1，I3
T300	I2，I3	T800	I1，I2，I3，I5
T400	I1，I2，I4	T900	I1，I2，I3
T500	I1，I3

如上图的事务表中，取出第一条记录，T100事务｛I1，I2，I3｝，在上节中我们统计过1项集的支持度了，如下图：

项集	支持度计数
{I1}	6
{I2}	7
{I3}	6
{I4}	2
{I5}	2

所以它的T100事务的支持度排序之后为：I2,I1,I5,然后开始创建分支<I2,1>,<I1,1>,<I5,1>。I2作为分支连接到根节点null中，I1链接到I2,I5链接到I1.

第2个事务T200按1项集排序分别为I2,I4，为T200创建分支，I2链接到根，I4链接到I2。因为分支中与T100共享了前缀I2，所以I2的计数加1。因此创建一个新节点<I4,1>链接到<I2,2>节点上。

第3个事务T300 {I2，I3}排序后为I2,I3。为此事务创建分支，I2链接到根节点，I3链接到I2，I2的计数加1，因此<I3，1>链接到<I2,3>

第4个事务T400 {I1,I2,I4}排序后为I2，I1，I4。为此事物创建分支，I2链接到根节点，I1链接到I2,I4链接到I1，I2的计数加1，I1的计数加1,创建节点<I4,1>链接到<I1,2>

......

在FP树的左边创建了一个数组，是为了方便树的遍历，创建一个项头表，每项通过一个节点链指向它在树中的位置。

　　2.FP树中频繁项集的挖掘

　　FP树的挖掘过程是从事务的最后一个开始的，如上图中的fp树，I5是最后一项，那么沿着树的路径，到I5的路径由｛I2,I1,I5:1｝,{I2,I1,I3,I5:1}。那么以I5作为后缀，它的前缀即为{I2,I1:1},{I2,I1,I3:1},也称为I5的条件模式基。使用这些条件模式基来构建I5的fp树，它只包含单个路径｛I2:2，I1:2｝;不包含I3的原因是它的支持度为1，小于我们指定的最小支持度2。那么它的单个路径产生的频繁模式所有组合为：｛I2,I5:2｝,{I1,I5:2},{I2,I1,I5:2}

　　对I4，它的两个前缀形成条件模式基｛I2,I1:1｝,{I2:1},产生一个单节点的条件fp树<I2：2>，所以它导出的频繁模式为｛I2，I4:2｝

　　对I3,它的条件模式基伟｛I2，I1:2｝｛I2:2｝｛I1:2｝它的条件fp树有两个分支<I2:4,I1:2>和{I1:2}产生的模式集为｛I2,I3:4｝{I1,I3:4} {I2,I1,I3:2}

　　对于I1,它的条件模式基伟{I2:4},只有一个，所以产生的频繁模式为{I2,I1:4}

项	条件模式基	条件FP树	产生的频繁模式
I5	{I2,I1:1},{I2,I1,I3:1}	<I2:2,I1:2>	{I2,I5:2},{I1,I5:2},{I2,I1,I5:2}
I4	{I2,I1:1},{I2,1}	<I2:2>	{I2,I4:2}
I3	{I2,I1:2},{I2:2},{I1:2}	<I2:4,I1:2>,<I1:2>	{I2,I3:4},{I1,I3:4},{I2,I1,I3:2}
I1	{I2:4}	<I2:4>	{I2,I1:4}

FGrowth算法的更多相关文章

频繁项挖掘算法Apriori和FGrowth
一:背景介绍最近在公司用spark的平台做了一个购物车的推荐,用到的算法主要是FGrowth算法,它是Apriori算法的升级版,算法的主要目的是找出频繁进行一起购买的商品.本文主要介绍两个算法的背 ...
B树——算法导论(25)
B树 1. 简介在之前我们学习了红黑树,今天再学习一种树--B树.它与红黑树有许多类似的地方,比如都是平衡搜索树,但它们在功能和结构上却有较大的差别. 从功能上看,B树是为磁盘或其他存储设备设计的, ...
分布式系列文章——Paxos算法原理与推导
Paxos算法在分布式领域具有非常重要的地位.但是Paxos算法有两个比较明显的缺点:1.难以理解 2.工程实现更难. 网上有很多讲解Paxos算法的文章,但是质量参差不齐.看了很多关于Paxos的资 ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
红黑树——算法导论(15)
1. 什么是红黑树 (1) 简介上一篇我们介绍了基本动态集合操作时间复杂度均为O(h)的二叉搜索树.但遗憾的是,只有当二叉搜索树高度较低时,这些集合操作才会较快:即当树的高度较高(甚至一种极 ...
散列表(hash table)——算法导论(13)
1. 引言许多应用都需要动态集合结构,它至少需要支持Insert,search和delete字典操作.散列表(hash table)是实现字典操作的一种有效的数据结构. 2. 直接寻址表在介绍散列 ...
虚拟dom与diff算法分析
好文集合: 深入浅出React(四):虚拟DOM Diff算法解析全面理解虚拟DOM,实现虚拟DOM
简单有效的kmp算法
以前看过kmp算法,当时接触后总感觉好深奥啊,抱着数据结构的数啃了一中午,最终才大致看懂,后来提起kmp也只剩下“奥,它是做模式匹配的”这点干货.最近有空,翻出来算法导论看看,原来就是这么简单(先不说 ...
神经网络、logistic回归等分类算法简单实现
最近在github上看到一个很有趣的项目,通过文本训练可以让计算机写出特定风格的文章,有人就专门写了一个小项目生成汪峰风格的歌词.看完后有一些自己的小想法,也想做一个玩儿一玩儿.用到的原理是深度学习里 ...

随机推荐

poj1338 Ugly Numbers 打表, 递推
题意:一个数的质因子能是2, 3, 5, 那么这个数是丑数. 思路: 打表或者递推. 打表: 若该数为丑数,那么一定能被2 或者3, 或者5 整除, 除完之后则为1. #include <ios ...
2890: C--去掉+86
2890: C--去掉+86 Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 210 Solved: 91[Submit][Status][Web Bo ...
[Android 测试] 压力稳定性测试之: Monkey 详解分析脚本(转载)
一.什么是稳定性测试? 通过随机点击屏幕一段时间,看看app会不会奔溃,能不能维持正常运行. 二. Money是什么? Monkey测试是Android平台自动化测试的一种手段,通过Monkey程序模 ...
EOF与feof
在C语言中,或更精确地说成C标准函数库中表示文件结束符(end of file).在while循环中以EOF作为文件结束标志,这种以EOF作为文件结束标志的文件,必须是文本文件.在文本文件中,数据都是 ...
多数据源连接Oracle报错，linux熵池耗尽问题
最近碰到了个很有意思的问题,springboot加载多数据源,遇到了在启动时数据库连接报错的问题. 报错信息: The error occurred while executing a query 然 ...
009 CSS选择器
CSS选择器一.基础选择器 1.通配选择器 * { border: solid; } 匹配文档中所有标签:通常指html.body及body中所有显示类的标签 2.标签选择器 div { backg ...
主DNS服务-正向解析
环境准备最少两台主机一台当DNS服务器,一台当客户机如:192.168.43.7这台主机当DNS服务器,192.168.43.6这台主机当客户机安装DNS服务 yum install -y b ...
python 学习第二周总复习
目录数据类型内置方法数字类型内置方法整型浮点型字符串类型内置方法列表类型内置方法元祖类型内置方法字典类型内置方法集合类型内置方法布尔类型数据类型总结拷贝浅拷贝深拷贝 053 ...
C++ STL容器底层机制
1.vector容器 vector的数据安排以及操作方式,与array非常相似.两者的唯一区别在于空间的运用的灵活性.array是静态空间,一旦配置了就不能改变.vector是动态空间,随着元素的加入 ...
HttpServlet RequestDispatcher sendredirect和forward
Servlet的框架是由两个Java包组成:javax.servlet和javax.servlet.http. 在javax.servlet包中定义了所有的Servlet类都必须实现或扩展的的通用接口 ...

FGrowth算法

FGrowth算法的更多相关文章

随机推荐

热门专题