第12章使用FP-growth算法来高效发现频繁项集

前言

在第11章时我们已经介绍了用 Apriori 算法发现 频繁项集 与 关联规则。
本章将继续关注发现 频繁项集 这一任务，并使用 FP-growth 算法更有效的挖掘 频繁项集。

FP-growth 算法简介

一种非常好的发现频繁项集算法。
基于Apriori算法构建,但是数据结构不同，使用叫做 FP树 的数据结构结构来存储集合。下面我们会介绍这种数据结构。

FP-growth 算法步骤

基于数据构建FP树
从FP树种挖掘频繁项集

FP树介绍

FP树的节点结构如下:

class treeNode:

    def __init__(self, nameValue, numOccur, parentNode):

        self.name = nameValue     # 节点名称

        self.count = numOccur     # 节点出现次数

        self.nodeLink = None      # 不同项集的相同项通过nodeLink连接在一起

        # needs to be updated

        self.parent = parentNode  # 指向父节点

        self.children = {}        # 存储叶子节点

FP-growth 原理

基于数据构建FP树

步骤1:

遍历所有的数据集合，计算所有项的支持度。
丢弃非频繁的项。
基于支持度降序排序所有的项。
所有数据集合按照得到的顺序重新整理。
重新整理完成后，丢弃每个集合末尾非频繁的项。

步骤2: 6. 读取每个集合插入FP树中，同时用一个头部链表数据结构维护不同集合的相同项。
最终得到下面这样一棵FP树

从FP树中挖掘出频繁项集

步骤3:

对头部链表进行降序排序
对头部链表节点从小到大遍历，得到条件模式基，同时获得一个频繁项集。如上图，从头部链表 t 节点开始遍历，t 节点加入到频繁项集。找到以 t 节点为结尾的路径如下: 去掉FP树中的t节点，得到条件模式基<左边路径,左边是值>[z,x,y,s,t]:2，[z,x,y,r,t]:1 。条件模式基的值取决于末尾节点 t ，因为 t 的出现次数最小，一个频繁项集的支持度由支持度最小的项决定。所以 t 节点的条件模式基的值可以理解为对于以 t 节点为末尾的前缀路径出现次数。
条件模式基继续构造条件 FP树，得到频繁项集，和之前的频繁项组合起来，这是一个递归遍历头部链表生成FP树的过程，递归截止条件是生成的FP树的头部链表为空。根据步骤 2 得到的条件模式基 [z,x,y,s,t]:2，[z,x,y,r,t]:1 作为数据集继续构造出一棵FP树，计算支持度，去除非频繁项，集合按照支持度降序排序，重复上面构造FP树的步骤。最后得到下面 t-条件FP树 : 然后根据 t-条件FP树的头部链表进行遍历，从 y 开始。得到频繁项集 ty 。然后又得到 y 的条件模式基，构造出 ty的条件FP树，即 ty-条件FP树。继续遍历ty-条件FP树的头部链表，得到频繁项集 tyx，然后又得到频繁项集 tyxz. 然后得到构造tyxz-条件FP树的头部链表是空的，终止遍历。我们得到的频繁项集有 t->ty->tyz->tyzx，这只是一小部分。

条件模式基:头部链表中的某一点的前缀路径组合就是条件模式基，条件模式基的值取决于末尾节点的值。
条件FP树:以条件模式基为数据集构造的FP树叫做条件FP树。

FP-growth 算法优缺点:

* 优点： 1. 因为 FP-growth 算法只需要对数据集遍历两次，所以速度更快。

        2. FP树将集合按照支持度降序排序，不同路径如果有相同前缀路径共用存储空间，使得数据得到了压缩。

        3. 不需要生成候选集。

        4. 比Apriori更快。

* 缺点： 1. FP-Tree第二次遍历会存储很多中间过程的值，会占用很多内存。

        2. 构建FP-Tree是比较昂贵的。

* 适用数据类型：标称型数据(离散型数据)。

FP-growth 代码讲解

完整代码地址: https://github.com/apachecn/MachineLearning/blob/master/src/python/12.FrequentPattemTree/fpGrowth.py

main 方法大致步骤:

if __name__ == "__main__":

    simpDat = loadSimpDat()                       #加载数据集。

    initSet = createInitSet(simpDat)              #对数据集进行整理，相同集合进行合并。

    myFPtree, myHeaderTab = createTree(initSet, 3)#创建FP树。

    freqItemList = []

    mineTree(myFPtree, myHeaderTab, 3, set([]), freqItemList) #递归的从FP树中挖掘出频繁项集。

    print freqItemList

大家看懂原理，再仔细跟踪一下代码。基本就没有问题了。

作者：mikechengwei
GitHub地址: https://github.com/apachecn/MachineLearning
版权声明：欢迎转载学习 => 请标注信息来源于 ApacheCN

【机器学习实战】第12章使用FP-growth算法来高效发现频繁项集的更多相关文章

【机器学习实战】第12章使用 FP-growth 算法来高效发现频繁项集
第12章使用FP-growth算法来高效发现频繁项集前言在第11章时我们已经介绍了用 Apriori 算法发现频繁项集与关联规则.本章将继续关注发现频繁项集这一任务,并使用 FP- ...
机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
机器学习实战（Machine Learning in Action）学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
FP - growth 发现频繁项集
FP - growth是一种比Apriori更高效的发现频繁项集的方法.FP是frequent pattern的简称,即常在一块儿出现的元素项的集合的模型.通过将数据集存储在一个特定的FP树上,然后发 ...
FP-growth算法发现频繁项集（一）——构建FP树
常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FP-growth.Apriori通过不断的构造候选集.筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数 ...
机器学习（十五）— Apriori算法、FP Growth算法
1.Apriori算法 Apriori算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策. Apriori算法采用了迭代的方法,先搜 ...
机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...
【机器学习实战学习笔记(1-1)】k-近邻算法原理及python实现
笔者本人是个初入机器学习的小白,主要是想把学习过程中的大概知识和自己的一些经验写下来跟大家分享,也可以加强自己的记忆,有不足的地方还望小伙伴们批评指正,点赞评论走起来~ 文章目录 1.k-近邻算法概述 ...
Frequent Pattern 挖掘之二(FP Growth算法)（转）
FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对.为了达到这样的效果,它采用了一种简洁的数据结 ...

随机推荐

Jenkins定时任务
Jenkins配置定时任务选中Job名称--配置—构建触发器—勾选“Build periodically” 如图中配置所示:该任务每天上午7点定时执行一次. 官方说明翻译 MINUTE HOUR D ...
如何用Python脚本从文件读取数据？
最近自学Python的进度比较慢,工作之余断断续续的看着效率比较低,看来还是要狠下心来每天进步一点点. 还记得前段时间陈大猫提了一口"先实现用python读取本地文件",碰巧今天看 ...
hadoop 基本命令
hdfs相关 1.查看HDFS文件目录 hadoop fs -ls / mapreduce相关 1.查看mapred job mapred job -list hadoop job -list Use ...
#翻译#原文来自Database.System.Concepts(6th.Edition.2010)2.6Relational Operations，原文作者Abraham Silberschaz ， Henry F. Korth ， S. Sudarshan
2.6关系操作所有的过程关系查询语言都提供一组操作,这些操作可以应用于单个关系或一对关系.这些操作具有良好的和期望的属性,它们的结果总是一个单一的关系.这个属性允许一个以模块化的方式组合其中的几个操 ...
bzoj1027 [HNOI2004]打鼹鼠
[HNOI2004]打鼹鼠 2014年5月2日2,8605 Description 鼹鼠是一种很喜欢挖洞的动物,但每过一定的时间,它还是喜欢把头探出到地面上来透透气的.根据这个特点阿Q编写了一个打鼹鼠 ...
《算法导论》学习总结 — XX.第22章图的基本算法
BFS(广搜): 广搜就是广度优先搜索,根据名字可以知道,是通过广度来遍历图,也就是层次遍历吧. 在这里以及下面的DFS(深搜),都用到了颜色WHITE,GRAY,BLACK,不过作用不同,具体分别再 ...
OWLQN算法
一.BFGS算法算法思想如下: Step1 取初始点,初始正定矩阵,允许误差,令: Step2 计算: Step3 计算,使得 : Step4 令: Step5 如果,则取为 ...
ActiveMQ——activemq的安装详情，修改密码
1.安装下载 http://activemq.apache.org/download-archives.html, [推荐]ActiveMQ 5.13.4 Release与jdk1.7搭配(其它版本 ...
微服务架构中API网关的角色
[上海尚学堂的话]:本文主要讲述了Mashape的首席技术执行官Palladino对API网关的详细介绍,以及API网关在微服务中所起的作用,同时介绍了Mashape的一款开源API网关Kong. A ...
转载：C#特性-表达式树
原文地址:http://www.cnblogs.com/tianfan/ 表达式树基础刚接触LINQ的人往往觉得表达式树很不容易理解.通过这篇文章我希望大家看到它其实并不像想象中那么难.您只要有普通 ...

【机器学习实战】第12章 使用FP-growth算法来高效发现频繁项集

第12章 使用FP-growth算法来高效发现频繁项集

前言

FP-growth 算法简介

FP-growth 算法步骤

FP树 介绍

FP-growth 原理

FP-growth 代码讲解

【机器学习实战】第12章 使用FP-growth算法来高效发现频繁项集的更多相关文章

随机推荐

热门专题

【机器学习实战】第12章使用FP-growth算法来高效发现频繁项集

第12章使用FP-growth算法来高效发现频繁项集

FP树介绍

【机器学习实战】第12章使用FP-growth算法来高效发现频繁项集的更多相关文章