FP - growth 发现频繁项集

　　FP - growth是一种比Apriori更高效的发现频繁项集的方法。FP是frequent pattern的简称，即常在一块儿出现的元素项的集合的模型。通过将数据集存储在一个特定的FP树上，然后发现频繁项集或者频繁项对。通常，FP-growth算法的性能比Apriori好两个数量级以上。

　　FP树与一般的树结构类似，但它通过链接（Link）来连接相似元素，被连起来的元素项可以看成一个链表。

上图是一棵FP树，一个元素项可以在一棵FP树种出现多次，FP树的节点会存储项集的出现频率，每个项集会以路径的方式存储在树中。存在相似元素的集合会共享树的一部分，只有当集合之间完全不同时，树才会分叉。树节点上给出集合中的单个元素及其在序列中的出现次数，路径会给出该序列的出现次数。相似元素之间的链接即节点链接，用于快速发现相似项的位置。

　　表中给出了生成上面FP树（支持度>=3）的数据集。在所有数据集中，元素项z出现了5次，集合{r，z}出现了1次，于是可以得出结论：z一定是自己本身或者和其他符号一起出现了4 次。集合{t,s,y,x,z}出现了2次，集合{t,r,y,x,z}出现1次，z自身出现了1次。因为使用的最小支持度是3，所以q,p等小于3次的元素没有出现在FP树中。

　　FP树的构建过程中，需要对原始数据集进行两次扫描(Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁)，第一遍对所有元素项的出现次数进行计数，用于统计每个元素的出现频率，Apriori算法告诉我们，如果某元素是不频繁的，那么包含该元素的超集也是不频繁的，所以就不需要考虑这些超集了。第二遍用于构建FP树，扫描中只考虑哪些频繁元素。

FP树的节点的类定义如下：

class treeNode:

    def __init__(self, nameValue, numOccur, parentNode):

        self.name = nameValue

        self.count = numOccur

        self.nodeLink = None

        self.parent = parentNode      #needs to be updated

        self.children = {} 

    def inc(self, numOccur):

        self.count += numOccur

    def disp(self, ind=1):

        print '  '*ind, self.name, ' ', self.count

        for child in self.children.values():

            child.disp(ind+1)

　　类中包含用于存放节点名字的变量name和一个个记数值count，nodeLink变量用于链接相似的元素项。parent变量用于指向当前节点的父节点，children变量为一个字典类型，用于存放节点的子节点。inc()用于对count进行计数，disp()用于将树以文本方式显示。

　　构建FP树，还需要一个字典类型的头指针表来指向给定类型的第一个实例。利用头指针表，可以快速访问FP树中一个给定类型的所有元素，同时，头指针表还用来保存FP树中每类元素的总数。

　　构建FP树的步骤。第一次遍历数据集，计算得到每个元素项出现的频率，接下来，去掉不满足最小支持度的元素项。第二次遍历构建FP树，读入每个项集并将其添加到一条已经存在的路径中，如果该路径不存在，则创建一条心路径。每个数据集都是一个无序集合，假设有集合{z,x,y}和{y,z,r}，那么在FP树中，相同项会只表示一次。为解决此问题，在将集合添加到树之前，需要对每个集合进行排序，排序基于元素项的绝对出现频率来进行。

　　在对集合过滤和排序之后，就可以构建FP树了。从空集开始，向其中不断添加频繁项集。过滤、排序后的事物一次添加到树中，如果树中已存在现有元素，则增加现有元素的值；如果现有元素不存在，则向树添加一个分支。

FP树的构建代码：

def createTree(dataSet, minSup=1): #create FP-tree from dataset but don't mine

    headerTable = {}

    #go over dataSet twice

    for trans in dataSet:#first pass counts frequency of occurance

        for item in trans:

            headerTable[item] = headerTable.get(item, 0) + dataSet[trans]

    for k in headerTable.keys():  #remove items not meeting minSup

        if headerTable[k] < minSup:

            del(headerTable[k])

    freqItemSet = set(headerTable.keys())

    #print 'freqItemSet: ',freqItemSet

    if len(freqItemSet) == 0: return None, None  #if no items meet min support -->get out

    for k in headerTable:

        headerTable[k] = [headerTable[k], None] #reformat headerTable to use Node link

    #print 'headerTable: ',headerTable

    retTree = treeNode('Null Set', 1, None) #create tree

    for tranSet, count in dataSet.items():  #go through dataset 2nd time

        localD = {}

        for item in tranSet:  #put transaction items in order

            if item in freqItemSet:

                localD[item] = headerTable[item][0]

        if len(localD) > 0:

            orderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: p[1], reverse=True)]

            updateTree(orderedItems, retTree, headerTable, count)#populate tree with ordered freq itemset

    return retTree, headerTable #return tree and header table

def updateTree(items, inTree, headerTable, count):

    if items[0] in inTree.children:#check if orderedItems[0] in retTree.children

        inTree.children[items[0]].inc(count) #incrament count

    else:   #add items[0] to inTree.children

        inTree.children[items[0]] = treeNode(items[0], count, inTree)

        if headerTable[items[0]][1] == None: #update header table

            headerTable[items[0]][1] = inTree.children[items[0]]

        else:

            updateHeader(headerTable[items[0]][1], inTree.children[items[0]])

    if len(items) > 1:#call updateTree() with remaining ordered items

        updateTree(items[1::], inTree.children[items[0]], headerTable, count)

def updateHeader(nodeToTest, targetNode):   #this version does not use recursion

    while (nodeToTest.nodeLink != None):    #Do not use recursion to traverse a linked list!

        nodeToTest = nodeToTest.nodeLink

    nodeToTest.nodeLink = targetNode

　　在FP树构建完成之后，就可以利用FP树挖掘频繁项集了。思路与Apriori算法大致相似，基于FP树，首先从单元素项集合开始，然后在此基础上逐步构建更大的集合。

从FP树中抽取频繁项集的三个基本步骤：

1. 从FP树中获得条件模式基。

2.利用条件模式基，构建一个条件FP树。

3.迭代重复步骤1和2，直到树包含一个元素项为止。

条件模式基（conditional pattern base）是以所查找元素项为结尾的路径集合。每一条路径其实都是一条前缀路径，一条前缀路径是介于所查找元素项与树根节点之间的所有内容。

从下表可以看出，符号r的前缀路径是{x,s}、{z,x,y}和{z}。每一条前缀路径都与一个计数值关联，该计数值等于起始元素项r的计数值。

　　创建条件FP树：对于每一个频繁项，都要创建一棵条件FP树，以条件模式基作为输入数据，并通过构建FP树相同的代码来构建这些书。然后，我们会递归的返现频繁项、发现条件模式基，以及发现另外的条件树。假定对频繁项t创建一个条件FP树，然后对{t,y}、{t,x}、...重复该过程。元素项t的条件FP树的构建过程如下图：

实现代码如下：

def ascendTree(leafNode, prefixPath): #ascends from leaf node to root

    if leafNode.parent != None:

        prefixPath.append(leafNode.name)

        ascendTree(leafNode.parent, prefixPath)

def findPrefixPath(basePat, treeNode): #treeNode comes from header table

    condPats = {}

    while treeNode != None:

        prefixPath = []

        ascendTree(treeNode, prefixPath)

        if len(prefixPath) > 1:

            condPats[frozenset(prefixPath[1:])] = treeNode.count

        treeNode = treeNode.nodeLink

    return condPats

def mineTree(inTree, headerTable, minSup, preFix, freqItemList):

    bigL = [v[0] for v in sorted(headerTable.items(), key=lambda p: p[1])]#(sort header table)

    for basePat in bigL:  #start from bottom of header table

        newFreqSet = preFix.copy()

        newFreqSet.add(basePat)

        #print 'finalFrequent Item: ',newFreqSet    #append to set

        freqItemList.append(newFreqSet)

        condPattBases = findPrefixPath(basePat, headerTable[basePat][1])

        #print 'condPattBases :',basePat, condPattBases

        #2. construct cond FP-tree from cond. pattern base

        myCondTree, myHead = createTree(condPattBases, minSup)

        #print 'head from conditional tree: ', myHead

        if myHead != None: #3. mine cond. FP-tree

            #print 'conditional tree for: ',newFreqSet

            #myCondTree.disp(1)

            mineTree(myCondTree, myHead, minSup, newFreqSet, freqItemList)

FP - growth 发现频繁项集的更多相关文章

FP-growth算法发现频繁项集（一）——构建FP树
常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FP-growth.Apriori通过不断的构造候选集.筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数 ...
机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
【机器学习实战】第12章使用FP-growth算法来高效发现频繁项集
第12章使用FP-growth算法来高效发现频繁项集前言在第11章时我们已经介绍了用 Apriori 算法发现频繁项集与关联规则.本章将继续关注发现频繁项集这一任务,并使用 FP- ...
机器学习实战（Machine Learning in Action）学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
【机器学习实战】第12章使用 FP-growth 算法来高效发现频繁项集
第12章使用FP-growth算法来高效发现频繁项集前言在第11章时我们已经介绍了用 Apriori 算法发现频繁项集与关联规则.本章将继续关注发现频繁项集这一任务,并使用 FP- ...
FP-growth算法高效发现频繁项集（Python代码）
FP-growth算法高效发现频繁项集(Python代码) http://blog.csdn.net/leo_xu06/article/details/51332428
FP-growth算法发现频繁项集（二）——发现频繁项集
上篇介绍了如何构建FP树,FP树的每条路径都满足最小支持度,我们需要做的是在一条路径上寻找到更多的关联关系. 抽取条件模式基首先从FP树头指针表中的单个频繁元素项开始.对于每一个元素项,获得其对应的 ...
使用FP-Growth算法高效发现频繁项集【zz】
FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对.为了达到这样的效果,它采用了一种简洁的数据结 ...
FP-growth高效频繁项集发现
FP-growth 算法优缺点: 优点:一般快于Apriori 缺点:实现比较困难,在某些数据上性能下降适用数据类型:标称型数据算法思想: FP-growth算法是用来解决频繁项集发现问题的,这个 ...

随机推荐

每天一个linux命令---useradd
1.添加用户 useradd 选项用户名其中各选项含义如下: -c comment 指定一段注释性描述.-d 目录指定用户主目录,如果此目录不存在,则同时使用-m选项,可以创建主目录.-g ...
HTML5属性运用
HTML5 接触移动端,或专注于支持HTML5浏览器进行前端开发的工作者都不会陌生,这个已经普及很广,对于我专注于PC端开发的人来说,觉得陌生但又觉得很熟悉,大家都知道做PC前端开发为了兼容IE老版本 ...
BZOJ2706 : [SDOI2012]棋盘覆盖
A类数据: 将棋盘黑白染色,相邻的点之间连边,求出二分图最大匹配即可. B类数据: 答案为$\lfloor\frac{n^2-1}{3}\rfloor$,用FFT加速计算即可,时间复杂度$O(L\lo ...
流式大数据处理的三种框架：Storm，Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中,先要设计一个用于实时计算的 ...
Android MultiDex
出现的原因: 当Android系统安装一个应用的时候,有一步是对Dex进行优化,这个过程有一个专门的工具来处理,叫DexOpt.DexOpt的执行过程是在第一次加载Dex文件的时候执行的.这个过程会生 ...
Android 读取蓝牙设备信息开发
(1)Android手机一般以客户端的角色主动连接SPP协议设备(接上蓝牙模块的数字传感器),连接流程是: 1.使用registerReceiver注册BroadcastReceiver来获取蓝牙状态 ...
转自虫师：性能测试的 Check List
原文地址:http://www.cnblogs.com/jackei/archive/2006/03/24/357372.html 1. 开发人员是否提交了测试申请? 2. 测试对象是否已经明确? 3 ...
BZOJ 1015 题解
1015: [JSOI2008]星球大战starwar Description 很久以前,在一个遥远的星系,一个黑暗的帝国靠着它的超级武器统治者整个星系.某一天,凭着一个偶然的机遇,一支反抗军摧毁了帝 ...
OSG中的HUD
OSG中的HUD 所谓HUD节点,说白了就是无论三维场景中的内容怎么改变,它都能在屏幕上固定位置显示的节点. 实现要点: 关闭光照,不受场景光照影响,所有内容以同一亮度显示关闭深度测试调整渲染顺序 ...
java enum(枚举)使用详解 + 总结
enum 的全称为 enumeration, 是 JDK 1.5 中引入的新特性,存放在 java.lang 包中. 下面是我在使用 enum 过程中的一些经验和总结,主要包括如下内容: 1. 原始 ...

FP - growth 发现频繁项集

FP - growth 发现频繁项集的更多相关文章

随机推荐

热门专题