前言：

关于 FP-Growth 算法介绍请见：FP-Growth算法的介绍。

本文主要介绍从 FP-tree 中提取频繁项集的算法。关于伪代码请查看上面的文章。

FP-tree 的构造请见：FP-Growth算法之 FP-tree 的构造（python）。

正文：

tree_miner.py文件：

#coding=utf-8

import tree_builder

import copy

class Tree_miner(object):

    """tree_miner类. 作用:对Tree进行频繁项集的挖掘"""

    def __init__(self, Tree=None, min_sup=-1, headerTable={}):

        """tree_miner的初始化. Tree即为构造好的FP_Tree, min_sup是最小支持度计数, headerTable是FP_Tree的头结点表"""

        self.min_sup = min_sup

        self.tree_mining(Tree=Tree, headerTable=headerTable)

    def tree_mining(self, Tree, A=[], headerTable={}):

        """功能: 递归实现对树Tree频繁项集的挖掘. A相当于伪代码中的α，B相当于β"""

        B = []

        allElem = {}        #用来保存单个路径情况时，路径上的全部节点

        node = Tree.root       #node取得树的根节点

        while len(node.children) > 0:        #推断是否是单个路径

            if len(node.children) != 1:          #假设路径上的某个节点的孩子数不止一个。则它不是单个路径

                break

            node = node.children.values()[0]        #node取得下一个节点

            allElem.setdefault(node.data,node.count)        #记录路径上的节点。假设是单个路径的话会用到

        if len(node.children) < 1:                  #Tree仅仅包括单个路径

            L = self.getL(items=allElem, min_sup=self.min_sup, A=A)     #L即为我们要求的频繁项集

            self.showResult(L)      #对结果进行输出

            return

        else:

            for item in headerTable:            #对于头结点表中的元素，逐个找以其结尾的频繁项集

                if A:                   #产生项目集B

                    for elem in A:

                        if elem != []:

                            temp = copy.copy(elem)

                            B.append(temp)

                            B.append([item]+temp)

                else:

                    B.append([item])

                pattem,counts = self.findPattemBase(item, headerTable)      #得到以项item结尾的所以条件模式基,counts存放条件模式基的计数

                myHeaderTable = {}

                conditionTree_builder = tree_builder.Tree_builder(routines=pattem, counts=counts, headerTable=myHeaderTable)        #新建一个Tree_builder对象，用它来构造条件FP-Tree

                if conditionTree_builder.tree.root.children:            #假设构造的条件FP-树不空

                    self.tree_mining(Tree=conditionTree_builder.tree, A=B, headerTable=myHeaderTable)       #递归调用

                B = []

        return

    def findPattemBase(self, item, headerTable):

        """功能: 依据树的头结点表去搜索树中item的条件模式基"""

        itemPattem = []                 #存放项item的全部模式基

        counts = []                     #存放模式基的计数

        addressTable = headerTable[item]    #头节点表中item链上所以节点的地址

        for itemNode in addressTable:           #对头结点表表中存放的每一个item节点

            itemInPattem = []               #用来存放item模式基中的各项

            nodeInPattem = itemNode.parent         #item模式基的项，用它来回溯到树根。即为一条模式基

            if nodeInPattem.data == 'null':         #假设父亲节点就是树根，则跳过

                continue

            while nodeInPattem.data != 'null':                  #假设还没到树根，则一直回溯

                itemInPattem.append(nodeInPattem.data)           #把它压进item的模式基

                nodeInPattem = nodeInPattem.parent          #让当前节点跳到它的父亲节点，进行回溯

            itemInPattem = tuple(itemInPattem)

            itemPattem.append(itemInPattem)             #找完了一条item的模式基了

            counts.append(itemNode.count)           #模式基的计数

        return itemPattem,counts

    def showResult(self, result=[[]]):

        """功能: 将挖掘到的频繁项集进行展示"""

        for elem in result:

            num = elem.pop()        #频繁项集的计数

            print tuple(elem),':',num

        return

    def combiner(self, myList, n):

        """功能: 对list列表里的全部元素进行排列组合,生成n个元组组合在一起的列表"""

        answers = []

        one = [0] * n

        def next_c(li = 0, ni = 0):

            if ni == n:

                answers.append(copy.copy(one))

                return

            for lj in xrange(li, len(myList)):

                one[ni] = myList[lj]

                next_c(lj + 1, ni + 1)

        next_c()

        return answers

    def findMinimum(self, items, elem):

        """功能: 依据items字典找出elem列表中各项计数的最小值"""

        minimum = items[elem[0]]

        for a in elem:

            if items[a] < minimum:              #假设某元素的计数更小，则记录它的计数

                minimum = items[a]

        return minimum

    def getL(self, items, min_sup=-1, A=[]):

        """功能: 对于仅仅含单路径的树,进行生成频繁项集"""

        tempResult = []

        finnalResult = []

        nodes = items.keys()        #取得items字典的键，即单路径上的全部节点

        for i in range(1,len(nodes)+1):         #对nodes。即路径上的全部节点生成各种组合

            tempResult += self.combiner(myList=nodes, n=i)

        for elem in tempResult[::-1]:           #elem逆序对dearResult訪问，由于接下来会删除元素，逆序好操作

            elemMinimum = self.findMinimum(items, elem)         #找出elem里面的最小计数

            if elemMinimum < min_sup:               #假设组合elem的最小计数小于最小支持度计数。则删除.

                tempResult.remove(elem)

            else:                           #否则把它压入结果列表中进行输出。但它仅仅是条件模式基，要加上最后一个项构成频繁项集，同一时候把最小计数也加上

                for Aelem in A:         #A可能含有多项

                    if Aelem:

                        temp = elem

                        temp += Aelem

                        temp.append(elemMinimum)

                        finnalResult.append(temp)               #将挖掘出的频繁项集保存在finnalResult列表

        return finnalResult

代码地址：FP-Growth算法python实现（完整代码）。

备注：该代码是在 Python2.7+eclipse 环境下编写的。可在eclipse中导入项目，也可在命令行窗体用python命令运行“__init__.py”文件。

转载请注明出处，谢谢！

（原文链接：http://blog.csdn.net/bone_ace/article/details/46747791）

FP-Growth算法之频繁项集的挖掘（python）的更多相关文章

FP-growth算法发现频繁项集（一）——构建FP树
常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FP-growth.Apriori通过不断的构造候选集.筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数 ...
FP-growth算法发现频繁项集（二）——发现频繁项集
上篇介绍了如何构建FP树,FP树的每条路径都满足最小支持度,我们需要做的是在一条路径上寻找到更多的关联关系. 抽取条件模式基首先从FP树头指针表中的单个频繁元素项开始.对于每一个元素项,获得其对应的 ...
R_Studio(时序)Apriori算法寻找频繁项集的方法
应用ARIMA(1,1,0)对2015年1月1日到2015年2月6日某餐厅的销售数量做为期5天的预测 setwd('D:\\dat') #install.packages("forecast ...
使用 FP-growth 算法高效挖掘海量数据中的频繁项集
前言对于如何发现一个数据集中的频繁项集,前文讲解的经典 Apriori 算法能够做到. 然而,对于每个潜在的频繁项,它都要检索一遍数据集,这是比较低效的.在实际的大数据应用中,这么做就更不好了. 本 ...
【机器学习实战】第12章使用FP-growth算法来高效发现频繁项集
第12章使用FP-growth算法来高效发现频繁项集前言在第11章时我们已经介绍了用 Apriori 算法发现频繁项集与关联规则.本章将继续关注发现频繁项集这一任务,并使用 FP- ...
第十五篇：使用 FP-growth 算法高效挖掘海量数据中的频繁项集
前言对于如何发现一个数据集中的频繁项集,前文讲解的经典 Apriori 算法能够做到. 然而,对于每个潜在的频繁项,它都要检索一遍数据集,这是比较低效的.在实际的大数据应用中,这么做就更不好了. 本 ...
【机器学习实战】第12章使用 FP-growth 算法来高效发现频繁项集
第12章使用FP-growth算法来高效发现频繁项集前言在第11章时我们已经介绍了用 Apriori 算法发现频繁项集与关联规则.本章将继续关注发现频繁项集这一任务,并使用 FP- ...
关联规则—频繁项集Apriori算法
频繁模式和对应的关联或相关规则在一定程度上刻画了属性条件与类标号之间的有趣联系,因此将关联规则挖掘用于分类也会产生比较好的效果.关联规则就是在给定训练项集上频繁出现的项集与项集之间的一种紧密的联系.其 ...
海量数据挖掘MMDS week2: 频繁项集挖掘 Apriori算法的改进：非hash方法
http://blog.csdn.net/pipisorry/article/details/48914067 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...

随机推荐

整个Html内容以邮件的方式发送出去（取出标签包含的用户输入信息）
需求是一个html的调查问卷,在调查问卷完成后,将问卷页面(包括用户填写的答案)完整的发送给领导. 问题出现了填写的时候用的是jquery赋值的方法 ,比如text文本.textrear用的是val ...
给SharePoint页面加入自己定义页脚Custom footer
给SharePoint页面加入自己定义页脚Custom footer 在公司做站点设计项目时,须要在页面上加入页脚. 非常多人都把页脚忽视了,认为没什么多大用处,事实上 ...
nodejs之简介及安装（一）
@[nodejs|个人学习笔记] nodejs简介什么是node.js Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境. 参考网站一.nodejs.cn 二 ...
oracle 临时表空间的增删改查
oracle 临时表空间的增删改查 oracle 临时表空间的增删改查 1.查看临时表空间 (dba_temp_files视图)(v_$tempfile视图)select tablespace_nam ...
密码算法详解——AES
0 AES简介 1997年1月2号,美国国家标准技术研究所宣布希望征集一个安全性能更高的加密算法(AES)[3],用以取代DES.我们知道DES的密钥长度是64 bits,但实际加解密中使用的有效长度 ...
vs2013 创建网站
从文件菜单中选择新建网站,版本选择4,如果选择更高级的版本在发布的时候老是会报错,暂时找不到解决的方法,所以就选择4这个版本了.选择asp的空网站,在下面选择文件系统. 项目建好后如下,然后添加一个w ...
PowerDesigner中在生成的数据库脚本中用name列替换comment列作为字段描述的方法
1 PowerDesigner中在生成的数据库脚本中用name列替换comment列作为字段描述的方法如下, 依次打开Tools -- Execute Commands -- Run Script,运 ...
NOIP前模板整理
图最短路径 #include <queue> #define N 1000 typedef long long ll; using namespace std; int d[N], w[ ...
（原+转）简明 Python 教程：总结
简明 Python 教程说明:本文只是对<简明Python教程>的一个总结.请搜索该书查看真正的教程. 第3章最初的步骤 1. Python是大小写敏感的. 2. 在#符号右面的内容 ...
mysql dos启动出现1067错误的解决方法
请参看下面的链接:http://www.webjx.com/htmldata/2007-10-16/1192542247.html

FP-Growth算法之频繁项集的挖掘（python）

前言：

正文：

转载请注明出处，谢谢！ （原文链接：http://blog.csdn.net/bone_ace/article/details/46747791）

FP-Growth算法之频繁项集的挖掘（python）的更多相关文章

随机推荐

热门专题

转载请注明出处，谢谢！

（原文链接：http://blog.csdn.net/bone_ace/article/details/46747791）