fp-growth代码问题（Python）

网上的 python3 fp-growth代码每次在执行时可能会出现找出的频繁项集不一致的情况，这是因为每次执行代码时建的FP树可能不一致。

加了一行代码可以解决这个问题（第59行）：先对 frequentItemsInRecord 按 key 的ASSIC码排序，然后再按照 key 的支持度（即value值）降序排列。

之所以这么做是因为 frequentItemsInRecord 中可能会出现支持度一样的项，如果不按ASSIC码先排一次的话，

有可能出现每次执行代码时 orderedFrequentItems （第60行）中相同支持度的项出现的顺序不一致，从而造成每次建的FP树不一致，导致找出的频繁项集不一致。

import pprint

def loadDataSet():

    dataSet = [['bread', 'milk', 'vegetable', 'fruit', 'eggs'],

               ['noodle', 'beef', 'pork', 'water', 'socks', 'gloves', 'shoes', 'rice'],

               ['socks', 'gloves'],

               ['bread', 'milk', 'shoes', 'socks', 'eggs'],

               ['socks', 'shoes', 'sweater', 'cap', 'milk', 'vegetable', 'gloves'],

               ['eggs', 'bread', 'milk', 'fish', 'crab', 'shrimp', 'rice']]

    return dataSet

def transfer2FrozenDataSet(dataSet):

    frozenDataSet = {}

    for elem in dataSet:

        frozenDataSet[frozenset(elem)] = 1

    return frozenDataSet

class TreeNode:

    def __init__(self, nodeName, count, nodeParent):

        self.nodeName = nodeName

        self.count = count

        self.nodeParent = nodeParent

        self.nextSimilarItem = None

        self.children = {}

    def increaseC(self, count):

        self.count += count

def createFPTree(frozenDataSet, minSupport):

    # scan dataset at the first time, filter out items which are less than minSupport

    headPointTable = {}

    for items in frozenDataSet:

        for item in items:

            headPointTable[item] = headPointTable.get(item, 0) + frozenDataSet[items]

    headPointTable = {

        k: v

        for k, v in headPointTable.items() if v >= minSupport

    }

    frequentItems = set(headPointTable.keys())

    if len(frequentItems) == 0: return None, None

    for k in headPointTable:

        headPointTable[k] = [headPointTable[k], None]

    fptree = TreeNode("null", 1, None)

    # scan dataset at the second time, filter out items for each record

    for items, count in frozenDataSet.items():

        frequentItemsInRecord = {}

        for item in items:

            if item in frequentItems:

                frequentItemsInRecord[item] = headPointTable[item][0]

        if len(frequentItemsInRecord) > 0:

            frequentItemsInRecord = sorted(frequentItemsInRecord.items(), key=lambda v: v[0])

            orderedFrequentItems = [v[0] for v in sorted(frequentItemsInRecord, key=lambda v: v[1], reverse=True)]

            updateFPTree(fptree, orderedFrequentItems, headPointTable, count)

    return fptree, headPointTable

def updateFPTree(fptree, orderedFrequentItems, headPointTable, count):

    # handle the first item

    if orderedFrequentItems[0] in fptree.children:

        fptree.children[orderedFrequentItems[0]].increaseC(count)

    else:

        fptree.children[orderedFrequentItems[0]] = TreeNode(orderedFrequentItems[0], count, fptree)

        # update headPointTable

        if headPointTable[orderedFrequentItems[0]][1] == None:

            headPointTable[orderedFrequentItems[0]][1] = fptree.children[orderedFrequentItems[0]]

        else:

            updateHeadPointTable(headPointTable[orderedFrequentItems[0]][1], fptree.children[orderedFrequentItems[0]])

    # handle other items except the first item

    if (len(orderedFrequentItems) > 1):

        updateFPTree(fptree.children[orderedFrequentItems[0]], orderedFrequentItems[1::], headPointTable, count)

def updateHeadPointTable(headPointBeginNode, targetNode):

    while (headPointBeginNode.nextSimilarItem != None):

        headPointBeginNode = headPointBeginNode.nextSimilarItem

    headPointBeginNode.nextSimilarItem = targetNode

def mineFPTree(headPointTable, prefix, frequentPatterns, minSupport):

    # for each item in headPointTable, find conditional prefix path, create conditional fptree,

    # then iterate until there is only one element in conditional fptree

    headPointItems = [v[0] for v in sorted(headPointTable.items(), key=lambda v: v[1][0])]

    if (len(headPointItems) == 0): return

    for headPointItem in headPointItems:

        newPrefix = prefix.copy()

        newPrefix.add(headPointItem)

        support = headPointTable[headPointItem][0]

        frequentPatterns[frozenset(newPrefix)] = support

        prefixPath = getPrefixPath(headPointTable, headPointItem)

        if (prefixPath != {}):

            conditionalFPtree, conditionalHeadPointTable = createFPTree(prefixPath, minSupport)

            if conditionalHeadPointTable != None:

                mineFPTree(conditionalHeadPointTable, newPrefix, frequentPatterns, minSupport)

def getPrefixPath(headPointTable, headPointItem):

    prefixPath = {}

    beginNode = headPointTable[headPointItem][1]

    prefixs = ascendTree(beginNode)

    if ((prefixs != [])):

        prefixPath[frozenset(prefixs)] = beginNode.count

    while (beginNode.nextSimilarItem != None):

        beginNode = beginNode.nextSimilarItem

        prefixs = ascendTree(beginNode)

        if (prefixs != []):

            prefixPath[frozenset(prefixs)] = beginNode.count

    return prefixPath

def ascendTree(treeNode):

    prefixs = []

    while ((treeNode.nodeParent != None) and (treeNode.nodeParent.nodeName != 'null')):

        treeNode = treeNode.nodeParent

        prefixs.append(treeNode.nodeName)

    return prefixs

def rulesGenerator(frequentPatterns, minConf, rules):

    for frequentset in frequentPatterns:

        if (len(frequentset) > 1):

            getRules(frequentset, frequentset, rules, frequentPatterns, minConf)

def removeStr(set, str):

    tempSet = []

    for elem in set:

        if (elem != str):

            tempSet.append(elem)

    tempFrozenSet = frozenset(tempSet)

    return tempFrozenSet

def getRules(frequentset, currentset, rules, frequentPatterns, minConf):

    for frequentElem in currentset:

        subSet = removeStr(currentset, frequentElem)

        confidence = frequentPatterns[frequentset] / frequentPatterns[subSet]

        if (confidence >= minConf):

            flag = False

            for rule in rules:

                if (rule[0] == subSet and rule[1] == frequentset - subSet):

                    flag = True

            if (flag == False):

                rules.append((subSet, frequentset - subSet, confidence))

            if (len(subSet) >= 2):

                getRules(frequentset, subSet, rules, frequentPatterns, minConf)

if __name__ == '__main__':

    dataSet = loadDataSet()

    frozenDataSet = transfer2FrozenDataSet(dataSet)

    minSupport = 3

    fptree, headPointTable = createFPTree(frozenDataSet, minSupport)

    frequentPatterns = {}

    prefix = set([])

    mineFPTree(headPointTable, prefix, frequentPatterns, minSupport)

    print("frequent patterns:")

    pprint.pprint(frequentPatterns)

    minConf = 0.6

    rules = []

    rulesGenerator(frequentPatterns, minConf, rules)

    print("association rules:")

    pprint.pprint(rules)

    print('rules num:', len(rules))

fp-growth代码问题（Python）的更多相关文章

FP—Growth算法
FP_growth算法是韩家炜老师在2000年提出的关联分析算法,该算法和Apriori算法最大的不同有两点: 第一,不产生候选集,第二,只需要两次遍历数据库,大大提高了效率,用31646条测试记录, ...
FP - growth 发现频繁项集
FP - growth是一种比Apriori更高效的发现频繁项集的方法.FP是frequent pattern的简称,即常在一块儿出现的元素项的集合的模型.通过将数据集存储在一个特定的FP树上,然后发 ...
编写高质量代码--改善python程序的建议（六）
原文发表在我的博客主页,转载请注明出处! 建议二十八:区别对待可变对象和不可变对象 python中一切皆对象,每一个对象都有一个唯一的标识符(id()).类型(type())以及值,对象根据其值能否修 ...
编写高质量代码--改善python程序的建议（八）
原文发表在我的博客主页,转载请注明出处! 建议四十一:一般情况下使用ElementTree解析XML python中解析XML文件最广为人知的两个模块是xml.dom.minidom和xml.sax, ...
编写高质量代码--改善python程序的建议（三）
原文发表在我的博客主页,转载请注明出处! 建议十三:警惕eval()的安全漏洞相信经常处理文本数据的同学对eval()一定是欲罢不能,他的使用非常简单: eval("1+1==2" ...
抓取oschina上面的代码分享python块区下的标题和对应URL
# -*- coding=utf-8 -*- import requests,re from lxml import etree import sys reload(sys) sys.setdefau ...
Frequent Pattern 挖掘之二(FP Growth算法)（转）
FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对.为了达到这样的效果,它采用了一种简洁的数据结 ...
编写高质量代码改善python程序91个建议学习01
编写高质量代码改善python程序91个建议学习第一章建议1:理解pythonic的相关概念狭隘的理解:它是高级动态的脚本编程语言,拥有很多强大的库,是解释从上往下执行的特点: 美胜丑,显胜隐 ...
关联规则算法之FP growth算法
FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对.为了达到这样的效果,它采用了一种简洁的数据结 ...
Frequent Pattern （FP Growth算法)
FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对.为了达到这样的效果,它采用了一种简洁的数据 ...

随机推荐

rabbitmq 延迟队列
1.rabbitmq 延时的原理,有2个队列,一个是发送消息,设置消息过期时间或者队列过期时间(死信队列),如果达到过期时间后将改消息发送到指定的队列中进行处理. 链接:https://share. ...
Python3报错：ModuleNotFoundError: No module named '_bz2'
系统信息系统:CentOS Linux release 7.6.1810 (Core) python版本:python3.7 报错信息 from _bz2 import BZ2Compresso ...
MySQL读写分离之MyCAT
Mycat实现MySQL主从复制读写分离 MyCAT的安装及部署 1.部署jdk环境 MyCAT用Java开发,需要有JAVA运行环境,mycat依赖jdk1.7的环境 1)上传jdk [root@l ...
windows 桌面文件变成.link解决方案
在注册表中右键删除下面这个注册表项: HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\FileExts\.ln ...
centos7静黙安装Oracle11.2.0软件响应文件oracle_install.rsp
oracle.install.responseFileVersion=/oracle/install/rspfmt_dbinstall_response_schema_v11_2_0 oracle.i ...
剑指offer-08 二叉树的下一个节点
剑指offer第8题,本来想找leetcode上对应的题,后来没找到,直接去牛客网上刷了. 题目描述: 给定一个二叉树和其中的一个结点(pNode),请找出中序遍历顺序的下一个结点并且返回.注意,树中 ...
逆向破解之160个CrackMe —— 031
CrackMe —— 031 160 CrackMe 是比较适合新手学习逆向破解的CrackMe的一个集合一共160个待逆向破解的程序 CrackMe:它们都是一些公开给别人尝试破解的小程序,制作 c ...
页面预加载loading动画，再载入内容
默认情况下如果网站请求速度慢,所以会有一段时间的空白页面等等,用户体验效果不好,见到很多的页面都有预加载的效果,加载之前先加载一个动画,后台进程继续加载页面内容,当页面内容加载完之后再退出动画显示内容 ...
51nod 1594 Gcd and Phi(莫比乌斯反演)
题目链接传送门思路如果这题是这样的: \[ F(n)=\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}\phi(gcd(i,j)) \] 那么我们可能会想到下 ...
mybatis框架的分页功能
需求说明:为用户管理之查询用户列表功能增加分页实现列表结果按照创建时间降序排列 /** * 需求说明:为用户管理之查询用户列表功能增加分页实现列表结果按照创建时间降序排列 * @para ...

fp-growth代码问题（Python）

fp-growth代码问题（Python）的更多相关文章

随机推荐

热门专题