python实现关联规则

　　代码中Ci表示候选频繁i项集，Li表示符合条件的频繁i项集
　　
　　# coding=utf-8
　　
　　def createC1(dataSet): # 构建所有1项候选项集的集合
　　
　　C1 = []
　　
　　for transaction in dataSet:
　　
　　for item in transaction:
　　
　　if [item] not in C1:
　　
　　C1.append([item]) # C1添加的是列表，对于每一项进行添加，[[1], [2], [3], [4], [5]]
　　
　　#print('C1:',C1)
　　
　　return list(map(frozenset, C1)) # 使用frozenset，被“冰冻”的集合，为后续建立字典key-value使用。
　　
　　###由候选项集生成符合最小支持度的项集L。参数分别为数据集、候选项集列表，最小支持度
　　
　　###如
　　
　　###C3: [frozenset({1, 2, 3}), frozenset({1, 3, 5}), frozenset({2, 3, 5})]
　　
　　###L3: [frozenset({2, 3, 5})]
　　
　　def scanD(D, Ck, minSupport):
　　
　　ssCnt = {}
　　
　　for tid in D: # 对于数据集里的每一条记录
　　
　　for can in Ck: # 每个候选项集can
　　
　　if can.issubset(tid): # 若是候选集can是作为记录的子集，那么其值+1,对其计数
　　
　　if not ssCnt.__contains__(can): # ssCnt[can] = ssCnt.get(can,0)+1一句可破，没有的时候为0,加上1,有的时候用get取出，加1
　　
　　ssCnt[can] = 1
　　
　　else:
　　
　　ssCnt[can] += 1
　　
　　numItems = float(len(D))
　　
　　retList = []
　　
　　supportData = {}
　　
　　for key in ssCnt:
　　
　　support = ssCnt[key] / numItems # 除以总的记录条数，即为其支持度
　　
　　if support >= minSupport:
　　
　　retList.insert(0, key) # 超过最小支持度的项集，将其记录下来。
　　
　　supportData[key] = support
　　
　　return retList, supportData
　　
　　###由Lk生成K项候选集Ck
　　
　　###如由L2: [frozenset({3, 5}), frozenset({2, 5}), frozenset({2, 3}), frozenset({1, 3})]
　　
　　###生成
　　
　　###C3: [frozenset({1, 2, 3}), frozenset({1, 3, 5}), frozenset({2, 3, 5})]
　　
　　def aprioriGen(Lk, k):
　　
　　retList = []
　　
　　lenLk = len(Lk)
　　
　　for i in range(lenLk):
　　
　　for j in range(i + 1,lenLk):
　　
　　if len(Lk[i] | Lk[j])==k:
　　
　　retList.append(Lk[i] | Lk[j])
　　
　　return list(set(retList))
　　
　　####生成所有频繁子集
　　
　　def apriori(dataSet, minSupport=0.5):
　　
　　C1 = createC1(dataSet)
　　
　　D = list(map(set, dataSet))
　　
　　L1, supportData = scanD(D, C1, minSupport)
　　
　　L = [L1] # L将包含满足最小支持度，即经过筛选的所有频繁n项集，这里添加频繁1项集
　　
　　k = 2
　　
　　while (len(L[k - 2]) > 0): # k=2开始，由频繁1项集生成频繁2项集，直到下一个打的项集为空
　　
　　Ck = aprioriGen(L[k - 2], k)
　　
　　Lk, supK = scanD(D, Ck, minSupport)
　　
　　supportData.update(supK) # supportData为字典，存放每个项集的支持度，并以更新的方式加入新的supK
　　
　　L.append(Lk)
　　
　　k += 1
　　
　　return L, supportData
　　
　　if __name__ == "__main__":
　　
　　dataSet = [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
　　
　　D = list(map(set, dataSet))
　　
　　L,suppData = apriori(dataSet)
　　
　　print('L:',L)
　　
　　print('suppData:',suppData)
　　
　　'''
　　
　　C1 = createC1(dataSet)
　　
　　L1, supportData1 = scanD(D, C1, 0.5)
　　
　　print('C1:',C1)
　　
　　print('L1:',L1)
　　
　　print('supportData1:',supportData1)
　　
　　C2 = aprioriGen(L1, 2)
　　
　　L2, supportData2 = scanD(D, C2, 0.5)
　　
　　print('C2:',C2)
　　
　　print('L2:',L2)
　　
　　print('supportData2:www.gcyl152.com/',supportData2)
　　
　　C3 = aprioriGen(L2, 3)
　　
　　L3, supportData3 www.michenggw.com= scanD(D, C3, 0.5)
　　
　　print('C3:',C3)
　　
　　print('L3:',L3)
　　
　　print('supportData3:',supportData3)
　　
　　'''
　　
　　最终得到的所有支持度大于0.5的频繁子集及其支持度如下：
　　
　　       frozenset({1})www.mcyllpt.com/ : 0.5,
　　
　　       frozenset({3}): 0.75,
　　
　　       frozenset({4}): 0.25,
　　
　　       frozenset({2}): 0.75,
　　
　　       frozenset({5}): 0.75,
　　
　　       frozenset({1, 3}): 0.5,
　　
　　       frozenset({2, 3}): 0.5,
　　
　　       frozenset({2, 5}): 0.75,
　　
　　       frozenset({3, 5}): 0.5,
　　
　　       frozenset({1, 2}): 0.25,
　　
　　       frozenset({1, 5}): 0.25,
　　
　　       frozenset({2, 3, 5}): 0.5,
　　
　　       frozenset({1, 2, 3}): 0.25,
　　
　　       frozenset({1, 3, 5}): 0.25

python实现关联规则的更多相关文章

关联规则 -- apriori 和 FPgrowth 的基本概念及基于python的算法实现
apriori 使用Apriori算法进行关联分析貌似网上给的代码是这个大牛写的关联规则挖掘及Apriori实现购物推荐老师 Apriori 的python算法实现 python实现关联规则 ...
python调用R语言，关联规则可视化
首先当然要配置r语言环境变量什么的 D:\R-3.5.1\bin\x64; D:\R-3.5.1\bin\x64\R.dll;D:\R-3.5.1;D:\ProgramData\Anaconda3\L ...
Python机器学习算法 — 关联规则（Apriori、FP-growth）
关联规则 -- 简介关联规则挖掘是一种基于规则的机器学习算法,该算法可以在大数据库中发现感兴趣的关系.它的目的是利用一些度量指标来分辨数据库中存在的强规则.也即是说关联规则挖掘是用于知识发现,而非预 ...
Python --深入浅出Apriori关联分析算法（二） Apriori关联规则实战
上一篇我们讲了关联分析的几个概念,支持度,置信度,提升度.以及如何利用Apriori算法高效地根据物品的支持度找出所有物品的频繁项集. Python --深入浅出Apriori关联分析算法(一) 这次 ...
Python两步实现关联规则Apriori算法，参考机器学习实战，包括频繁项集的构建以及关联规则的挖掘
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
[Python数据挖掘]第8章、中医证型关联规则挖掘
一.背景和挖掘目标二.分析方法与过程 1.数据获取 2.数据预处理 1.筛选有效问卷(根据表8-6的标准) 共发放1253份问卷,其中有效问卷数为930 2.属性规约 3.数据变换 ''' 聚类 ...
python实现简单关联规则Apriori算法
from itertools import combinations from copy import deepcopy # 导入数据,并剔除支持度计数小于min_support的1项集 def lo ...
Python 和 R 数据分析/挖掘工具互查
如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便.python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 pip install * 安装:同理,为了方便索 ...
Python实现Apriori
Python实现Apriori 运行环境 Pyhton3 计算过程 st=>start: 开始 e=>end: 结束 op1=>operation: 读入数据 op2=>ope ...

随机推荐

Python基本数据类型(一)
我会持续更新.... 字符串类型字符串定义: 字符串的格式:'字符串', "字符串", """字符串"""字符串一旦被 ...
python -pickle模块、re模块学习
pickel模块 import pickle #pickle可以将任何数据类型序列化,json只能列表字典字符串数字等简单的数据类型,复杂的不可以 #但是pickle只能在python中使用,json ...
谭浩强C语言第四版第九章课后习题7--9题（建立，输出，删除，插入链表处理）
#include<stdio.h> #include<stdlib.h> #define N sizeof(link) typedef struct stu { struct ...
Excel学习路径总结
本片涉及从入门到Excel的各个方向,包含众多资料和自己学习的心得,希望您可以仔细阅之: 入门篇: 无论是软件,还是编程,最好的入门就是通过看视频来学习,视频优点为很容易看清楚,手把手教授,不容易 ...
（数据科学学习手札15）DBSCAN密度聚类法原理简介&Python与R的实现
DBSCAN算法是一种很典型的密度聚类法,它与K-means等只能对凸样本集进行聚类的算法不同,它也可以处理非凸集. 关于DBSCAN算法的原理,笔者觉得下面这篇写的甚是清楚练达,推荐大家阅读: ht ...
（数据科学学习手札07）R在数据框操作上方法的总结（初级篇）
上篇我们了解了Python中pandas内封装的关于数据框的常用操作方法,而作为专为数据科学而生的一门语言,R在数据框的操作上则更为丰富精彩,本篇就R处理数据框的常用方法进行总结: 1.数据框的生成 ...
POJ1236_A - Network of Schools _强连通分量::Tarjan算法
Time Limit: 1000MS Memory Limit: 10000K Description A number of schools are connected to a compute ...
P2212 [USACO14MAR]浇地Watering the Fields
P2212 [USACO14MAR]浇地Watering the Fields 题目描述 Due to a lack of rain, Farmer John wants to build an ir ...
No parser was explicitly specified, so I'm using the best available HTML parser for this system ("html.parser").警告解决方法
在使用BeautifulSoup库时出现该警告,虽然不影响正常运行,但强迫症不能忍啊!! 详细警告信息如下: UserWarning: No parser was explicitly specifi ...
今天领导分享了一个探测端口的命令-linux下提示bash:command not found
今天领导分享了一个探测端口的命令,于是试了一下,提示未找到-bash: nc: command not found 因此决定将bash的命令在复习一下,温故而知新总结整理于此: 确定你的DNS可以 ...

python实现关联规则

python实现关联规则的更多相关文章

随机推荐

热门专题