Python实现Apriori

运行环境

  • Pyhton3

计算过程

st=>start: 开始
e=>end: 结束
op1=>operation: 读入数据
op2=>operation: 递归生成频繁项集
op3=>operation: 关联规则挖掘
op4=>operation: 输出结果 st->op1->op2->op3->op4->e

输入样例

/* Apriori.txt */
文本编号 词列表(以空格分隔)
1 消防员 冲进 火场 救出 男童
2 公务员 患 癌症 保持 在岗
3 消防员 多次 冲进 火场 救人 不幸 身亡
4 老人 成功 进行 免费 白内障 手术
5 海豚 误 吞 排球 后 手术 成功 取出
6 6旬 老人 跳楼 自杀 身亡
7 男子 跳楼 自杀 身亡
8 疑犯 枪杀 出租车 司机
9 男子 枪杀 妻子 后 自杀
10 医师 误 把 肾脏 当 肝脏 致人 身亡
11 癌症 老人 成功 手术
12 男子 枪杀 司机 后 喝药 自杀
13 癌症 医师 保持 手术 清醒
14 男子 跳楼 自杀
15 男子 枪杀 老人 后 自杀
16 消防员 冲进 火场 将 男童 救出
17 出租车 司机 免费 搭载 老人
18 男子 误 杀 弟媳 后 自杀 身亡
19 医师 误 把 患者 肝脏 捅破 致人 身亡
20 6旬 老人 火场 救人 不幸 身亡

代码实现

# -*- coding: utf-8 -*-
__author__ = 'Wsine' def loadDataSet(fileName):
attrTemp = []
with open(fileName) as fr:
for line in fr.readlines()[1:]:
words = line.strip().split('\t')[1].split()
attrTemp.extend(words)
attr = list(set(attrTemp))
dataSet = []
with open(fileName) as fr:
for line in fr.readlines()[1:]:
words = line.strip().split('\t')[1].split()
data = []
for word in words:
for index, _word in enumerate(attr):
if word == _word:
data.append(index)
break
dataSet.append(data)
return dataSet, attr def createC1(dataSet):
"""
输入:数据集
输出:所有大小为1的候选项集合C1
"""
C1 = []
for transaction in dataSet:
for item in transaction:
if not [item] in C1:
C1.append([item])
C1.sort()
return list(map(frozenset, C1)) def scanD(D, Ck, minSupport):
"""
输入:数据集集合, 候选项集, 最小支持度
输出:最频繁项集的支持度
"""
ssCnt = {}
for tid in D:
for can in Ck:
if can.issubset(tid):
if not can in ssCnt:
ssCnt[can] = 1
else:
ssCnt[can] += 1
numItems = float(len(D))
retList = []
supportData = {}
for key in ssCnt:
support = ssCnt[key] / numItems
if support >= minSupport:
retList.insert(0, key)
supportData[key] = support
return retList, supportData def aprioriGen(Lk, k):
"""
输入:频繁项集列表, 项集元素个数
输出:合并后的项集列表
"""
retList = []
lenLk = len(Lk)
for i in range(lenLk):
for j in range(i+1, lenLk):
L1 = list(Lk[i])[:k-2]
L2 = list(Lk[j])[:k-2]
L1.sort()
L2.sort()
if L1 == L2:
retList.append(Lk[i] | Lk[j])
return retList def apriori(dataSet, minSupport=0.5):
"""
输入:数据集, 最小支持度
输出:候选项集列表
"""
C1 = createC1(dataSet)
D = list(map(set, dataSet))
L1, supportData = scanD(D, C1, minSupport)
L = [L1]
k = 2
while (len(L[k-2]) > 0):
Ck = aprioriGen(L[k-2], k)
Lk, supK = scanD(D, Ck, minSupport)
supportData.update(supK)
L.append(Lk)
k += 1
return L, supportData def calcConf(freqSet, H, supportData, br1, minConf=0.7):
"""
输入:频繁项集, 所有项集, 支持度数据, 通过检查的bigRuleList, 最小置信度
输出:满足最小置信度要求的规则列表
"""
prunedH = []
for conseq in H:
conf = supportData[freqSet] / supportData[freqSet - conseq]
if conf >= minConf:
#print(freqSet - conseq, '-->', conseq, 'conf:', conf)
br1.append((freqSet - conseq, conseq, conf))
prunedH.append(conseq)
return prunedH def rulesFromConseq(freqSet, H, supportData, br1, minConf=0.7):
"""
输入:频繁项集, 所有项集, 支持度数据, 通过检查的bigRuleList, 最小置信度
描述:生成更多的关联规则
"""
m = len(H[0])
if (len(freqSet) > (m + 1)):
Hmp1 = aprioriGen(H, m + 1)
Hmp1 = calcConf(freqSet, Hmp1, supportData, br1, minConf)
if (len(Hmp1) > 1):
rulesFromConseq(freqSet, Hmp1, supportData, br1, minConf) def generateRules(L, supportData, minConf=0.7):
"""
输入:频繁项集列表, 包含频繁项集支持数据的字典, 最小置信度
输出:置信度规则列表
"""
bigRuleList = []
for i in range(1, len(L)):
for freqSet in L[i]:
H1 = [frozenset([item]) for item in freqSet]
if (i > 1):
rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf)
else:
calcConf(freqSet, H1, supportData, bigRuleList, minConf)
return bigRuleList def printRules(rules, attr):
for rule in rules:
ruleFrom = []
ruleFromSet = set(rule[0])
while len(ruleFromSet) > 0:
ruleFrom.append(attr[ruleFromSet.pop()])
ruleTo = []
ruleToSet = set(rule[1])
while len(ruleToSet) > 0:
ruleTo.append(attr[ruleToSet.pop()])
print(ruleFrom, '-->', ruleTo)
print('\tconf: ', rule[-1]) def main():
dataSet, attr = loadDataSet('Apriori.txt')
L, supportData = apriori(dataSet, minSupport=0.2)
print('二项集', L[1])
print('三项集', L[2])
rules = generateRules(L, supportData, minConf=0.2)
printRules(rules, attr) if __name__ == '__main__':
main()

输出样例

二项集 [frozenset({32, 39}), frozenset({32, 46}), frozenset({46, 39})]
三项集 [frozenset({32, 46, 39})]
['自杀'] --> ['男子']
conf: 0.8571428571428572
['男子'] --> ['自杀']
conf: 1.0
['后'] --> ['男子']
conf: 0.8
['男子'] --> ['后']
conf: 0.6666666666666667
['自杀'] --> ['后']
conf: 0.5714285714285715
['后'] --> ['自杀']
conf: 0.8
['自杀'] --> ['男子', '后']
conf: 0.5714285714285715
['后'] --> ['男子', '自杀']
conf: 0.8
['男子'] --> ['后', '自杀']
conf: 0.6666666666666667

Python实现Apriori的更多相关文章

  1. Python --深入浅出Apriori关联分析算法(二) Apriori关联规则实战

    上一篇我们讲了关联分析的几个概念,支持度,置信度,提升度.以及如何利用Apriori算法高效地根据物品的支持度找出所有物品的频繁项集. Python --深入浅出Apriori关联分析算法(一) 这次 ...

  2. 基于Python的机器学习实战:Apriori

    目录: 1.关联分析 2. Apriori 原理 3. 使用 Apriori 算法来发现频繁集 4.从频繁集中挖掘关联规则 5. 总结 1.关联分析  返回目录 关联分析是一种在大规模数据集中寻找有趣 ...

  3. 数据挖掘入门系列教程(五)之Apriori算法Python实现

    数据挖掘入门系列教程(五)之Apriori算法Python实现 加载数据集 获得训练集 频繁项的生成 生成规则 获得support 获得confidence 获得Lift 进行验证 总结 参考 数据挖 ...

  4. Python 和 R 数据分析/挖掘工具互查

    如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便.python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 pip install * 安装:同理,为了方便索 ...

  5. Python 数据挖掘 工具包整理

    连接器与io 数据库 类别 Python R MySQL mysql-connector-python(官方) RMySQL Oracle cx_Oracle ROracle MongoDB pymo ...

  6. 【机器学习实战】第11章 使用 Apriori 算法进行关联分析

    第 11 章 使用 Apriori 算法进行关联分析 关联分析 关联分析是一种在大规模数据集中寻找有趣关系的任务. 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出 ...

  7. R包和python对应的库

    数据库 类别 Python R MySQL mysql-connector-python(官方) RMySQL Oracle cx_Oracle ROracle Redis redis rredis ...

  8. Apriori算法的原理与python 实现。

    前言:这是一个老故事, 但每次看总是能从中想到点什么.在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售.但是这个奇怪的举措却使尿布和啤酒的销量双双增加了.这不是一个笑话,而是发生在美国沃尔玛 ...

  9. Apriori算法Python实现

    Apriori如果数据挖掘算法的头发模式挖掘鼻祖,从60年代开始流行,该算法非常简单朴素的思维.首先挖掘长度1频繁模式,然后k=2 这些频繁模式的长度合并k频繁模式.计算它们的频繁的数目,并确保其充分 ...

随机推荐

  1. pxecfg&kickstart生成脚本

    em tm 00:00:00:00:00:12 10.180.1.12 255.255.255.0 173.45.34.25 255.255.255.225 173.45.34.1 em tm 00: ...

  2. Groovy安装与入门实例

    摘自: http://blog.csdn.net/dc_726/article/details/8576205 1 Groovy是什么? 来看下官网的介绍:http://groovy.codehaus ...

  3. ubuntu下使用apt-get install安装的软件在哪个目录

    形如 apt-get install apps 这样的命令,一般会将下载文件放在 /var/cache/apt/archives目录下,然后安装. 如果不及时清理,这个目录所占空间会越来越大,幸运的是 ...

  4. SQL笔记-第二章,数据表的创建和管理

    数据类型 分5类:整数.数值.字符相关.日期时间以及二进制 1.整数 数据库系统 类型 说明 MYSQL tinyint [unsigned] 一个很小的整数.有符号的范围是-128 到127,无符号 ...

  5. Nginx 开启 path_info功能

    server { listen ; server_name localhost; #charset koi8-r; #access_log logs/host.access.log main; roo ...

  6. 最新仿梦芭莎免费ecshop模板

    最新仿梦芭莎免费ecshop模板,该源码很真实地模仿了我们比较熟悉的梦芭莎购物网站的,我们知道该网站商城很受大家的喜欢的,而且界面也很漂亮的,希望能够帮到大家的学习. <ignore_js_op ...

  7. Mysql迁移工具在生产环境下的使用

    在产品迭代开发发布过程中,由于业务需求的增加,数据库难免会有结构调整等操作. 在每个版本发布过程中怎么控制每个版本server端程序与数据库版本保持一致,以及数 据库升级.回滚等操作. 本博文宅鸟将向 ...

  8. Win2008R2PHP5.4环境加载Zend模块

    1.需要2个文件 Zend Optimizer和Zend Guard Loade s 下载Zend Guard Loader包.(官方地址:http://www.zend.com/en/product ...

  9. luigi学习6--parameters详解

    parameter就好比是一个task的构造方法.luigi要求你在类的scope上定义parameter. 如下面就是一个定义parameter的例子: class DailyReport(luig ...

  10. js日期格式化方法 dateFormatFn

    var dateFormatFn=function(val,fmt){ var _this = new Date(val); console.log(_this,_this.getFullYear() ...