Apriori 算法python实现

1. Apriori算法简介

Apriori算法是挖掘布尔关联规则频繁项集的算法。Apriori算法利用频繁项集性质的先验知识，通过逐层搜索的迭代方法，即将K-项集用于探察(k+1)项集，来穷尽数据集中的所有频繁项集。先找到频繁项集1-项集集合L1，然后用L1找到频繁2-项集集合L2，接着用L2找L3，知道找不到频繁K-项集，找到每个L_k需要一次数据库扫描。注意：频繁项集的所有非空子集也必须是频繁的。Apriori性质通过减少搜索空间，来提高频繁项集逐层产生的效率。Apriori算法由连接和剪枝两个步骤组成。

2. Apriori算法步骤

根据一个实例来解释：下图是一个交易单，I1至I5可看作5种商品。下面通过频繁项集合来找出关联规则。

假设我们的最小支持度阈值为2，即支持度计数小于2的都要删除。

上表第一行（第一项交易）表示：I1和I2和I5一起被购买。

C1至L1的过程：只需查看支持度是否高于阈值，然后取舍。上图C1中所有阈值都大于2，故L1中都保留。

L1至C2的过程分三步：

遍历产生L1中所有可能性组合，即（I1,I2）...（I4,I5 )
对便利产生的每个组合进行拆分，以保证频繁项集的所有非空子集也必须是频繁的。即对于（I1，I2）来说进行拆分为I1，I2.由于I1和I2在L1中都为频繁项，所以这一组合保留。
对于剩下的C2根据原数据集中进行支持度计数

C2至L2的过程：只需查看支持度是否高于阈值，然后取舍。

L2至C3的过程：

还是上面的步骤。首先生成（1，2，3）、（1，2，4）、（1，2，5）....为什么最后只剩（1，2，3）和（1，2，5）呢？因为剪枝过程：（1，2，4）拆分为（1，2）和（1，4）和（2，4）.然而（1，4）在L2中不存在，即非频繁项。所有剪枝删除。然后对C3中剩下的组合进行计数。发现（1，2，3）和（1，2，5）的支持度2。迭代结束。

所以算法过程就是 C_k - L_k- C_k+1 的过程：

3.Apriori算法实现

# -*- coding: utf-8 -*-

"""

Created on Sat Dec  9 15:33:45 2017

@author: LPS

"""

import numpy as np

from itertools import combinations  # 迭代工具

data = [[1,2,5], [2,4], [2,3], [1,2,4], [1,3], [2,3], [1,3], [1,2,3,5], [1,2,3]]

minsp = 2

d = []

for i in range(len(data)):

    d.extend(data[i])

new_d = list(set(d))

def satisfy(s, s_new, k):  # 更新确实存在的L

    e =[]

    ss_new =[]

    for i in range(len(s_new)):

        for j in combinations(s_new[i], k):  # 迭代产生所有元素可能性组合

            e.append(list(j))

        if ([l for l in e if l not in s]) ==[] :

            ss_new.append(s_new[i])

        e = []

    return ss_new  # 筛选满足条件的结果

def count(s_new):  # 返回narray格式的C

    num = 0

    C = np.copy(s_new)

    C = np.column_stack((C, np.zeros(C.shape[0])))

    for i in range(len(s_new)):

        for j in range(len(data)):

            if ([l for l in s_new[i] if l not in data[j]]) ==[] :

                num = num+1

        C[i,-1] = num

        num = 0          

    return C

def limit(L):  # 删掉不满足阈值的C

    row = []

    for i in range(L.shape[0]):

        if L[i,-1] < minsp :

            row.append(i)

    L = np.delete(L, row, 0) 

    return L

def generate(L, k):  # 实现由L至C的转换

    s = []

    for i in range(L.shape[0]):

        s.append(list(L[i,:-1]))

    s_new = []

#    L = L.delete(L, -1, 1)

#    l = L.shape[1]

    for i in range(L.shape[0]-1):

        for j in range(i+1, L.shape[0]):

            if (L[j,-2]>L[i,-2]):

                t = list(np.copy(s[i]))

                t.append(L[j,-2])

                s_new.append(t)  # s_new为列表

    s_new = satisfy(s, s_new, k) 

    C = count(s_new)

    return C

# 初始的C与L

C = np.zeros([len(new_d), 2])

for i in range(len(new_d)):

    C[i:] = np.array([new_d[i], d.count(new_d[i])])

L = np.copy(C)

L = limit(L)

# 开始迭代

k = 1

while (np.max(L[:,-1]) > minsp):

    C = generate(L, k)  # 由L产生C

    L = limit(C)        # 由C产生L

    k = k+1

# 对最终结果去重复

print((list(set([tuple(t) for t in L])))

# 结果为   [(1.0, 2.0, 3.0, 2.0), (1.0, 2.0, 5.0, 2.0)]

Apriori 算法python实现的更多相关文章

数据挖掘入门系列教程（五）之Apriori算法Python实现
数据挖掘入门系列教程(五)之Apriori算法Python实现加载数据集获得训练集频繁项的生成生成规则获得support 获得confidence 获得Lift 进行验证总结参考数据挖 ...
Apriori算法Python实现
Apriori如果数据挖掘算法的头发模式挖掘鼻祖,从60年代开始流行,该算法非常简单朴素的思维.首先挖掘长度1频繁模式,然后k=2 这些频繁模式的长度合并k频繁模式.计算它们的频繁的数目,并确保其充分 ...
Apriori算法--Python实现
# -*- coding: utf-8 -*- """ Created on Mon Nov 05 22:50:13 2018 @author: ZhuChaochao ...
Apriori算法的原理与python 实现。
前言:这是一个老故事, 但每次看总是能从中想到点什么.在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售.但是这个奇怪的举措却使尿布和啤酒的销量双双增加了.这不是一个笑话,而是发生在美国沃尔玛 ...
Apriori算法介绍（Python实现）
导读: 随着大数据概念的火热,啤酒与尿布的故事广为人知.我们如何发现买啤酒的人往往也会买尿布这一规律?数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法可以告诉我们.本文首先对Apriori算 ...
Apriori算法思想和其python实现
第十一章使用Apriori算法进行关联分析一．导语 "啤酒和尿布"问题属于经典的关联分析.在零售业,医药业等我们经常需要是要关联分析.我们之所以要使用关联分析,其目的是为了从大 ...
Python两步实现关联规则Apriori算法，参考机器学习实战，包括频繁项集的构建以及关联规则的挖掘
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
【机器学习】Apriori算法——原理及代码实现（Python版）
Apriopri算法 Apriori算法在数据挖掘中应用较为广泛,常用来挖掘属性与结果之间的相关程度.对于这种寻找数据内部关联关系的做法,我们称之为:关联分析或者关联规则学习.而Apriori算法就是 ...
Apriori算法在购物篮分析中的运用
购物篮分析是一个很经典的数据挖掘案例,运用到了Apriori算法.下面从网上下载的一超市某月份的数据库,利用Apriori算法进行管理分析.例子使用Python+MongoDB 处理过程1 数据建模( ...

随机推荐

LOJ #2540. 「PKUWC 2018」随机算法(概率dp)
题意 LOJ #2540. 「PKUWC 2018」随机算法题解朴素的就是 \(O(n3^n)\) dp 写了一下有 \(50pts\) ... 大概就是每个点有三个状态 , 考虑了但不在独立集中 ...
Qtree3题解（树链剖分+线段树+set）
外话:最近洛谷加了好多好题啊...原题入口这题好像是SPOJ的题,挺不错的.看没有题解还是来一篇... 题意很易懂吧.. 题解我的做法十分的暴力:树链剖分(伪)+线段树+ std :: set ...
Python解惑：整数比较
在 Python 中一切都是对象,毫无例外整数也是对象,对象之间比较是否相等可以用==,也可以用is.==和is操作的区别是: is比较的是两个对象的id值是否相等,也就是比较俩对象是否为同一个实例对 ...
自学Linux Shell18.2-sed编辑器高级特性
点击返回自学Linux命令行与Shell脚本之路 18.2-sed编辑器高级特性 linux世界中最广泛使用的两个命令行编辑器: sed gawk 1. sed小结命令格式: 1 sed [opt ...
luogu3203 弹飞绵羊 (LCT)
新建一个N+1的点,飞出去的连到这个上,记size,每次统计x和N+1的链长就可以. 别忘了编号是从0开始的 #include<cstdio> #include<cstring> ...
Hadoop HDFS命令
hadoop fs -mkdir 创建HDFS目录 # hadoop fs -mkdir /data Hadoop fs -ls 列出HDFS目录 # hadoop fs -ls /data ha ...
Logstash 解析Json字符串，删除json嵌套字段
一.场景:此文以一个简单的json字符串文件为例,描述如何用logstash解析嵌套的json,并删除其中的某些字段我们在linux中test.json的内容如下: {"timestamp ...
Android在初始化时弹出popwindow的方法
http://blog.csdn.net/sxsboat/article/details/7340759 Android中在onCreate()时弹出popwindow,很多人都有过类似的需求吧,但 ...
【LOJ#6281】数列分块5
题目大意:维护一个有 N 个数组成的序列,支持查询区间元素和.区间元素向下取整的开方操作. 题解:由于序列中维护的数最大不超过整数的范围,而对于整数范围内的数来说,一个数在开方 5 次及以上时,结果不 ...
php脚本#!/usr/bin/env php 写法
脚本语言的第一行,目的就是指出,你想要你的这个文件中的代码用什么可执行程序去运行它. 比如php脚本的第一行可以写成如下几种格式 #!/usr/bin/php #!/usr/bin/env php # ...

Apriori 算法python实现

Apriori 算法python实现的更多相关文章

随机推荐

热门专题