Apriori算法--Python实现

 # -*- coding: utf-8 -*-
 """
 Created on Mon Nov 05 22:50:13 2018

 @author: ZhuChaochao
 """
 def loadDataSet():
     f = open("F:/Python CODE/zcc/1.txt",'r') #读取的数据
     source = f.readlines()
     f.close()
     dataset = []
     for line in source:
         line=line.strip().split('  ')
         curLine = list(map(int,line))
         dataset.append(curLine)
     return dataset

 def createC1(dataset):
     C1 = []
     for transaction in dataset:
         for item in transaction:
             if not [item] in C1:
                 C1.append([item])
     C1.sort()
     return map(frozenset,C1)

 def scanD(D,CK,minSupport):
     ssCnt = {}
     for tid in D:
         for can in CK:
             if can.issubset(tid):
                 if not can in ssCnt:
                     ssCnt[can] = 1
                 else:
                     ssCnt[can] += 1

     D=list(map(set,D))
     numItems = float(len(D))
     retList = []
     supportData = {}
     for key in ssCnt:
         try:
             support = ssCnt[key]/numItems
         except (ZeroDivisionError,ValueError) as e:
             print(e)
         if support >= minSupport:
             retList.insert(0,key)
         supportData[key] = support
     return retList,supportData

 def aprioriGen(Lk, k):
     retList = []
     lenLk = len(Lk)
     for i in range(lenLk):
         for j in range(i+1, lenLk):
             L1 = list(Lk[i])[:k-2]; L2 = list(Lk[j])[:k-2]
             L1.sort(); L2.sort()
             if L1==L2:
                 retList.append(Lk[i] | Lk[j])
     return retList

 def apriori(dataSet, minSupport = 0.5):
     C1 = createC1(dataSet)
     D = map(set, dataSet)
     L1, supportData = scanD(D, C1, minSupport)
     L = [L1]
     k = 2
     while (len(L[k-2]) > 0):
         Ck = aprioriGen(L[k-2], k)
         Lk, supK = scanD(D, Ck, minSupport)
         supportData.update(supK)
         L.append(Lk)
         k += 1
     L, supportDatareturn

source = f.readlines()
f.close()
dataset = []
for line in source:
line=line.strip().split(' ')
curLine = list(map(int,line))
dataset.append(curLine)
return dataset

def createC1(dataset):
C1 = []
for transaction in dataset:
for item in transaction:
if not [item] in C1:
C1.append([item])
C1.sort()
return map(frozenset,C1)

def scanD(D,CK,minSupport):
ssCnt = {}
for tid in D:
for can in CK:
if can.issubset(tid):
if not can in ssCnt:
ssCnt[can] = 1
else:
ssCnt[can] += 1

D=list(map(set,D))
numItems = float(len(D))
retList = []
supportData = {}
for key in ssCnt:
try:
support = ssCnt[key]/numItems
except (ZeroDivisionError,ValueError) as e:
print(e)
if support >= minSupport:
retList.insert(0,key)
supportData[key] = support
return retList,supportData

def aprioriGen(Lk, k):
retList = []
lenLk = len(Lk)
for i in range(lenLk):
for j in range(i+1, lenLk):
L1 = list(Lk[i])[:k-2]; L2 = list(Lk[j])[:k-2]
L1.sort(); L2.sort()
if L1==L2:
retList.append(Lk[i] | Lk[j])
return retList

def apriori(dataSet, minSupport = 0.5):
C1 = createC1(dataSet)
D = map(set, dataSet)
L1, supportData = scanD(D, C1, minSupport)
L = [L1]
k = 2
while (len(L[k-2]) > 0):
Ck = aprioriGen(L[k-2], k)
Lk, supK = scanD(D, Ck, minSupport)
supportData.update(supK)
L.append(Lk)
k += 1
L, supportDatareturn

Apriori算法--Python实现的更多相关文章

数据挖掘入门系列教程（五）之Apriori算法Python实现
数据挖掘入门系列教程(五)之Apriori算法Python实现加载数据集获得训练集频繁项的生成生成规则获得support 获得confidence 获得Lift 进行验证总结参考数据挖 ...
Apriori 算法python实现
1. Apriori算法简介 Apriori算法是挖掘布尔关联规则频繁项集的算法.Apriori算法利用频繁项集性质的先验知识,通过逐层搜索的迭代方法,即将K-项集用于探察(k+1)项集,来穷尽数据集 ...
Apriori算法Python实现
Apriori如果数据挖掘算法的头发模式挖掘鼻祖,从60年代开始流行,该算法非常简单朴素的思维.首先挖掘长度1频繁模式,然后k=2 这些频繁模式的长度合并k频繁模式.计算它们的频繁的数目,并确保其充分 ...
Apriori算法的原理与python 实现。
前言:这是一个老故事, 但每次看总是能从中想到点什么.在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售.但是这个奇怪的举措却使尿布和啤酒的销量双双增加了.这不是一个笑话,而是发生在美国沃尔玛 ...
Apriori算法介绍（Python实现）
导读: 随着大数据概念的火热,啤酒与尿布的故事广为人知.我们如何发现买啤酒的人往往也会买尿布这一规律?数据挖掘中的用于挖掘频繁项集和关联规则的Apriori算法可以告诉我们.本文首先对Apriori算 ...
Apriori算法思想和其python实现
第十一章使用Apriori算法进行关联分析一．导语 "啤酒和尿布"问题属于经典的关联分析.在零售业,医药业等我们经常需要是要关联分析.我们之所以要使用关联分析,其目的是为了从大 ...
Python两步实现关联规则Apriori算法，参考机器学习实战，包括频繁项集的构建以及关联规则的挖掘
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
【机器学习】Apriori算法——原理及代码实现（Python版）
Apriopri算法 Apriori算法在数据挖掘中应用较为广泛,常用来挖掘属性与结果之间的相关程度.对于这种寻找数据内部关联关系的做法,我们称之为:关联分析或者关联规则学习.而Apriori算法就是 ...
Apriori算法在购物篮分析中的运用
购物篮分析是一个很经典的数据挖掘案例,运用到了Apriori算法.下面从网上下载的一超市某月份的数据库,利用Apriori算法进行管理分析.例子使用Python+MongoDB 处理过程1 数据建模( ...

随机推荐

【Java 基础实例—Bank 项目1】
(上图Wie任务要求的UML结构) Account.java 文件: package Banking_1; public class Account { private double balance; ...
Linux如何判断自己的服务器是否被入侵
如何判断自己的服务器是否被入侵了呢?仅仅靠两只手是不够的,但两只手也能起到一些作用,我们先来看看UNIX系统上一些入侵检测方法,以LINUX和solaris为例. 1.检查系统密码文件首先从明显的入 ...
P5657 格雷码
思路考场上的递归思路每次向下递归的时候判断是左半边还是右半边即可注意向右半边递归之后下一层序列要反转过来即可代码 #include <cstdio> #include <al ...
k8s部署dashboard
1.首先去github上找到kubernetes 2.然后找到get started 3.复制yaml文件地址,并wget到服务器上并部署即可 PS:本文把自己部署的yaml文件贴出来:recomme ...
bzoj3993: [SDOI2015]星际战争（二分+最大流）
题目描述 3333年,在银河系的某星球上,X军团和Y军团正在激烈地作战. 在战斗的某一阶段,Y军团一共派遣了N个巨型机器人进攻X军团的阵地,其中第i个巨型机器人的装甲值为Ai.当一个巨型机器人的装甲值 ...
html([val|fn])
html([val|fn]) 概述取得第一个匹配元素的html内容.这个函数不能用于XML文档.但可以用于XHTML文档.直线电机选型在一个 HTML 文档中, 我们可以使用 .html() 方法 ...
头条编程题万万没想到之抓捕孔连顺 JavaScript
[编程题] 万万没想到之抓捕孔连顺时间限制:1秒空间限制:131072K 我叫王大锤,是一名特工.我刚刚接到任务:在字节跳动大街进行埋伏,抓捕恐怖分子孔连顺.和我一起行动的还有另外两名特工,我提议 ...
了解Springboot加载文件机制
https://blog.csdn.net/u014044812/article/details/84256764(
codeforces997C
Sky Full of Stars CodeForces - 997C On one of the planets of Solar system, in Atmosphere University, ...
初次接触python，怎么样系统的自学呢？
关注专栏写文章登录给伸手党的福利:Python 新手入门引导 Crossin 2 个月前这是一篇 Python 入门指南,针对那些没有任何编程经验,从零开始学习 Python 的同学.不管你 ...

Apriori算法--Python实现

Apriori算法--Python实现的更多相关文章

随机推荐

热门专题