基于Hadoop的改进Apriori算法

一、Apriori算法性质

性质一：

候选的k元组集合Ck中，任意k-1个项组成的集合都来自于Lk.

性质二：

若k维数据项目集X={i1,i2,…,ik}中至少存在一个j∈X，使得|L(k-1)(j)|<k-1,则X不是频繁项集。即若Lk-1中有一个元素C包含一个项目i，使得|L(k-1)(j)|<k-1，则所有Lk-1与C中元素连接生成的候选k维数据项集不可能是频繁项目集。

eg.购物篮中的任意一个项，如果它没有出现在至少本篮中两个项组成的至少两个频繁项对中，那么它不会是本篮中频繁三元组中的一部分;
？？？？？？宝宝觉得这里有问题：“……所有Lk-1与C中元素连接生成的……”，本宝宝觉得这里应该是“与i连接”而不是“与C中元素连接”。
举个例子理解一下。

性质三：

候选k项集都是由两个频繁（k-1）项集进行连接产生的，并且这两个频繁k-1项集中的k-2个项目都是相同的。->候选k项集是由前k-2个项目相同的两个频繁k-1项集连接产生的。

可以理解为候选频繁k项集是由频繁k-1项集再加上一个频繁项组成，而这个频繁项可以根据上述的性质二来缩小范围。

二、Apriori算法在hadoop下的改进

1、缺陷分析

候选项集的支持度统计效率低
候选项目集键值对产生数量大

2、算法改进步骤：

a、单词计数统计方法本身是用来统计未知的单词，能充分发挥优势和性能，可以用来计算候选1项集的支持度，从而生成频繁1项集：
- 用MapReduce编程模型，将一个事物在数据模型中的行位置座位Map函数的键，以该事物的内容作为Map函数的输出；
- 然后再以该事物所包含的候选项集作为键，以布尔值1作为输出；
- 对每个键的所有1值进行累加操作，计算出各个候选1项集的支持度。
- 根据设定的最小支持度生成频繁1项集。
b、将数据分割思想应用到计算候选项集的支持度计算中：

由上述性质三可以建立MapReduce模型，将频繁k-1项集中相同的k-1个项目（即k-2项）作为Map函数的键，将不同的项目作为值，根据性质二缩小范围，Reduce函数对键值进行规约，相同键就会被规约到同一个Reduce中，从而对两个频繁k-1项集进行连接产生候选k项集。

基于Hadoop的改进Apriori算法的更多相关文章

基于spark实现并行化Apriori算法
详细代码我已上传到github:click me 一. 实验要求在 Spark2.3 平台上实现 Apriori 频繁项集挖掘的并行化算法.要求程序利用 Spark 进行并行计算. ...
mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储
摘自:http://blog.fens.me/mahout-recommendation-api/ 测试程序:RecommenderTest.java 测试数据集:item.csv 1,101,5.0 ...
使用hadoop平台运行Apriori算法
https://blog.csdn.net/laotumingke/article/details/66973260 https://blog.csdn.net/qq_24369113/article ...
Apriori算法详解
一.Apriori 算法概述Apriori 算法是一种最有影响力的挖掘布尔关联规则的频繁项集的算法,它是由Rakesh Agrawal 和RamakrishnanSkrikant 提出的.它使用一种 ...
海量数据挖掘MMDS week2: 频繁项集挖掘 Apriori算法的改进：基于hash的方法
http://blog.csdn.net/pipisorry/article/details/48901217 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
海量数据挖掘MMDS week2: 频繁项集挖掘 Apriori算法的改进：非hash方法
http://blog.csdn.net/pipisorry/article/details/48914067 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
#研发解决方案#基于Apriori算法的Nginx+Lua+ELK异常流量拦截方案
郑昀基于杨海波的设计文档创建于2015/8/13 最后更新于2015/8/25 关键词:异常流量.rate limiting.Nginx.Apriori.频繁项集.先验算法.Lua.ELK 本文档 ...
基于Apriori算法的Nginx+Lua+ELK异常流量拦截方案郑昀基于杨海波的设计文档（转）
郑昀基于杨海波的设计文档创建于2015/8/13 最后更新于2015/8/25 关键词:异常流量.rate limiting.Nginx.Apriori.频繁项集.先验算法.Lua.ELK 本文档 ...
推荐系统第4周--- 基于频繁模式的推荐系统和关联规则挖掘Apriori算法
数据挖掘:关联规则挖掘

随机推荐

PreparedStatement接口
从实际来讲,Statement现在已经不使用了,他已经称为了历史. Statement执行关键性问题在于他需要一个完整的字符串定义要使用的SQL语句,而PreparedStatement可以动态的设 ...
BZOJ3202 [Sdoi2013]项链
Problem E: [Sdoi2013]项链 Time Limit: 30 Sec Memory Limit: 512 MBSubmit: 427 Solved: 146[Submit][Sta ...
数据可视化－OmniGraffle软件
OmniGraffle Pro for mac破解版是一款运行在MAC OS平台上的思维导图流程图制作软件,通过思维导图软件(OmniGraffle Pro MAC)帮你组织头脑中思考的信息,组织头脑 ...
【Xilinx-Petalinux学习】-08-OpenAMP系统实现
openAMP系统实现. 一个核跑Linux,一个核裸跑. -----> 已经实现. 一个核跑Linux,一个核跑UCOS -----> 还未实现. Micrium的uco ...
谈谈jconsole和jvisualvm
环境Eclipse-Mars ,JDK1.7 JConsole 一.首先需要配置参数参数有两种配置连接方式:(原理我还不太懂) 1.在eclipse中添加项目右键-->>Debug a ...
PHP与MySql建立连接
通过PHP脚本建立与一个MySQL数据库的连接时,数据库服务器的主机位置(在本地就是localhost).用户名(root).密码.和数据库名是必须的.一旦建立连接,脚本就能执行SQL命令.二者联系的 ...
使用PHP和HTML5 FormData实现无刷新文件上传教程
无刷新文件上传是一个常见而又有点复杂的问题,常见的解决方案是构造 iframe 方式实现. 在 HTML5 中提供了一个 FormData 对象 API,通过 FormData 可以方便地构造一个表单 ...
OD提示 "为了执行系统不支持的动作, OllyICE 在这个被调试的程序中注入了一点代码, 但是经过5秒仍未收到响应..." 解决办法
别的OD就可以,我自己整合过的一个很顺手的OD就是不行,最后找到了解决办法: 转自:http://bbs.pediy.com/showthread.PHP?t=97629 -------------- ...
C# App.config配置文件的讲解
App.config是C#开发WinForm程序的配置文件,开发Web程序的配置文件叫Web.config.本文介绍App.config的简介使用. 我们先来打开一个App.config文件,看看它的 ...
winform的Textbox设置只读之后ForeColor无效的解决方法
winform的Textbox设置只读之后ForeColor无效. 通过以下方法就可以解决: 设置为只读之后,把BackColor改一下,然后运行一下窗口,再设置ForeColor就没问题了. tbT ...

基于Hadoop的改进Apriori算法

一、Apriori算法性质

性质一：

性质二：

性质三：

二、Apriori算法在hadoop下的改进

1、缺陷分析

2、算法改进步骤：

基于Hadoop的改进Apriori算法的更多相关文章

随机推荐

热门专题