机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
[comment]: # 机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言
最近在看Peter Harrington写的“机器学习实战”,这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析。
基本概念
关联分析(association analysis)或者关联规则学习(association rule learning)
这是非监督学习的一个特定的目标:发现数据的关联(association)关系。简单的说,就是那些数据(或者数据特征)会一起出现。
关联分析的目标包括两项:发现频繁项集和发现关联规则。首先需要找到频繁项集,然后才能获得关联规则。
频繁项集告诉我们哪些项集会经常出现,以及出现的支持概率。
关联规则告诉我们频繁项集中出现的关联规则,哪些原因项的出现决定另外一些结果项的出现,以及规则的可信概率。关联(association)
一个关联是一个满足最小支持度的项集。关联规则(association rule)
关联规则
Where \\
\qquad X,Y\subseteq I \text{ and } X\cap Y=\emptyset \\
\qquad \text{I: an items set}
\]
前提集(antecedent)
也称为前件、左手边。是关联规则\(X \Rightarrow Y\)的\(X\)部分。结果集(consequent)
也称为前后件、右手边。是关联规则\(X \Rightarrow Y\)的\(Y\)部分。项集 (items set)
一个项集包含一个或者多个元素项。
比如:{a} {b} {c} {ab} {ac} {bc} {abc}是7个项集。子集
{a} {b} {c} {ab} {ac} {bc} 都是的{abc}一个子集。超集
与子集相反:{ab}是{a}的一个超集。支持度(support)
关联项集的频繁度。可信度(confidence)
关联规则的可信度。
核心算法
Apriori算法:生成频繁项集
Apriori 是 A priori, “一个先验”的意思。可以说是一种发现关联的优化算法。
以购买商品为例,每条数据是一个交易的商品清单。我们是否可以发现哪些商品组合更容易出现?
客户可能购买1个商品,或者最多n个商品,如果商店一共有m个商品,那么共有种 \(\textstyle \coprod_{i=1}^n {m + 1 -i}\) 组合方式。
计算每种组合方式的出现概率虽然看起来简单,但是效率非常低。
Apriori生成频繁项集算法的原理说明
如果一个项集是非频繁集,那么它的所有超集也是非频繁的。
假设数据集中只有4元素:1234
可能的关联规则根据结果项的项数分为4个level:
发现{4}是一个低支持度项集,则在Level 2中剪除含有{4}的项集,以此类推。
Level 1: 1; 2; 3; 4
Level 2: 12; 13; 14; 23; 24; 34
Level 3: 123; 124; 134; 234
Level 4: 1234输入
- DateSet
- 最小支持度:Minimum Support
输出
- 项集[项数 - 1, 项集]
- 项集的支持度[项集, 支持度]
逻辑过程
因此,它先计算1个元素的概率,去掉不满足最小支持度的项集,得到项集集合C1和每个项集的支持度;
然后在项集集合C1的基础上,找2个元素的支持度(这时将不会考虑去掉的项集,所以性能会优化),再去掉不满足最小支持度的2项项集,得到项集C2和每个项集的支持度;
以此类推,直到得到项集Cm和每个项集的支持度。
Apriori算法:从频繁项集中生成关联规则
Apriori生成关联规则算法的原理说明
在一个频繁项集中,如果p -> h是一条低可信度规则,那么,所有其它以h的超集作为后件的规则,可信度也会较低。
关联规则是根据每个项集生成的。我们举个有4个项的项集为例:
项集:1234
可能的关联规则根据结果项的项数分为3个level:
发现[123 > 4]是一个低可信度规则,则在Level 2中剪除结果项集中含有{4}的规则,以此类推。
Level 1: 234 > 1; 134 > 2; 124 > 3; 123 > 4
Level 2: 34 > 12; 24 > 13; 23 > 14; 14 > 23; 13 > 24; 12 > 34
Level 3: 4 > 123; 3 > 124; 2 > 134; 1 > 234generateRules
- 输入
- 频繁项集[项数 - 1, 项集]
- 项集的支持度[项集, 支持度]
- 最小可信度:Minimum confidence
- 输出
- 关联规则[因项集,果项集,可信度]
- 逻辑过程
- 输入
对每个Level的项集(Level>0):
对当前Level的每个项集:
获取项集的元素List.
如果Level = 1(2个项数的项集):
calculateConfidence(当前项集,元素List,项集的支持度,关联规则, 最小可信度)
如果Level > 1(至少3个项数的项集):
rulesFromConsequence(当前项集,元素List,项集的支持度,关联规则, 最小可信度)
- calculateConfidence
- 输入
- 项集
- 目标项集List
- 项集的支持度[项集, 支持度]
- 关联规则[因项集,果项集,可信度]
- 最小可信度:Minimum confidence
- 输出
- 有效目标集
- 逻辑过程
- 输入
对每个目标项集
计算当前目标项集在当前项集上的可信度。
如果可信度大于最小可信度:
把[当前项集 - 目标项集, 目标项集, 可信度]加入关联规则;
把当前目标项集加入有效目标集。
返回有效目标集
- rulesFromConsequence
- 输入
- 项集
- 目标项集List
- 项集的支持度[项集, 支持度]
- 关联规则[因项集,果项集,可信度]
- 最小可信度:Minimum confidence
- 输出
- 无
- 逻辑过程
- 输入
得到目标项集长度m.
如果当前项集元素的长度 > m + 1:
得到目标项集元素个数为m + 1的目标项集List。
有效目标集 = calculateConfidence(当前项集,目标项集,项集的支持度,关联规则, 最小可信度)
如果有效目标集的长度 > 1:
rulesFromConsequence(当前项集,有效目标集,项集的支持度,关联规则, 最小可信度)。
核心公式
- 支持度(support level):
where \\
\qquad S(C, X) : 项集C的支持度 \\
\qquad C : 项集 \\
\qquad X : 数据集
\]
- 可信度(confidence level): 一条规则P -> H的可信度定义为:
where \\
\qquad C(P, H) : 关联规则P -> H的可信度 \\
\qquad P : 项集 \\
\qquad H : 项集 \\
\qquad support(P) : 项集P的支持度 \\
\qquad support(P | H) : 项集P,H并集的支持度
\]
参考
- Machine Learning in Action by Peter Harrington
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析的更多相关文章
- 机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
- 机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析 关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...
- 机器学习实战读书笔记(二)k-近邻算法
knn算法: 1.优点:精度高.对异常值不敏感.无数据输入假定 2.缺点:计算复杂度高.空间复杂度高. 3.适用数据范围:数值型和标称型. 一般流程: 1.收集数据 2.准备数据 3.分析数据 4.训 ...
- 机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想 在使用某个特定的算法是, ...
- 【机器学习实战】第11章 使用 Apriori 算法进行关联分析
第 11 章 使用 Apriori 算法进行关联分析 关联分析 关联分析是一种在大规模数据集中寻找有趣关系的任务. 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出 ...
- 机器学习实战 - 读书笔记(13) - 利用PCA来简化数据
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第13章 - 利用PCA来简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. ...
- 【转载】 机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...
- 【机器学习实战学习笔记(1-1)】k-近邻算法原理及python实现
笔者本人是个初入机器学习的小白,主要是想把学习过程中的大概知识和自己的一些经验写下来跟大家分享,也可以加强自己的记忆,有不足的地方还望小伙伴们批评指正,点赞评论走起来~ 文章目录 1.k-近邻算法概述 ...
- 机器学习实战 - 读书笔记(14) - 利用SVD简化数据
前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第14章 - 利用SVD简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. 基 ...
随机推荐
- 在Win8.1系统下如何安装运行SQL Server 2005 (以及安装SQL Server 2005 Express打补丁)
在Win8.1系统下SQL Server 2005 安装失败怎么办? 需要替换两个文件及打sqlserver sp4补丁. 以下是操作过程. 按正常情况,在Win8/Win8.1系统下安装微软的SQL ...
- Base64的编码转换方式
下面,详细介绍Base64的编码转换方式. 所谓Base64,就是说选出64个字符----小写字母a-z.大写字母A-Z.数字0-9.符号"+"."/"(再加上 ...
- 推荐几个学习Node的网址:
推荐几个学习Node的网址: Nodejs 安装教程 http://jingyan.baidu.com/article/a948d6515d4c850a2dcd2e18.html http://nod ...
- Spark源码系列(八)Spark Streaming实例分析
这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照<Spark Streaming编程指南>. Example代码分析 val ssc = )); // 获 ...
- CSS代码原则
css的团队合作规则以及怎样写出高性能的css代码. 一.使用Reset但并非全局Reset 同浏览器元素的默认属性有所不同,使用Reset可重置浏览器元素的一些默认属性,以达到浏览器的兼容.但需要注 ...
- Physical Based Shading in Unreal Engine 3
Roughness = 0.1roughness = 0.4roughness = 0.7roughness = 0.999 以上的Fresnel 0° = {1.0,0.86.0.57}(PS: 近 ...
- nodejs之获取客户端真实的ip地址+动态页面中引用静态路径下的文件及图片等内容
1.nodejs获取客户端真实的IP地址: 在一般的管理网站中,尝尝会需要将用户的一些操作记录下来,并记住是哪个用户进行操作的,这时需要用户的ip地址,但是往往当这些应用部署在服务器上后,都使用了ng ...
- UML系列01之 UML和绘图工具Visio介绍
概要 UML,全称是Unified Modeling Language,中文是"统一建模语言".通俗点说,UML是一种创建模型的语言.UML是在开发阶段,说明,可视化,构建和书写一 ...
- Tip8:Unity中诸如 Awake() Start() Update()等函数的 执行顺序
Unity脚本中有很多的事件函数,下面是各种函数的执行顺序: 1.reset(); 2.Awake(); 3.OnEnable; 4.OnLevelWasLoaded(); 5.Start(); 6. ...
- [Node.js] 也说this
原文地址:http://www.moye.me/2014/11/21/也说this/ 引子 Any sufficiently advanced technology is indistinguisha ...