[comment]: # 机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析

前言

最近在看Peter Harrington写的“机器学习实战”,这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析。

基本概念

  • 关联分析(association analysis)或者关联规则学习(association rule learning)

    这是非监督学习的一个特定的目标:发现数据的关联(association)关系。简单的说,就是那些数据(或者数据特征)会一起出现。

    关联分析的目标包括两项:发现频繁项集和发现关联规则。首先需要找到频繁项集,然后才能获得关联规则。

    频繁项集告诉我们哪些项集会经常出现,以及出现的支持概率。

    关联规则告诉我们频繁项集中出现的关联规则,哪些原因项的出现决定另外一些结果项的出现,以及规则的可信概率。

  • 关联(association)

    一个关联是一个满足最小支持度的项集。

  • 关联规则(association rule)

    关联规则

\[X \Rightarrow Y \\
Where \\
\qquad X,Y\subseteq I \text{ and } X\cap Y=\emptyset \\
\qquad \text{I: an items set}
\]

  • 前提集(antecedent)

    也称为前件、左手边。是关联规则\(X \Rightarrow Y\)的\(X\)部分。

  • 结果集(consequent)

    也称为前后件、右手边。是关联规则\(X \Rightarrow Y\)的\(Y\)部分。

  • 项集 (items set)

    一个项集包含一个或者多个元素项。

    比如:{a} {b} {c} {ab} {ac} {bc} {abc}是7个项集。

  • 子集

    {a} {b} {c} {ab} {ac} {bc} 都是的{abc}一个子集。

  • 超集

    与子集相反:{ab}是{a}的一个超集。

  • 支持度(support)

    关联项集的频繁度。

  • 可信度(confidence)

    关联规则的可信度。

核心算法

Apriori算法:生成频繁项集

Apriori 是 A priori, “一个先验”的意思。可以说是一种发现关联的优化算法。

以购买商品为例,每条数据是一个交易的商品清单。我们是否可以发现哪些商品组合更容易出现?

客户可能购买1个商品,或者最多n个商品,如果商店一共有m个商品,那么共有种 \(\textstyle \coprod_{i=1}^n {m + 1 -i}\) 组合方式。

计算每种组合方式的出现概率虽然看起来简单,但是效率非常低。

  • Apriori生成频繁项集算法的原理说明

    如果一个项集是非频繁集,那么它的所有超集也是非频繁的。

    假设数据集中只有4元素:1234

    可能的关联规则根据结果项的项数分为4个level:

    发现{4}是一个低支持度项集,则在Level 2中剪除含有{4}的项集,以此类推。

    Level 1: 1; 2; 3; 4

    Level 2: 12; 13; 14; 23; 24; 34

    Level 3: 123; 124; 134; 234

    Level 4: 1234

  • 输入

    • DateSet
    • 最小支持度:Minimum Support
  • 输出

    • 项集[项数 - 1, 项集]
    • 项集的支持度[项集, 支持度]
  • 逻辑过程

  1. 因此,它先计算1个元素的概率,去掉不满足最小支持度的项集,得到项集集合C1和每个项集的支持度;
  2. 然后在项集集合C1的基础上,找2个元素的支持度(这时将不会考虑去掉的项集,所以性能会优化),再去掉不满足最小支持度的2项项集,得到项集C2和每个项集的支持度;
  3. 以此类推,直到得到项集Cm和每个项集的支持度。

Apriori算法:从频繁项集中生成关联规则

  • Apriori生成关联规则算法的原理说明

    在一个频繁项集中,如果p -> h是一条低可信度规则,那么,所有其它以h的超集作为后件的规则,可信度也会较低。

    关联规则是根据每个项集生成的。我们举个有4个项的项集为例:

    项集:1234

    可能的关联规则根据结果项的项数分为3个level:

    发现[123 > 4]是一个低可信度规则,则在Level 2中剪除结果项集中含有{4}的规则,以此类推。

    Level 1: 234 > 1; 134 > 2; 124 > 3; 123 > 4

    Level 2: 34 > 12; 24 > 13; 23 > 14; 14 > 23; 13 > 24; 12 > 34

    Level 3: 4 > 123; 3 > 124; 2 > 134; 1 > 234

  • generateRules

    • 输入

      • 频繁项集[项数 - 1, 项集]
      • 项集的支持度[项集, 支持度]
      • 最小可信度:Minimum confidence
    • 输出
      • 关联规则[因项集,果项集,可信度]
    • 逻辑过程
  1. 对每个Level的项集(Level>0):
  2. 对当前Level的每个项集:
  3. 获取项集的元素List.
  4. 如果Level = 1(2个项数的项集):
  5. calculateConfidence(当前项集,元素List,项集的支持度,关联规则, 最小可信度)
  6. 如果Level > 1(至少3个项数的项集):
  7. rulesFromConsequence(当前项集,元素List,项集的支持度,关联规则, 最小可信度)
  • calculateConfidence

    • 输入

      • 项集
      • 目标项集List
      • 项集的支持度[项集, 支持度]
      • 关联规则[因项集,果项集,可信度]
      • 最小可信度:Minimum confidence
    • 输出
      • 有效目标集
    • 逻辑过程
  1. 对每个目标项集
  2. 计算当前目标项集在当前项集上的可信度。
  3. 如果可信度大于最小可信度:
  4. 把[当前项集 - 目标项集, 目标项集, 可信度]加入关联规则;
  5. 把当前目标项集加入有效目标集。
  6. 返回有效目标集
  • rulesFromConsequence

    • 输入

      • 项集
      • 目标项集List
      • 项集的支持度[项集, 支持度]
      • 关联规则[因项集,果项集,可信度]
      • 最小可信度:Minimum confidence
    • 输出
    • 逻辑过程
  1. 得到目标项集长度m.
  2. 如果当前项集元素的长度 > m + 1:
  3. 得到目标项集元素个数为m + 1的目标项集List
  4. 有效目标集 = calculateConfidence(当前项集,目标项集,项集的支持度,关联规则, 最小可信度)
  5. 如果有效目标集的长度 > 1:
  6. rulesFromConsequence(当前项集,有效目标集,项集的支持度,关联规则, 最小可信度)。

核心公式

  • 支持度(support level):

\[S(C, X) = \frac{count(C)}{len(X)} \\
where \\
\qquad S(C, X) : 项集C的支持度 \\
\qquad C : 项集 \\
\qquad X : 数据集
\]

  • 可信度(confidence level): 一条规则P -> H的可信度定义为:

\[C(P, H) = \frac{support(P | H)}{support(P)} \\
where \\
\qquad C(P, H) : 关联规则P -> H的可信度 \\
\qquad P : 项集 \\
\qquad H : 项集 \\
\qquad support(P) : 项集P的支持度 \\
\qquad support(P | H) : 项集P,H并集的支持度
\]

参考

  • Machine Learning in Action by Peter Harrington

机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析的更多相关文章

  1. 机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集

    前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...

  2. 机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析

    机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析 关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...

  3. 机器学习实战读书笔记(二)k-近邻算法

    knn算法: 1.优点:精度高.对异常值不敏感.无数据输入假定 2.缺点:计算复杂度高.空间复杂度高. 3.适用数据范围:数值型和标称型. 一般流程: 1.收集数据 2.准备数据 3.分析数据 4.训 ...

  4. 机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能

    前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想 在使用某个特定的算法是, ...

  5. 【机器学习实战】第11章 使用 Apriori 算法进行关联分析

    第 11 章 使用 Apriori 算法进行关联分析 关联分析 关联分析是一种在大规模数据集中寻找有趣关系的任务. 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出 ...

  6. 机器学习实战 - 读书笔记(13) - 利用PCA来简化数据

    前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第13章 - 利用PCA来简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. ...

  7. 【转载】 机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能

    原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...

  8. 【机器学习实战学习笔记(1-1)】k-近邻算法原理及python实现

    笔者本人是个初入机器学习的小白,主要是想把学习过程中的大概知识和自己的一些经验写下来跟大家分享,也可以加强自己的记忆,有不足的地方还望小伙伴们批评指正,点赞评论走起来~ 文章目录 1.k-近邻算法概述 ...

  9. 机器学习实战 - 读书笔记(14) - 利用SVD简化数据

    前言 最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第14章 - 利用SVD简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. 基 ...

随机推荐

  1. distri.lua重写开源手游服务器框架Survive

    Survive之前采用的是C+lua的设计方式,其中网关服务器全部由C编写,其余服务全部是C框架运行lua回调函数的方式编写游戏逻辑. 鉴于一般的手游对服务器端的压力不会太大,便将Survive用di ...

  2. 数据库必会必知 之 SQL四种语言:DDL DML DCL TCL

    作者:泥瓦匠 今天群里面讨论,DDL 还是 DML,我这种小白还是总结下他们的区别吧. 1. DDL - Data Definition Language 数据库定义语言:定义数据库的结构. 其主要命 ...

  3. Zynq学习笔记(1)

    做硬件的第一个实例,一般当然是LED点灯啦~ 硬件:ZedBoard 软件:ISE 14.7 1.新建工程 2.选择平台 3.新建完成后,输入如下代码: `timescale 1ns / 1ps // ...

  4. Android showing LoadingView or EmptyView for Activity or Fragment

    这几天利用一些时间,整理了一下,写了一个简单的工具类,用来快速的显示LoadingView或者EmptyView,以前都是定义一个layout,根布局为FrameLayout,再在layout布局文件 ...

  5. js判定IE

    var ie=!-[1,]; 这句话对于多数前端来说都很熟悉,遇到判定是否是ie浏览器就用这个,但是对于由来以及为什么可能没有深入了解过. 短短6个bytes就做了判定.这个表达式是利用IE和标准浏览 ...

  6. 十、EnterpriseFrameWork框架的分层架构及意义(控制器、业务对象、实体、Dao之间关系)

    本章内容主要包括两个方面,一.是框架分层(控制器.业务对象.实体.Dao)的详细说明,二.是对比常用三层结构的区别和优势: 本文要点: 1.框架中的各个分层详细说明 2.对比常用三层结构的区别和优势 ...

  7. MyBatis知多少(21)更新操作

    上一章展示了如何使用MyBatis对表进行读取操作.本章将告诉你如何在一个表中使用MyBatis更新记录. 我们已经在MySQL下有EMPLOYEE表: CREATE TABLE EMPLOYEE ( ...

  8. Git 文件比较

    Git 的三个作业场: 工作区(Work Tree) 项目根目录下 .git 目录以外所有区域,是编辑项目文件的地方. 缓存区(Index) 工作区文件必须先保存在缓存区,之后从缓存区保存到仓库. 仓 ...

  9. Shader的语法

    Shader "name" { [Properties] Subshaders [Fallback] }(1)Properties:{ Property [Property ... ...

  10. JS&CSS文件请求合并及压缩处理研究(三)

    上篇我们进行了一些代码方面的准备工作.接下来的逻辑是:在View页面解析时,通过 Html.AppendResFile 方法添加的资源文件,我们需要按照分组.优先级,文件名等条件,对其路径进行合并.具 ...