(转载)微软数据挖掘算法:Microsoft 关联规则分析算法(7)

前言

本篇继续我们的微软挖掘算法系列总结，前几篇我们分别介绍了：微软数据挖掘算法：Microsoft 决策树分析算法（1）、微软数据挖掘算法：Microsoft 聚类分析算法（2）、微软数据挖掘算法：Microsoft Naive Bayes 算法（3）、微软数据挖掘算法:Microsoft 时序算法(5)，后续还补充了二篇微软数据挖掘算法：结果预测篇(4)、微软数据挖掘算法:Microsoft 时序算法之结果预测及其彩票预测(6)，看样子有必要整理一篇目录了，不同的算法应用的场景也是不同的，每篇文章都有它自己的应用场景介绍，有兴趣的同学可以参阅。本篇我们总结微软挖掘算法系列中一款比较重要的算法：Microsoft关联规则分析算法，根据马克思哲学理论，所谓世间万物皆有联系，而且联系是普遍的，此篇的Microsoft关联规则算法就是用来挖掘关联关系的典型算法，闲言少叙，我们直接进入正题。

应用场景介绍

关联规则算法是在大量数据事例中挖掘项集之间的关联或相关联系，它典型的应用就是购物篮分析，通过关联规则分析帮助我们发现交易数据库中不同的商品（项）之间的联系，找到顾客购买行为模式，如购买某一个商品对其它商品的影响。进而通过挖掘结果应用于我们的超市货品摆放、库存安排、电子商务网站的导航安排、产品分类、根据购买模式对用户进行分类，相关产品推荐等等。

比较典型的为大家所熟知的就是：啤酒和尿布的故事

其实很多电子商务网站中在我们浏览相关产品的时候，它的旁边都会有相关产品推荐，当然这些它们可能仅仅是利用了分类的原理，将相同类型的的产品根据浏览量进而推荐给你，这也是关联规则应用的一种较简单的方式，而关联规则算法是基于大量的数据事实，通过数据层面的挖掘来告诉你某些产品项存在关联，有可能这种关联关系有可能是自身的，比如：牙刷和牙膏、筷子和碗...有些本身就没有关联是通过外界因素所形成的关系，经典的就是：啤酒和尿布，前一种关系通过常识我们有时候可以获取，但后一种关系通过经验就不易获得，而我们的关联规则算法解决的就是这部分问题。

技术准备

（1）微软案例数据仓库（AdventureWorksDW208R2），这里我们应用到两张表：vAssocSeqLineItems 表和 vAssocSeqOrders 表，这两张表典型的“一对多”的关联关系，vAssocSeqOrders为订单表，vAssocSeqLineItems 表为订单明细表，两者通过OrderNumber关联，稍后的步骤我们会详细的分析这两张表内容

（2）VS2008、SQL Server、 Analysis Services

操作步骤

（1）我们这里还是利用上一期的解决方案，然后数据源，然后数据源视图，很简单的步骤，不明白的可以看我们前面几篇文章，然后将这两张表的主外键关联上，我们来看图：

很基础的东西，这里不做过多的解释，Orders为主表，Items为明细表，通过CustomerKey主键进行关联，下面我们浏览下这两张表里面的数据：

vAssocSeqOrders表内容很简单：订单号（逻辑主键）、客户号（客户表的外键）、地区、收入类型，别的没啥可预览的，这种表是太基础的内容，来看另外一张表：

vAssocSeqLineItems表，订单号（外键）、购买数量、购买产品，很简单的一张表

（2）新建挖掘结构

这里我们新建这个数据的挖掘模型，很简单的下一步、下一步就行，有不明白的可以参照我以前的内容或者私信我，我们来看几个关键的步骤：

这里我们选择Microsoft关联规则算法，然后下一步：

这里我们标示好事例表和嵌套表，下一步我们指定定型数据

这这里面我们配置好键、和输入、输出预测列，然后起个名字：relevance

至此，我们的Microsoft关联规则分析算法已经初步建立好了，下面一步我们来配置该算法几个关键属性值。

（3）参数配置

此种算法有两个参数比较重要，我们来看：

Support:定义规则被视为有效前必须存在的事例百分比。也就是说作为关联规则筛选的事例可能性，比如设置成10%，也就是说在只要在所有事例中所占比为10%的时候才能进行挖掘。

Probability:定义关联被视为有效前必须存在的可能性。该参数是作为结果筛选的一个预定参数，比如设置成10%，也就是说在预测结果中概率产生为10%以上的结果值才被展示。

我们将该模型的两个参数设置为：

MINIMUM_PROBABILITY = 0.2

MINIMUM_SUPPORT = 0.01

我们部署该模型，然后运行，我们来查看结果。

结果分析

部署完程序之后，我们通过“挖掘模型查看器”进行查看分析，不废话，我们直接看图：

从上面的截图中我们可以看到，Microsoft关联规则算法有三个面板来展示结果：规则、项集、依赖关系网络

下面我们分别来介绍这三个面板，第一个，规则：

上面有几个条件筛选项，第一个就是设置最小概率值，也就是上面我们新建模型设置的参数，第二个是是筛选规则，通过它我们找到相应的产品方便我们查看，还有一个重要性的参数，同样的对于下面结果中的第二列可能性列，最大行数设置显示的行数。

下面结果的表格中，第一列概率的值就是产品之前会产生关联的概率，按照概率从大到小排序，第二列为可能性，该度量规则的有用性。该值越大则意味着规则越有用，设置该规则的目的是避免只使用概率可能发生误导，比如有时候超市里举行促销活动会每个人都免费给一间物品，如果仅仅根据概率去推测，这件物品的概率将是1，但是这个规则是不准确的，因为它没有和其它商品发生任何关联，也就是说该值是无意义的，所以才出现了“重要性”列。

第三列即为我们的挖掘出来的结果项，前面为已有的产品项，‘—>’后面的即为推测的产品项，我们举个例子，比如：

经过排序可以看到，上图中的该条规则项为关联规则最强的一种组合：前面的为：山地自行车（Mountain-200）、山地自行车内胎（Mountain Tire Tube）然后关联关系最强的为：自行车轮胎(HL Mountain Tire)

嗯，有道理的很呀，有了山地自行车了，然后同样也具备山地自行车内胎，剩下的就是需要自行车轮胎了。

其它的也是同样的分析方法，这里我们就不分析了，有兴趣的可以自己分析，嘿..我看到上面的第三条：

自行车（Road-750）、水壶（Water Bottle）->自行车水壶框（Road Bottle Cage）

....自行车、水壶，肯定得买个自行车水壶框了......

这个水壶好有个性，下面我们来具体看看跟这个利器有关的商品有哪些....嘿嘿...我们来看图：

我那个去....瞅瞅...第一个结果：水壶框（Road Bottle Cage、Mountain Bottle Cage）...下面我目测了下...我可以明确的告诉你，丫的..这个名字叫Water Bottle(水壶...嘿嘿原谅我的E文能力)的利器最相关的就是水壶框（Bottle Cage）了...

超市里东西怎么摆放？网站上该产品的相关推荐该推荐神马？有一个顾客已经买了这个东西你推荐它啥懂了吧？......

下面我们来看第二个面板能告诉我们什么，我们打开“项集”面板：

这个面板也简单的很，上面有几个筛选框设置我们的最低支持数，最小的项集大小，最大行数，这个没啥说的，很简单，下面的结果集显示的为我们的数据集合中“支持”的事例集合个数、然后“大小”就是该规则下里面的项集的个数，第三列就是项集的详细了。

我去...上面我们分析的水壶（Water Bottle）竟然排在了第一行，该行中的项集明细为：山地自行车（Mountain-200）、水壶（Water Bottle）、自行车水壶框（Road Bottle Cage），第二行也有，看来这厮看来很有分析价值，我们后续接着分析，嘿嘿

我们进入第三个面板“依赖关系网络”，我们来看：

这幅图已经很熟悉了吧，前几篇文章中均有介绍，分析各种产品之间的关联关系的强弱，拖动右侧的滑动条然后进行分析

嘿嘿...我小心翼翼的拖动了这个滑动条...试图找找上面我们分析的哪款利器（Water Bottle）:

嘿嘿...找到了，上图中就标示了这玩意相关的商品，我们来看Mountain Bottle Cage、Road Bottle Cage这两个都是双向关联，然后Road-750、Cycling Cap、Hydration Pack...

其它的商品也利用这种规则进行分析，有兴趣的可以自己分析。

推测结果导出

我们到此步骤直接将该模型的分析结果进行预测，暂且不验证其准确性，直接将结果导出，来看看该算法的应用项，我们进入“挖掘模型预测”：

在下面的网格中设置我们的挖掘筛选规则，点击“源”，选择“预测函数”，选择PredictAssociation,将vAssocSeqLineItems，将其拖到网格中 PredictAssociation 函数的“条件/参数”框。然后设置该参数为[Association].[v Assoc Seq Line Items],3

我们点击运行，直接来查看结果：

看，上面的Microsoft关联规则算法给我们推荐出来关联性最强的三种产品，分别为：Sport-100、Water Bottle、Patch kit...

当然有时候我需要只查看某一种商品，不关系其它的产品有什么关联关系，我们来做单独查询，我们在菜单中的“挖掘模型”，然后选择“单独查询”：

点击开单独筛选的条件框：

在“嵌套表输入”对话框中，选择“键列”窗格中的 Touring Tire

我们点击运行，来查看结果：

可以看到这里我们只是筛选出了该商品的关联关系结果集，当然这里我们可以显示出该产品之间的关联的关系值，这里我们直接写语句：

点击运行，我们来看结果：

这里我们能看到，商品、支持的事例数，可能行、概率等明细值。

对于Microsoft关联规则算法还有一种更有趣的应用就是，根据现有的顾客已经买的的产品，然后利用它自己的挖掘模型进行推测，推测出这个顾客将下一个买什么产品，比如上面的例子中，如果某个顾客已经买了山地自行车、自行车内胎，那么利用该模型它会自动推测出该顾客下一步将会买自行车轮胎，这个用法其实很关键，通过该方法预测已经能推测出顾客下一步的购买意向！...

如果将该挖掘模型利用到电子商务网站...那么他们推荐的商品将更准确，同样所得到的精准销售也更到位...结果你懂的！

我们来看步骤：

我们来选择应用的事例表：

我们来选择两者的关联关系，可以右键直接编辑：

然后编辑筛选函数，直接看图：

点击查看结果：

可以看到，这个顾客编号为：18239的他将买优先买三个产品：Water Bottle、Road-750、Touring-1000，后面还列出他的概率和可能性...

嘿嘿..我们打开数据库来看看这个顾客的情况：

.....嘿嘿...这个顾客已经买了两个商品了，Road-250、Road Bottle Cage,根据上面的推算法则...这个顾客应该马上急需要买一个叫做Water Bottle的神器...用来喝水

然后，我们将这个结果保存到数据库..一段简单的代码就能搞出那些顾客急需要什么商品...

他们最可能买的商品有哪些....，剩下的工作你懂得！

结语

本篇文章到此结束了...结语就是我们后面还会继续分析其它的算法，有兴趣的童鞋可以提前关注。上面其实还有几部分需要补充，就是准确性验证和筛选条件挖掘，比如我想知道某些特定客户群体他们的购买的产品关联规则等等吧，后续文章继续分析这些问题。

原文地址：（原创）大数据时代：基于微软案例数据库数据挖掘知识点总结（Microsoft 关联规则分析算法）

(转载)微软数据挖掘算法:Microsoft 关联规则分析算法(7)的更多相关文章

(转载)微软数据挖掘算法:Microsoft 目录篇
本系列文章主要是涉及内容为微软商业智能(BI)中一系列数据挖掘算法的总结,其中涵盖各个算法的特点.应用场景.准确性验证以及结果预测操作等,所采用的案例数据库为微软的官方数据仓库案例(Adventure ...
(转载)微软数据挖掘算法:Microsoft顺序分析和聚类分析算法(8)
前言本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍,我为了展示方便,特地的整理了一个目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载,有兴趣的童鞋可以点 ...
(转载)微软数据挖掘算法：Microsoft 决策树分析算法（1）
微软数据挖掘算法:Microsoft 目录篇介绍: Microsoft 决策树算法是分类和回归算法,用于对离散和连续属性进行预测性建模. 对于离散属性,该算法根据数据集中输入列之间的关系进行预测. ...
(转载)微软数据挖掘算法:Microsoft 神经网络分析算法（10）
前言有段时间没有进行我们的微软数据挖掘算法系列了,最近手头有点忙,鉴于上一篇的神经网络分析算法原理篇后,本篇将是一个实操篇,当然前面我们总结了其它的微软一系列算法,为了方便大家阅读,我特地整理了一篇 ...
(转载)微软数据挖掘算法:Microsoft 时序算法之结果预测及其彩票预测(6)
前言本篇我们将总结的算法为Microsoft时序算法的结果预测值,是上一篇文章微软数据挖掘算法:Microsoft 时序算法(5)的一个总结,上一篇我们已经基于微软案例数据库的销售历史信息表,利用M ...
(转载)微软数据挖掘算法:Microsoft 时序算法(5)
前言本篇文章同样是继续微软系列挖掘算法总结,前几篇主要是基于状态离散值或连续值进行推测和预测,所用的算法主要是三种:Microsoft决策树分析算法.Microsoft聚类分析算法.Microsof ...
(转载)微软数据挖掘算法：Microsoft Naive Bayes 算法（3）
介绍: Microsoft Naive Bayes 算法是一种基于贝叶斯定理的分类算法,可用于探索性和预测性建模. Naïve Bayes 名称中的 Naïve 一词派生自这样一个事实:该算法使用贝叶 ...
(转载)微软数据挖掘算法：Microsoft 聚类分析算法（2）
介绍: Microsoft 聚类分析算法是一种"分段"或"聚类分析"算法,它遍历数据集中的事例,以将它们分组到包含相似特征的分类中. 在浏览数据.标识数据中的异 ...
（原创）大数据时代：基于微软案例数据库数据挖掘知识点总结（Microsoft 决策树分析算法）
随着大数据时代的到来,数据挖掘的重要性就变得显而易见,几种作为最低层的简单的数据挖掘算法,现在利用微软数据案例库做一个简要总结. 应用场景介绍其实数据挖掘应用的场景无处不在,很多的环境都会应用到数据 ...

随机推荐

在jsp页面动态添加，删除文本框模块
jsp代码============ <table class="crud-content-info" > <tr > <td align=" ...
idea2020 没有 Autoscroll from Source
2018版本: 2020版本: 最后在官网的网站中找到了解决方案,原来是改名了: 网址:https://intellij-support.jetbrains.com/hc/en-us/communit ...
ArrayList哪种遍历效率最好，你真的弄明白了吗？
ArrayList简介声明:以下内容都是基于jdk1.8的 ArrayList 是一个数组队列,相当于动态数组.与Java中的数组相比,它的容量能动态增长.它继承于AbstractList,实现了 ...
Qt学习笔记-支持Gif动画显示
写QT程序时遇到个问题,本机编译完成的应用程序的Gif正常显示,但移到开发板上,gif无法显示,最后发现是其实是插件的关系. 在编译安装的路径中有一个 plugins/imageformats 里面是 ...
javaweb基本知识（eclipse环境）
javascrip有两种方式: ①外链式 1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 < ...
Mapreduce实例--去重
数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选.统计大数据集上的数据种类个数.从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重. 数据去重的最终目标是让原始数据中 ...
事件驱动之JDK观察者模式
JDK中关于观察者模式主要了解俩个概念 Observer观察者 Observable事件源:当事件源发生某事件时,有两个事情需要注意 1.里面有一个isChange属性当为false时不会发通知给 ...
Centos7 keepalived 修改日志路径
Keepalived默认所有的日志都是写入到/var/log/message下的,由于message的日志太多了,而Keepalived的日志又很难分离出来,所以本文提供了一个调整Keepalived ...
python实现99乘法表
for x in range(1,10): for y in range(1,10): if x>=y: print("%d*%d=%d\t"%(y,x,x*y),end=' ...
Kali Debian 修改时区
1.KaliDebian默认读取时区文件是/etc/localtime(重建软连接,达到修改时区目的) 2./etc/localtime是个软连接,连接到时区文件/usr/share/zoneinfo ...

(转载)微软数据挖掘算法:Microsoft 关联规则分析算法(7)

(转载)微软数据挖掘算法:Microsoft 关联规则分析算法(7)的更多相关文章

随机推荐

热门专题