R语言和数据分析十大：购物篮分析

提到数据挖掘，我们的第一个反应是之前的啤酒和尿布的故事听说过，这个故事是一个典型的数据挖掘关联规则。篮分析的传统线性回归之间的主要差别的差别，对于离散数据的相关性分析；

常见的关联规则：

关联规则：牛奶=>卵子【支撑=2%，置信度=60%】

支持度：分析中的所有事务的2%同一时候购买了牛奶和鸡蛋，需设定域值，来限定规则的产生。

置信度：购买了牛奶的筒子有60%也购买了鸡蛋，需设定域值，来限定规则的产生。

最小支持度阈值和最小置信度阈值：由挖掘者或领域专家设定。

与关联分析相关的专业术语包含：

项集：项（商品）的集合

k-项集：k个项组成的项集

频繁项集：满足最小支持度的项集。频繁k-项集一般记为Lk

强关联规则：满足最小支持度阈值和最小置信度阈值的规则

接下来以两步法为例。揭秘下关联分析的做法：

例如以下有9个购物篮（T100-T900）：两步法先找出全部的频繁项集；第二步再由频繁项集产生强关联规则。

算法步骤：

Step1：扫描D，对每一个候选项计数，生成候选1-项集C1。并算出每项的关联度计数（即该项出现的频数）；

Step2：定义最小支持度阀值为2（即剔除频数低于2的项），记剩余的项集为L1。

Step3：由L1 两两配对生成新的2-项集C2。

Step4：扫描D。对C2里每一个项计数，定义最小支持度阀值为2（即剔除频数低于2的项），记剩余的项集为2-项集L2；

Step5：由L2 两两配对生成新的3-项集C3。

……如此循环，直至出现最大的n-项集结束。

以上述样例为例，图解步骤例如以下：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaG93YXJkZ2U=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

如图为例，我们计算频繁项集{I1,I2,I5}。能够发现I1^I2=>I5，因为{I1,I2,I5}出现了2次。{I1,I2}出现了4次，故置信度为2/4=50%

类似能够算出：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaG93YXJkZ2U=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

利用R进行购物篮分析，R中关联分析函数为arules,我们採用内置的Groceries的数据集（例如以下）。

Inspect(Groceries)

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaG93YXJkZ2U=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

详细的R语言实现例如以下：

library(arules)

data(Groceries)

frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen=10))

inspect(sort(frequentsets,by="support")[1:10]) #依据支持度对求得的频繁项集排序

结果例如以下：可见全部的关联规则的排名：

接下来以阀值挑选我们的须要的关联项：

rules=apriori(Groceries,parameter=list(support=0.01,confidence=0.5))

inspect(rules)

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaG93YXJkZ2U=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

由此可见购物篮就完毕，当中lift是相关度指标，lift=1表示L和R独立，lift越大表明L和R在同一购物篮绝非偶尔现象，更加支持我们的购物篮决策。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaG93YXJkZ2U=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

R语言和数据分析十大：购物篮分析的更多相关文章

写论文，没数据？R语言抓取网页大数据
写论文,没数据?R语言抓取网页大数据纵观国内外,大数据的市场发展迅猛,政府的扶持也达到了空前的力度,甚至将大数据纳入发展战略.如此形势为社会各界提供了很多机遇和挑战,而我们作为卫生(医学)统计领域的 ...
数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）
在各种数据挖掘算法中,关联规则挖掘算是比較重要的一种,尤其是受购物篮分析的影响,关联规则被应用到非常多实际业务中,本文对关联规则挖掘做一个小的总结. 首先,和聚类算法一样,关联规则挖掘属于无监督学习方 ...
Apriori算法在购物篮分析中的运用
购物篮分析是一个很经典的数据挖掘案例,运用到了Apriori算法.下面从网上下载的一超市某月份的数据库,利用Apriori算法进行管理分析.例子使用Python+MongoDB 处理过程1 数据建模( ...
阿里云资深DBA专家罗龙九:云数据库十大经典案例分析【转载】
阿里云资深DBA专家罗龙九:云数据库十大经典案例分析 2016-07-21 06:33 本文已获阿里云授权发布,转载具体要求见文末摘要:本文根据阿里云资深DBA专家罗龙九在首届阿里巴巴在线峰会的&l ...
数据算法 --hadoop/spark数据处理技巧 --（5.移动平均 6. 数据挖掘之购物篮分析MBA）
五.移动平均多个连续周期的时间序列数据平均值(按相同时间间隔得到的观察值,如每小时一次或每天一次)称为移动平均.之所以称之为移动,是因为随着新的时间序列数据的到来,要不断重新计算这个平均值,由于会删 ...
108_Power Pivot购物篮分析分组GENERATE之笛卡尔积、排列、组合
博客:www.jiaopengzi.com 焦棚子的文章目录请点击下载附件 1.背景昨天在看论坛帖子时候(帖子),看到一个关于SKU组合的问题,有很多M大佬都给出了处理方案,于是想用dax也写一个 ...
R语言基因组数据分析可能会用到的data.table函数整理
R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部 ...
基于R语言的数据分析和挖掘方法总结——描述性统计
1.1 方法简介描述性统计包含多种基本描述统计量,让用户对于数据结构可以有一个初步的认识.在此所提供之统计量包含: 基本信息:样本数.总和集中趋势:均值.中位数.众数离散趋势:方差(标准差).变 ...
R语言实战（十）处理缺失数据的高级方法
本文对应<R语言实战>第15章:处理缺失数据的高级方法本文仅在书的基础上进行简单阐述,更加详细的缺失数据问题研究将会单独写一篇文章. 处理缺失值的一般步骤: 识别缺失数据: 检查导致数据 ...

随机推荐

hdu1243（最长公共子序列变形）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1243 分析:dp[i][j]表示前i个子弹去炸前j个恐怖分子得到的最大分.其实就是最长公共子序列加每个 ...
【Python】Coding the Matrix:Week 5 Perspective Lab
这个Lab的内容光是说明就有7页之巨,我反复看了很久才看懂一点点,Lab主要完成的是从不同坐标系表示之间变换的方法. 原始的图片,从Camera basis的表示转换成WhiteBoard basis ...
Failed to load libGL.so问题解决
Ubuntu 14.04下启动模拟设备Android 4.2.2的时候报错: failed to load libgl.so 先用locate 命令定位libGL库, 然后加入�一个链接就可以: de ...
Android使用应用程序资源（、颜色数组、尺寸、弦、布尔、整型）
一.Android资源分类详细解释 1.Android资源类别 Android中的资源分为两大类 : 可直接訪问的资源, 无法直接訪问的原生资源; -- 直接訪问资源 : 这些资源能够使用 R. ...
安装dotnet core
CentOS 7.1下安装dotnet core .NET CORE的官方(http://dotnet.github.io/getting-started/)只提供了Windows, Ubuntu14 ...
深入浅出KnockoutJS
深入浅出KnockoutJS 写在前面,本文资料大多来源网上,属于自己的学习笔记整理. 其中主要内容来自learn.knockoutjs.com,源码解析部分资料来自司徒正美博文<knockou ...
sqlalchemy操作
Sqlalchemy ORM操作归类 #简单查询 #注意User是一个类对象,user_table是数据库中的表 #session = sessionmaker() #创建了一个自己定义了的 Sess ...
uva 11427 - Expect the Expected(概率)
题目链接:uva 11427 - Expect the Expected 题目大意:你每天晚上都会玩纸牌,每天固定最多玩n盘,每盘胜利的概率为p,你是一个固执的人,每天一定要保证胜局的比例大于p才会结 ...
Codeforces Round #248 (Div. 1)——Nanami's Digital Board
题目连接题意: 给n*m的0/1矩阵,q次操作,每次有两种:1)将x,y位置值翻转 2)计算以(x,y)为边界的矩形的面积最大值 (1 ≤ n, m, q ≤ 1000) 分析: 考虑以(x,y)为 ...
uva 11396Claw Decomposotion（二分图判定)
题目大意:给出一个简单无向图,每一个点的度为3.推断是否能将此图分解成若干爪的形式.使得每条边都仅仅出如今唯一的爪中. (点能够多次出如今爪中) 这道题实质上就是问这个图是否为二分图,dfs判定 ...

R语言和数据分析十大：购物篮分析

R语言和数据分析十大：购物篮分析的更多相关文章

随机推荐

热门专题