《SAS编程与数据挖掘商业案例》学习笔记之十八
接着曾经的《SAS编程与数据挖掘商业案例》,之前全是sas的基础知识,如今開始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明。
一:数据挖掘综述
衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标。有非常多种方法。仅仅有高效解决商业目标的方法才是最牛的方法。即使是看似简单的方法,仅仅要能高效解决商业目标,我们就觉得是牛的方法;
面对海量的数据,即使是使用了最先进的工具,最复杂的算法。可是假设挖掘出来的知识是没用的,或者挖掘的结果是无法解释的,那这样的挖掘也是失败的。非常多人对数据挖掘都有一个误解。觉得一定要使用复杂的工具和复杂的算法,事实上是一种误导。
数据挖掘流程:商业理解、数据收集、数据清洗、数据特征化、数据建模、模型打分、模型验证、模型实施、模型优化
描写叙述分析:对已经发生的现象进行分析。主要分析技术有描写叙述性分析、数据特征化、聚类分析、孤立点分析
因果分析:寻找发生的原因。主要技术有联机分析、相关性分析、回归分析、关联分析、因子分析
分类和预測:
主要分类技术:决策树、判别分析、贝叶斯分类、logistic回归分析、神经网络、支持向量机等
预測技术有:多元线性回归分析、广义线性回归分析、非线性回归分析、神经网络分析
二:商业目标:
1、评价活动的效果:比較分析
通过开展工作组和控制组进行比对。
2.特征分析
比方要分析高价值客户的特征,通过特征化数据(均值、方差、极值)、相关性度量(相关系数、卡方值、基尼系数、熵)、聚类分析、因子分析等发现表面的和潜在的数据特征。
3.市场细分
市场细分由业务主导,而不是技术主导。
细分结果一定要以易于开展营销活动为目的。
4.响应
提高某个营销活动的响应度
5.风险
风险控制指标通常包含:资产负债情况、信用记录、工作稳定性、收入、教育程度、家庭人口结构
风险模型的建立在技术上类似于响应模型,但对于业务上有非常大的差别,比方定义目标变量上,风险模型可能有非常多因素决定。一个比較常见的定义:拖欠额度超过某一数值。并逾期超过3个月的客户作为风险客户(目标变量值为1,其余情况为0)
6.流失
重点在于流失目标变量的定义;
7.提升销售和交叉销售
数据挖掘商业应用的最高原则是:“效率、效果”
3.需求文档
需求文档包含三部分
项目计划文档(ppt)
商业目标、
技术目标、
计划内容、
项目路线图、给出分析团队怎样实施项目的明白时间表和每一阶段的任务
资源:是每个项目阶段所须要的參与项目人员
方法论设计文档(word)
是解决商业需求的技术文档。是一个解决方式。最核心的内容是组合不同的算法,并给出终于能达到的理论目标
变量需求文档(excel)
4.建模流程图
5.logistic建模及结果具体解释
商业应用领域,logistic回归是应用最广泛的预測模型。神经网络存在过度拟合的嫌疑。而决策树可能存在预測结果的不稳定性,而且在大数据的情况下决策树存在失灵现象。因此logistic回归相对于另外两个是一个适度的模型。再加上输出结果有非常好的解释性。应用非常广泛
logistic变换:logit(p)=ln(p/1-p) 然后再与自变量进行线性拟合
logistic回归中。因变量y服从二项分布或多项分布,而线性回归分析中y是服从正态分布
logistic回归中不存在线性回归中的残差项。
logistic回归採用MLE(最大似然预计)。而线性回归分析採用的是LSE(最小二乘预计)
LSE的原理是如果残差独立同分布。然后构造样本函数。使得因变量的观測值和模型预计值之间的离差平方和最小。
MLE的原理。是构造似然函数,对于二值型的logistic回归来说。服从二点分布,
评价模型好坏的指标:
1)拟合优度
拟合优度是衡量预測值和观測值之间的整体一致性。可是在评价模型时。实际上測量的是预測值和观測值之间的区别,实际上是模型预測的“劣度”,即拟合不佳检验,经常使用的指标是HL(hosmer-lemeshow)和IM(information
measures)
HL是一种类似于皮尔逊-卡方统计量的指标,相应的统计如果H0是预測值概率和观測值之间无显著差异,因而如果HL有较大的P值,则接受原如果,说明统计结果不显著,因而。不能拒绝关于模型拟合数据非常好的如果,即模型非常好的拟合了数据。能够通过调用lackfit选项命令实现
IM指标中比較显著的是AIC和SC,AIC越小标示拟合模型越好。sc是对aic指标的一种修正。与AIC同向作用
2)卡方统计
卡方统计监測的是模型中所包括的自变量对因变量有显著的解释能力,在多元线性回归和ANOVA中。经常使用F检验达到目的。在logistic中用似然比检验,相当于F检验,在sas输出结果中就是likelihood
ratio相应的值。
注:卡方值和拟合优度是两个全然不同的概念,前者度量的是自变量和因变量的ODDS自然对数线性相关。而后者度量的是预測值和观測值之间的一致性,所以,最好是模型卡方统计性显著而拟合优度统计性不显著。
3)预測准确性
预測准确性问题是:检验全部x变量究竟能解释多少Y变量的波动
RSQUARE:Y变异中被解释的比例,
C统计量:度量的是观測值和条件预測概率之间的相对一致性;
指标越高,表示预測概率与观測反应变量之间的关联越密切。
总结例如以下:
统计量 |
趋势 |
作用 |
sas命令 |
备注 |
C统计量 |
越大越好 |
度量的是观測值和条件预測概率之间的相对一致性 |
自己主动输出 |
|
似然比卡方 |
越大越好 |
类似于F检验,度量回归平方和,自变量对因变量的显著解释能力 |
自己主动输出 |
P值越小越好 |
AIC |
越小越好 |
类似于多远回归残差平方和 |
自己主动输出 |
|
RSQUARE |
越大越好 |
Y变异中被解释的比例 |
RSQ |
|
HL统计量 |
越小越好 |
度量观測值与预測值整体的一致性 |
LACKFIT |
P值越大越好 |
商业实战中。一般考虑前两种。由于logistic回归是一个分类模型。目标变量的值仅仅是一个分类标示。因而更关注观測值和预測值之间的相对一致性。而不是绝对一致性,因而分析师更关注于模型预測概率值的排序,而lift图也正是从概率排序结果得到的。
应用举例和输出结果的解释
Proc logistic data=lg.remission desc; *按目标变量降序输入建模数据集
model remiss =cell smear infil li blast temp
/ selection=stepwise
slentry=0.3 slstay=0.35 details lackfit stb; *设置进入阈值和保留阈值,并输出具体结果。输出HL统计量。输出标准化数
据后的模型參数
output out=pred p=phat; *设置预測概率变量为phat
Run;
在输出结果association of predicted probabilities and observed responses中最后一列的C统计量。一般大于0.7以上就能够用该模型
《SAS编程与数据挖掘商业案例》学习笔记之十八的更多相关文章
- 《SAS编程和数据挖掘商业案例》第14部分学习笔记
继续<SAS编程与数据挖掘商业案例>学习笔记系列,本次重点:经常使用全程语句 所谓全程语句.是指能够用在不论什么地方的sas语句,既能够用在data数据步语句里面,也能够用在proc过程步 ...
- 《SAS编程和数据挖掘商业案例》学习笔记# 19
继续<SAS编程与数据挖掘商业案例>学习笔记,本文側重数据处理实践.包含:HASH对象.自己定义format.以及功能强大的正則表達式 一:HASH对象 Hash对象又称散列表,是依据关键 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(5)SAS宏语言、SQL过程
SAS学习笔记之<SAS编程与数据挖掘商业案例>(5)SAS宏语言.SQL过程 1. 一个SAS程序可能包含一个或几个语言成分: DATA步或PROC步 全程语句 SAS组件语言(SCL) ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制
SAS学习笔记之<SAS编程与数据挖掘商业案例>(4)DATA步循环与控制.常用全程语句.输出控制 1. 各种循环与控制 DO组 创建一个执行语句块 DO循环 根据下标变量重复执行DO和E ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(3)变量操作、观测值操作、SAS数据集管理
SAS学习笔记之<SAS编程与数据挖掘商业案例>(3)变量操作.观测值操作.SAS数据集管理 1. SAS变量操作的常用语句 ASSIGNMENT 创建或修改变量 SUM 累加变量或表达式 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作
SAS学习笔记之<SAS编程与数据挖掘商业案例>(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(1)系统简介和编程基础
SAS学习笔记之<SAS编程与数据挖掘商业案例>(1)系统简介和编程基础 1. SAS系统简介 1.1 SAS是先编译后执行的语言,data步标志着编译的开始. 数据指针:当前内存缓存区, ...
- 《SAS编程与数据挖掘商业案例》学习笔记之十六
<SAS编程与数据挖掘商业案例>学习笔记,本次重点:sas宏变量 内容包含:宏变量.宏函数.宏參数.通配函数.字符函数.计算函数.引用函数.宏语句.宏应用 1.宏触发器: %name-to ...
- 《SAS编程与数据挖掘商业案例》学习笔记之十五
继续<SAS编程与数据挖掘商业案例>读书笔记,本次重点:输出控制 主要内容包含:log窗体输出控制.output窗体输出控制.ods输出控制 1.log窗体输出控制 将日志输出到外部文件 ...
随机推荐
- H5教程:移动页面性能优化
随着移动互联网的发展,我们越发要关注移动页面的性能优化,今天跟大家谈谈这方面的事情. 首先,为什么要最移动页面进行优化? 纵观目前移动网络的现状,移动页面布局越来越复杂,效果越来越炫,直接导致了文件越 ...
- 【Computer Vision】图像单应性变换/投影/仿射/透视
一.基础概念 1. projective transformation = homography = collineation. 2. 齐次坐标:使用N+1维坐标来表示N维坐标,例如在2D笛卡尔坐标 ...
- linux在线添加硬盘、扫盘
1:查看scsi 硬盘设备[root@web02 ~]# ls /sys/class/scsi_host host0 host1 host2 2:检查本机现有硬盘 [root@web02 ~]# fd ...
- 洛谷P4894 GodFly求解法向量
如果没有学过向量相关知识请出门右转高中数学必修四~~~ 当然如果你和我一样也是小学生我也不反对 首先说结论:\(\vec{z}=(y1z2-y2z1,z1x2-z2x1,x1y2-x2y1)\) 其实 ...
- 洛谷——P2661 信息传递
https://www.luogu.org/problem/show?pid=2661#sub 题目描述 有n个同学(编号为1到n)正在玩一个信息传递的游戏.在游戏里每人都有一个固定的信息传递对象,其 ...
- 洛谷——P1455 搭配购买
https://www.luogu.org/problem/show?pid=1455 题目描述 明天就是母亲节了,电脑组的小朋友们在忙碌的课业之余挖空心思想着该送什么礼物来表达自己的心意呢?听说在某 ...
- 将shell脚本运行情况写入Rsyslog日志server
在运维工作中,免不了编写一些脚本交由计划任务(cron)去定时运行完毕一些日常工作,实现运维工作自己主动化.比方在我的日常工作中备份数据是一项重要的工作,须要定时将数据备份到备份服器和一些其它的备份介 ...
- HDU 5319
Painter Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) Total Su ...
- iOS开发- Images can’t contain alpha channels or transparencies 解决的方法
新版的iTunesConnect真是各种问题阿... 蛋疼要命. 上传介绍图片(屏幕截图)的时候 , 遇到了这个问题 Images can't contain alpha channels or tr ...
- 走进 CPU 的 Cache
看了上一篇文章.你可能非常想知道,为什么程序的执行结果会是这样.如今,就让我们来走进 CPU 的世界. 在 SMP(对称多处理器)时代,多个 CPU 一起工作.使运算能力进一步提升,那么CPU 是怎样 ...