接着曾经的《SAS编程与数据挖掘商业案例》,之前全是sas的基础知识,如今開始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明。

一:数据挖掘综述

衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标。有非常多种方法。仅仅有高效解决商业目标的方法才是最牛的方法。即使是看似简单的方法,仅仅要能高效解决商业目标,我们就觉得是牛的方法;

面对海量的数据,即使是使用了最先进的工具,最复杂的算法。可是假设挖掘出来的知识是没用的,或者挖掘的结果是无法解释的,那这样的挖掘也是失败的。非常多人对数据挖掘都有一个误解。觉得一定要使用复杂的工具和复杂的算法,事实上是一种误导。

数据挖掘流程:商业理解、数据收集、数据清洗、数据特征化、数据建模、模型打分、模型验证、模型实施、模型优化

描写叙述分析:对已经发生的现象进行分析。主要分析技术有描写叙述性分析、数据特征化、聚类分析、孤立点分析

因果分析:寻找发生的原因。主要技术有联机分析、相关性分析、回归分析、关联分析、因子分析

分类和预測:

主要分类技术:决策树、判别分析、贝叶斯分类、logistic回归分析、神经网络、支持向量机等

预測技术有:多元线性回归分析、广义线性回归分析、非线性回归分析、神经网络分析

二:商业目标:

1、评价活动的效果:比較分析

通过开展工作组和控制组进行比对。

2.特征分析

比方要分析高价值客户的特征,通过特征化数据(均值、方差、极值)、相关性度量(相关系数、卡方值、基尼系数、熵)、聚类分析、因子分析等发现表面的和潜在的数据特征。

3.市场细分

市场细分由业务主导,而不是技术主导。

细分结果一定要以易于开展营销活动为目的。

4.响应

提高某个营销活动的响应度

5.风险

风险控制指标通常包含:资产负债情况、信用记录、工作稳定性、收入、教育程度、家庭人口结构

风险模型的建立在技术上类似于响应模型,但对于业务上有非常大的差别,比方定义目标变量上,风险模型可能有非常多因素决定。一个比較常见的定义:拖欠额度超过某一数值。并逾期超过3个月的客户作为风险客户(目标变量值为1,其余情况为0)

6.流失

重点在于流失目标变量的定义;

7.提升销售和交叉销售

数据挖掘商业应用的最高原则是:“效率、效果”

3.需求文档

需求文档包含三部分

项目计划文档(ppt)

商业目标、

技术目标、

计划内容、

项目路线图、给出分析团队怎样实施项目的明白时间表和每一阶段的任务

资源:是每个项目阶段所须要的參与项目人员

方法论设计文档(word)

是解决商业需求的技术文档。是一个解决方式。最核心的内容是组合不同的算法,并给出终于能达到的理论目标

变量需求文档(excel)

4.建模流程图

5.logistic建模及结果具体解释

商业应用领域,logistic回归是应用最广泛的预測模型。神经网络存在过度拟合的嫌疑。而决策树可能存在预測结果的不稳定性,而且在大数据的情况下决策树存在失灵现象。因此logistic回归相对于另外两个是一个适度的模型。再加上输出结果有非常好的解释性。应用非常广泛

logistic变换:logit(p)=ln(p/1-p)   然后再与自变量进行线性拟合

logistic回归中。因变量y服从二项分布或多项分布,而线性回归分析中y是服从正态分布

logistic回归中不存在线性回归中的残差项。

logistic回归採用MLE(最大似然预计)。而线性回归分析採用的是LSE(最小二乘预计)

LSE的原理是如果残差独立同分布。然后构造样本函数。使得因变量的观測值和模型预计值之间的离差平方和最小。

MLE的原理。是构造似然函数,对于二值型的logistic回归来说。服从二点分布,

评价模型好坏的指标:

1)拟合优度

拟合优度是衡量预測值和观測值之间的整体一致性。可是在评价模型时。实际上測量的是预測值和观測值之间的区别,实际上是模型预測的“劣度”,即拟合不佳检验,经常使用的指标是HL(hosmer-lemeshow)和IM(information
measures)

HL是一种类似于皮尔逊-卡方统计量的指标,相应的统计如果H0是预測值概率和观測值之间无显著差异,因而如果HL有较大的P值,则接受原如果,说明统计结果不显著,因而。不能拒绝关于模型拟合数据非常好的如果,即模型非常好的拟合了数据。能够通过调用lackfit选项命令实现

IM指标中比較显著的是AIC和SC,AIC越小标示拟合模型越好。sc是对aic指标的一种修正。与AIC同向作用

2)卡方统计

卡方统计监測的是模型中所包括的自变量对因变量有显著的解释能力,在多元线性回归和ANOVA中。经常使用F检验达到目的。在logistic中用似然比检验,相当于F检验,在sas输出结果中就是likelihood
ratio相应的值。

注:卡方值和拟合优度是两个全然不同的概念,前者度量的是自变量和因变量的ODDS自然对数线性相关。而后者度量的是预測值和观測值之间的一致性,所以,最好是模型卡方统计性显著而拟合优度统计性不显著。

3)预測准确性

预測准确性问题是:检验全部x变量究竟能解释多少Y变量的波动

RSQUARE:Y变异中被解释的比例,

C统计量:度量的是观測值和条件预測概率之间的相对一致性;

指标越高,表示预測概率与观測反应变量之间的关联越密切。

总结例如以下:

统计量

趋势

作用

sas命令

备注

C统计量

越大越好

度量的是观測值和条件预測概率之间的相对一致性

自己主动输出

似然比卡方

越大越好

类似于F检验,度量回归平方和,自变量对因变量的显著解释能力

自己主动输出

P值越小越好

AIC

越小越好

类似于多远回归残差平方和

自己主动输出

RSQUARE

越大越好

Y变异中被解释的比例

RSQ

HL统计量

越小越好

度量观測值与预測值整体的一致性

LACKFIT

P值越大越好

商业实战中。一般考虑前两种。由于logistic回归是一个分类模型。目标变量的值仅仅是一个分类标示。因而更关注观測值和预測值之间的相对一致性。而不是绝对一致性,因而分析师更关注于模型预測概率值的排序,而lift图也正是从概率排序结果得到的。

应用举例和输出结果的解释

Proc  logistic  data=lg.remission  desc;                 *按目标变量降序输入建模数据集

model  remiss =cell  smear  infil  li blast  temp

/ selection=stepwise

slentry=0.3   slstay=0.35   details   lackfit  stb;    *设置进入阈值和保留阈值,并输出具体结果。输出HL统计量。输出标准化数

据后的模型參数

output  out=pred  p=phat;                              *设置预測概率变量为phat

Run;

在输出结果association of predicted probabilities and observed responses中最后一列的C统计量。一般大于0.7以上就能够用该模型

《SAS编程与数据挖掘商业案例》学习笔记之十八的更多相关文章

  1. 《SAS编程和数据挖掘商业案例》第14部分学习笔记

    继续<SAS编程与数据挖掘商业案例>学习笔记系列,本次重点:经常使用全程语句 所谓全程语句.是指能够用在不论什么地方的sas语句,既能够用在data数据步语句里面,也能够用在proc过程步 ...

  2. 《SAS编程和数据挖掘商业案例》学习笔记# 19

    继续<SAS编程与数据挖掘商业案例>学习笔记,本文側重数据处理实践.包含:HASH对象.自己定义format.以及功能强大的正則表達式 一:HASH对象 Hash对象又称散列表,是依据关键 ...

  3. SAS学习笔记之《SAS编程与数据挖掘商业案例》(5)SAS宏语言、SQL过程

    SAS学习笔记之<SAS编程与数据挖掘商业案例>(5)SAS宏语言.SQL过程 1. 一个SAS程序可能包含一个或几个语言成分: DATA步或PROC步 全程语句 SAS组件语言(SCL) ...

  4. SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制

    SAS学习笔记之<SAS编程与数据挖掘商业案例>(4)DATA步循环与控制.常用全程语句.输出控制 1. 各种循环与控制 DO组 创建一个执行语句块 DO循环 根据下标变量重复执行DO和E ...

  5. SAS学习笔记之《SAS编程与数据挖掘商业案例》(3)变量操作、观测值操作、SAS数据集管理

    SAS学习笔记之<SAS编程与数据挖掘商业案例>(3)变量操作.观测值操作.SAS数据集管理 1. SAS变量操作的常用语句 ASSIGNMENT 创建或修改变量 SUM 累加变量或表达式 ...

  6. SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作

    SAS学习笔记之<SAS编程与数据挖掘商业案例>(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定 ...

  7. SAS学习笔记之《SAS编程与数据挖掘商业案例》(1)系统简介和编程基础

    SAS学习笔记之<SAS编程与数据挖掘商业案例>(1)系统简介和编程基础 1. SAS系统简介 1.1 SAS是先编译后执行的语言,data步标志着编译的开始. 数据指针:当前内存缓存区, ...

  8. 《SAS编程与数据挖掘商业案例》学习笔记之十六

    <SAS编程与数据挖掘商业案例>学习笔记,本次重点:sas宏变量 内容包含:宏变量.宏函数.宏參数.通配函数.字符函数.计算函数.引用函数.宏语句.宏应用 1.宏触发器: %name-to ...

  9. 《SAS编程与数据挖掘商业案例》学习笔记之十五

    继续<SAS编程与数据挖掘商业案例>读书笔记,本次重点:输出控制 主要内容包含:log窗体输出控制.output窗体输出控制.ods输出控制 1.log窗体输出控制 将日志输出到外部文件 ...

随机推荐

  1. HDU 5234 Happy birthday【DP】

    题意:给出n*m的格子,每个格子的值为w[i][j],在值不超过k的时候,可以往右或者往下走,问从(1,1)走到(n,m)能够得到的最大的值 类似于背包 d[i][j][k]=maxx(d[i-1][ ...

  2. tomcat更改日志路径

    共有2个地方需要更改. 1.   tomcat/conf/logging.properties 步骤1--查找:grep logs logging.properties 步骤2--替换:sed -i ...

  3. iptables 简单介绍及应用 Linux防火墙

    iptables 即 Linux防火墙 的简单介绍及使用 iptables生效位置如下图: 其中, 网络防火墙也可以使用一台启用了iptables的Linux主机代替; 路由器或集线器等设施在拓扑中省 ...

  4. vue反向代理解决跨域

    问题描述 在项目开发的时候,接口联调的时候一般都是同域名下,且不存在跨域的情况下进行接口联调,但是当我们现在使用vue-cli进行项目打包的时候,我们在本地启动服务器后,比如本地开发服务下是 http ...

  5. PHP XML操作类DOMDocument

    不得不自已写一个.XML 的操作一直没有用过.下面是自己搜集的XML操作类 DOMDocument相关的内容. 属性: Attributes 存储节点的属性列表(只读) childNodes 存储节点 ...

  6. Java基础学习总结(2)——接口

    一.接口的概念 JAVA是只支持单继承的,但现实之中存在多重继承这种现象,如"金丝猴是一种动物",金丝猴从动物这个类继承,同时"金丝猴是一种值钱的东西",金丝猴 ...

  7. JAVA SSL

    http://docs.oracle.com/javase/1.5.0/docs/guide/security/jsse/JSSERefGuide.html#InstallationAndCustom ...

  8. HDU 2222 Keywords Search AC自己主动机入门题

    单词统计的题目,给出一些单词,统计有多少单词在一个文本中出现,最经典的入门题了. AC自己主动机的基础: 1 Trie. 以这个数据结构为基础的,只是添加一个fail指针和构造fail的函数 2 KM ...

  9. JVM分代通俗解释

    JVM分代通俗解释 学习了:https://www.cnblogs.com/zgghb/p/6428395.html

  10. 【Android进阶篇】Fragment的两种载入方式

    一.概述 Fragment(碎片,片段)是在Android 3.0后才引入的,基本的目的是为了实如今大屏幕设备上的更加动态更加灵活的UI设计. 这是由于平板电脑的屏幕比手机大得多,所以屏幕上能够放很多 ...