SAS信用评分之逻辑回归的变量选择

关于woe的转化,这一部在之前的这篇文章:sas批量输出变量woe值中已经写了,woe也只是简单的公式转化而已,所以在这系列中就不细究了哈。这次的文章我想来讲逻辑回归。你会说逻辑回归就是三个方法:backword
stepword
forward有什么好讲的。如果你这么说,你的模型就只能停留在机器给你什么结果就是什么结果,那就low了哈。

                 
 

  
为什么这么说呢?是因为我发现譬如你输入了300个变量,你设定了sle和sls的显著性水平都是0.05,那么只要是满足“sle和sls的显著性水平都是0.05”的变量就会被筛选出来,这时候就有问题,输入的300个变量中,至少有30个变量是满足上面的显著性水平的条件的,那么你这30个变量难道都要用的模型中吗?

你说可以,你领导都会跟你说不可以,会过拟合,过拟合意味着什么,评分卡在AB两级的客户极少(因为需要满足的条件多),在cde级的客户很多,加入以前100个人来申请,是30个人可以通过的,但是现在你做了模型100个人中只有10个人能通过,那这10个人肯定好的啊。这样子逾期率是降低了,但是批核率也降低了,通过的人少了,老板就问你,你这是让公司怎么赚钱!!!。

那么这时候我们应该做什么,就是精减变量,让只用十几个变量达到30个变量的效果,当然这种30个变量的效果可能很好,但是我们尽量是做到用十几个变量达到30个变量的效果啦。譬如,30个变量达到的ks值是0.326,那么你13个变量可以达到0.316,那也足够拉。

那么现在先贴一个单独的proc logistic 过程。



Ods Output ParameterEstimates=aa ;

proc logistic data=test.RONG_ZX_total12_3 outest=bb ;

model APPL_STATUS_1(event="0")=

woe_N_a_nine_rate

woe_N_t_CREDIT_f

woe_N_ACCOUNT_CREDITCARD

woe_N_q_othree_cnt

woe_N_q_tlttwelve_cnt

woe_N_cq_cc_rate

woe_N_OPERATOR_num_S

woe_N_CREDOO_SCORE_o

woe_N_CALL_PAY_mrate

woe_n_g_MARITAL_P

woe_n_NAME_CITY

woe_n_industry_o

woe_n_EDUCATION

/selection=s sle=0.05 sls=0.05;

output out=pp

   
p=pred_status lower=pi_l upper=pi_u;

run;

proc npar1way data=pp noprint;

     
class APPL_STATUS_1;

     
var pred_status;

     
output out=ks_1(keep=_d_ p_ksa rename=(_d_=KS
p_ksa=P_value));

run;

 这是我在建模中的一个例子。后面的proc npar1way是计算ks值的。

这里是我随便选了13个变量出来,然后跑了一下ks值,但是这里有个问题就是那我怎么知道这30个变量中到底哪13个,难道我要一直试嘛,这样子很浪费我的时间也。所以我一早上就在纠结这个问题,但是我又百度不到sas中怎么实现C2013随机数的产生。所以我在纠结中就想出以下这种方法,不过要是哪位大神指导C2013
怎么实现还是希望留言区指导,我可以继续学习。

那么接下来就贴下我的代码吧,代码就是以ks为衡量指标,希望找出一种组合的ks是比较高的。

%macro var_namelist(data=,coltype=,tarvar=,dsor=);

    %let
lib=%upcase(%scan(&data.,1,'.'));

    %let
dname=%upcase(%scan(&data.,2,'.'));

    %global
var_list var_num;

    proc sql
;

     
create table &dsor. as

       
select name

       
from sashelp.VCOLUMN

       
where left(libname)="&lib." and
left(memname)="&dname." and
type="&coltype." and
lowcase(name)^=lowcase("&tarvar.") ;

    quit;

%mend;

%macro pub_survey(data,dvar,n,start,end,by);

proc datasets lib=work;

delete result_1;

run;

%do i=&start. %to &end. %by
&by.;

%var_namelist(data=&data.,coltype=num,tarvar=&dvar.,dsor=aa);

proc surveyselect data=aa

out=bb

method =srs

n=&n.

seed =&i.;

run;

data _null_;

set bb;

call symput (compress("var"||left(_n_)),compress(name));

call symput(compress("n"),compress(_n_));

run;

 %put &var1.;

Ods Output ParameterEstimates=gg ;

proc logistic data=&data. outest=bb ;

model &Dvar. (event="0")=

&var1. &var2.
&var3. &var4.
&var5. &var6.
&var7. &var8.
&var9. &var10.
&var11.

&var12. &var13.

/selection=s sle=0.05 sls=0.05;

output out=pp

   
p=pred_status lower=pi_l upper=pi_u;

run;

proc npar1way data=pp noprint;

     
class &Dvar.;

     
var pred_status;

     
output out=ks_1(keep=_d_ p_ksa rename=(_d_=KS
p_ksa=P_value));

run;

data result;

set ks_1(keep=ks);

length value $500.;

value=compress("&var1."||","||"&var2."||","||"&var3."||","||"&var4."||","||"&var5."||","||"&var6."||","||"&var7."||","||"&var8."||","||"&var9."||","||"&var10."||","||"&var11."||","||"&var12."||","||"&var13.");

run;

Proc append base=result_1 data=result force;run;

%end ;

proc sort data=result_1;by ks;

run;

%mend;



老样子啦,说下这宏怎么用。宏都是我调试过,应该没错,就是你的原数据集,要只留下你要用来循环的变量以及因变量,别的你都不要哈,乖,听我话。

Data:填入的是原数据集;

Dvar:填入因变量

N:填入你想最终模型的个数,建议10-15个吧。

Start:这里填的是seed种子数,次种子出不来.avi哈。建议是4位数以上,不知道sas随机过程中seed的种子数的自行百度。

End:你要种子循环的尽头。尽量设大点,我是建议循环个1000 2000次最好啦。

By:种子循环的区间,就是你是每隔200个数取一个数还是20个数之间取一个数。譬如你设定start=1000,end=1500,by=100,那就是种子等于1000,1100,1200,1300,1400,1500这五个数。再强调一次,输入数据集值保留你要这筛选的变量以及因变量,其余的主键什么的,你别加进去哈。

好的,这时候我要上结果图了:



 这就是结果图。Ks升序排序,可以看到我循环了三次,最好的是第三次,帅选的13个变量里面,ks可以达到0.301,变量value中就是达到ks值的13个变量。但这只是我循环三次的结果啦。我是建议最好循环个1000次2000次。你就下班的时候放着跑,明天上班来收成果就好了,上班时间盯着屏幕。是跑不完的。数据分析师培训

SAS信用评分之逻辑回归的变量选择的更多相关文章

  1. SAS信用评分之模型拟合以及验证的大坑

    SAS信用评分之模型拟合以及验证的大坑 今天的内容是来讲我这段时间被模型拟合和模型验证坑过的那些事.我也是千辛万苦终于是把模型给建出来了.此处应该有掌声.因为模型老是效果不好这件事,我躲在被窝里哭了好 ...

  2. sas信用评分之第二步变量筛选

    sas信用评分之第二步变量筛选 今天介绍变量初步选择.这部分的内容我就只介绍information –value,我这次做的模型用的逻辑回归,后面会更新以基尼系数或者信息熵基础的筛选变量,期待我把. ...

  3. SAS信用评分之番外篇异常值的识别

    SAS信用评分之番外篇异常值的识别 今天想分享给大家的是我早期建模的时候一个识别异常值的办法,也许你在"信用风险评分卡研究"看过,但是代码只能识别一个变量,我将这个代码作了改良,但 ...

  4. WOE:信用评分卡模型中的变量离散化方法(生存分析)

    WOE:信用评分卡模型中的变量离散化方法 2016-03-21 生存分析 在做回归模型时,因临床需要常常需要对连续性的变量离散化,诸如年龄,分为老.中.青三组,一般的做法是ROC或者X-tile等等. ...

  5. 信用评分卡 (part 5 of 7)

    python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...

  6. 基于Python的信用评分卡模型分析(二)

    上一篇文章基于Python的信用评分卡模型分析(一)已经介绍了信用评分卡模型的数据预处理.探索性数据分析.变量分箱和变量选择等.接下来我们将继续讨论信用评分卡的模型实现和分析,信用评分的方法和自动评分 ...

  7. scikit-learn中机器学习模型比较(逻辑回归与KNN)

    本文源自于Kevin Markham 的模型评估:https://github.com/justmarkham/scikit-learn-videos/blob/master/05_model_eva ...

  8. 逻辑回归原理_挑战者飞船事故和乳腺癌案例_Python和R_信用评分卡(AAA推荐)

    sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&a ...

  9. 含有分类变量(categorical variable)的逻辑回归(logistic regression)中虚拟变量(哑变量,dummy variable)的理解

    版权声明:本文为博主原创文章,博客地址:,欢迎大家相互转载交流. 使用R语言做逻辑回归的时候,当自变量中有分类变量(大于两个)的时候,对于回归模型的结果有一点困惑,搜索相关知识发现不少人也有相同的疑问 ...

随机推荐

  1. LUOGU P1039 侦探推理 (字符串+模拟)

    传送门 解题思路 一道%你神题,\(string\)好强大啊..首先枚举一个周几,再枚举一个罪犯是谁,然后判断的时候就是枚举所有人说的话.定义\(fAKe[i]\)表示第\(i\)个人说的是真话还是假 ...

  2. iOS开发NSLayoutConstraint代码自动布局

    1.NSLayoutConstraint简介 适配界面大多用Masonry工具,也是基于NSLayoutConstraint写的!通过使用两个类方法实现自动布局: + (NSArray<__ki ...

  3. 出现java.lang.NoClassDefFoundError: org/apache/commons/collections/FastHashMap错误问题解决

    首先出现这个问题,你应该是用了 BeanUtils.populate(meter,map); import org.apache.commons.beanutils.BeanUtils;并且导入了co ...

  4. Java中循环体的初步了解以及另一种随机数的获取方法

    Math中的相关操作 随机数 Java中除了可以直接导入Random类,获取随机数,还可以通过本身自带的Math方法去获取随机数.Math.random()可以产生随机小数,区间范围为[0.0,1.0 ...

  5. Python flask 构建可扩展的restful apl✍✍✍

    Python flask 构建可扩展的restful apl  整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课 ...

  6. vue:使用element-ui制作动态表格

    参考; https://github.com/PanJiaChen/vue-element-admin/blob/master/src/views/table/dynamic-table/compon ...

  7. 树形dp——cf1029E

    题解给出的是带log的,,我自己写了个on的.. #include<bits/stdc++.h> #include<vector> using namespace std; # ...

  8. LUOGUP3498 [POI2010]KOR-Beads (哈希)

    传送门 解题思路 这是一道上周的考试题...当时考的时候看了一眼,"呀,这不是调和级数,nlogn么!!!" ,然后一写就写了个n^2的....结果边界还弄错40分滚蛋了..正解就 ...

  9. (转)第02节:在Canvas上画简单的图形

    我们现在已经可以在HTML中使用Fabric.js库了,那这节我们就详细的学习一下如何在canvas上画出简单的图形. 在画东西之前我们需要了解画任何东西的基本三个步骤: 声明画布(canvas),用 ...

  10. jquery 判断当前设备是PC端还是移动端

    $(function(){ var system = { win: false, mac: false, xll: false, ipad:false }; //检测平台 var p = naviga ...