SAS信用评分之番外篇异常值的识别

今天想分享给大家的是我早期建模的时候一个识别异常值的办法,也许你在“信用风险评分卡研究”看过,但是代码只能识别一个变量,我将这个代码作了改良,但是我在这里必须声明一点,就是假设你身处的公司数据并不多的话,我不建议你使用这个代码,因为我是简单粗暴的将异常值直接剔除了。

就因为我的数据不多,所以我之前在做建模的时候使用的是先等量分组再最优分段的方式来使变量不用识别异常值,说道这里,我又需要跟大家提醒一下就是关于最优分段的代码,说有过拟合的现象。这里跟大家解释一下就是关于最优分段过拟合,因为最优分段的基础是建立在等量分组的基础上,所以重点就是在等量分组上,假设你领导能接受的最小一组的总数据量的1/20,那么你就在等量分组中分20组,保证在后面的产出至少一组都是1/20以上,以此类推。

进入正题,我来讲这个识别异常值的代码,首先,这个代码只针对连续变量,而且是正态分布或者是接近正态分布的变量,若是双峰或者左偏单峰,或者右偏单峰都不适用这个代码的识别。其实这个代码有很多局限性,所以我写出来之后也不是经常的用到,所以叫做番外篇。

接下来的这个代码分为两部分,第一就是针对缺失值大于30%的变量在业务上可以解释的通的,那这个变量做异常值处理的时候就会去除缺失值做异常值处理。对于缺失值小于30%,就让其变量的缺失值跟其他值一起做异常值处理。第二就是针对判定为异常值观测不会就直接删掉,而是先输出该观测,等到全部的变量做完了异常值检查之后,再判断这个观测出现了几次的异常。这时候你定一个伐值,假设是5次就删掉,那就是只要一个观测在这批变量中出现过5次判断为异常的那就会删掉。基本思路就是这样子啦。那就上代码吧。

*%Extremes(DSin, VarX, IDVar, NSigmas, DSout);



*DSin 填入原数据集;



*VarX 要检查异常的变量;



*IDVar 数据集的主键,用于标识是那条观测;



*NSigmas 在几倍标准差内属于异常值,在后续的执行代码中,我写的是3;



*DSout输出的数据集;





%macro Extremes(DSin, VarX, IDVar, NSigmas, DSout);



proc sort data=&DSin. out=temp(keep=
&VarX. &IDVar.);by
&IDVar;



run;



 proc univariate data=temp noprint;



 var &VarX;



 output
out=temp_u  
STD=VSTD   Mean=VMean;



run;



data _null_;



 set temp_u;



 call symput('STD', VSTD);



 call symput('Mean', VMean);



run;



%let ULimit=%sysevalf(&Mean
&NSigmas * &STD);



%let LLimit=%sysevalf(&Mean -
&NSigmas * &STD);



data &DSout;



 set temp;



 if &VarX <
&Llimit or &VarX >
&ULimit;



run;



proc datasets library=work nodetails nolist ;



delete temp temp_u;



quit;



%mend;



%macro Extremes1(DSin, VarX, IDVar, NSigmas, DSout);



proc sort data=&DSin. out=temp(keep=
&VarX. &IDVar.);by
&IDVar;



run;



 proc univariate data=temp noprint;



 var &VarX;



 output
out=temp_u  
STD=VSTD   Mean=VMean;



run;



data _null_;



 set temp_u;



 call symput('STD', VSTD);



 call symput('Mean', VMean);



run;



%let ULimit=%sysevalf(&Mean
&NSigmas * &STD);



%let LLimit=%sysevalf(&Mean -
&NSigmas * &STD);



data &DSout;



 set
temp(where=(&VarX.^=.));



 if &VarX <
&Llimit or &VarX >
&ULimit;



run;



proc datasets library=work nodetails nolist ;



delete temp temp_u;



quit;



%mend;







*var_namelist(data=,coltype=,tarvar=);



*data 填入原始数据集;



*coltype 变量的类型,数值是“num”,字符是“char”;



*tarvar 填入你不要做异常值检验的变量,这里只能填一个,理论上填的是主键;



*dsor 输出的数据集;



%macro var_namelist(data=,coltype=,tarvar=,dsor=);



    %let
lib=%upcase(%scan(&data.,1,'.'));



    %let
dname=%upcase(%scan(&data.,2,'.'));



    %global
var_list var_num;



    proc sql
;



     
create table &dsor. as



       
select name



       
from sashelp.VCOLUMN



       
where left(libname)="&lib." and
left(memname)="&dname." and
type="&coltype." and
lowcase(name)^=lowcase("&tarvar.");



    quit;



%mend;









*a 填入数据集的名字即可;



%macro  ivar(data,tar_var,id);



  proc datasets lib=work;



  delete kk;



  run;



  
%var_namelist(data=&data.,coltype=num,tarvar="&tar_var.",dsor=score_total_list_1)

data _null_;



   set score_total_list_1;



   call symput
(compress("var"||left(_n_)),compress(name));



   call
symput(compress("n"),compress(_n_));



   run;



    
%do i= 2 %to &n.;



       
proc sql;



       
select count(case when
&&Var&i=. then 1
else 0 end)/count(*) into:num&i.



       
from &data.;



     
quit;



    
%if 
&&num&i.<0.3
%then %do;



     
%Extremes(DSin=&data.,
VarX=&&Var&i.,
IDVar=appl_id, NSigmas=4, DSout=aa_&i.);



      
%end;



      
%else %do;



     
%Extremes1(DSin=&data.,
VarX=&&Var&i.,
IDVar=appl_id, NSigmas=4, DSout=aa_&i.);



    
%end;



       
proc append base=kk
data=aa_&i.(keep=&id.);



      
run;



       
proc datasets lib=work;



     
delete aa_&i.;



     
run;



       
%end;





%mend;



ivar(data,tar_var,id);

data:输入你的数据集。

Tar_var:输入你的因变量。

Id:输入你的主键。

输出的数据集是主键,对其计数就知道他在多少个变量里面表现为异常值,再根据自己判断的伐值进行删除。

我个人觉得这个代码的对于逻辑回归模型的可用性不是太强,因为逻辑回归中对于变量并没与太多的要求,若是你建模用的模型是线性回归估计可能对你有用。那么这次的分享就到这里吧。

SAS信用评分之番外篇异常值的识别的更多相关文章

  1. SAS信用评分之逻辑回归的变量选择

    SAS信用评分之逻辑回归的变量选择 关于woe的转化,这一部在之前的这篇文章:sas批量输出变量woe值中已经写了,woe也只是简单的公式转化而已,所以在这系列中就不细究了哈.这次的文章我想来讲逻辑回 ...

  2. sas信用评分之第二步变量筛选

    sas信用评分之第二步变量筛选 今天介绍变量初步选择.这部分的内容我就只介绍information –value,我这次做的模型用的逻辑回归,后面会更新以基尼系数或者信息熵基础的筛选变量,期待我把. ...

  3. 【番外篇】ASP.NET MVC快速入门之免费jQuery控件库(MVC5+EF6)

    目录 [第一篇]ASP.NET MVC快速入门之数据库操作(MVC5+EF6) [第二篇]ASP.NET MVC快速入门之数据注解(MVC5+EF6) [第三篇]ASP.NET MVC快速入门之安全策 ...

  4. iOS冰与火之歌(番外篇) - 基于PEGASUS(Trident三叉戟)的OS X 10.11.6本地提权

    iOS冰与火之歌(番外篇) 基于PEGASUS(Trident三叉戟)的OS X 10.11.6本地提权 蒸米@阿里移动安全 0x00 序 这段时间最火的漏洞当属阿联酋的人权活动人士被apt攻击所使用 ...

  5. 给深度学习入门者的Python快速教程 - 番外篇之Python-OpenCV

    这次博客园的排版彻底残了..高清版请移步: https://zhuanlan.zhihu.com/p/24425116 本篇是前面两篇教程: 给深度学习入门者的Python快速教程 - 基础篇 给深度 ...

  6. 可视化(番外篇)——在Eclipse RCP中玩转OpenGL

    最近在看有关Eclipse RCP方面的东西,鉴于Gephi是使用opengl作为绘图引擎,所以,萌生了在Eclipse RCP下添加画布,使用opengl绘图的想法,网上有博文详细介绍这方面的内容, ...

  7. 可视化(番外篇)——SWT总结

    本篇主要介绍如何在SWT下构建一个应用,如何安装SWT Designer并破解已进行SWT的可视化编程,Display以及Shell为何物.有何用,SWT中的常用组件.面板容器以及事件模型等. 1.可 ...

  8. 【重走Android之路】【番外篇】关于==和equals

    [重走Android之路][番外篇]关于==和equals   在实际的编程当中,经常会使用==和equals来判断变量是否相同.但是这两种比较方式也常常让人搞得云里雾里摸不着头脑.下面是我个人做的总 ...

  9. 【重走Android之路】【番外篇】有关于null的一些知识点

    [重走Android之路][番外篇]有关于null的一些知识点   1.首先,到底什么是null? null是Java中的一个关键字,用于表示一个空对象引用,但其本身并不是任何类型也不是属于任何对象. ...

随机推荐

  1. Hibernate - HHH000352: Unable to release batch statement

    这是hibernate的一个bug,具体看https://hibernate.atlassian.net/browse/HHH-11732?attachmentViewMode=list When u ...

  2. REM布局计算,移动端,pc端有兼容性)

    rem布局计算(移动端,pc端有兼容性) <!DOCTYPE html> <html> <head lang="en"> <script& ...

  3. 【linux配置】Linux同步网络时间

    Linux同步网络时间 1.date '+%Y%M%D' 按照格式显示当前日期,结果如下: [root@LAMP ~]# date "+%Y-%m-%d %H:%M:%S" -- ...

  4. fastjson map转json

    Map map = new HashMap(); map.put("name", "老三"); map.put("age", 12); St ...

  5. Java处理正则验证手机号-详解

    参考博客:https://www.cnblogs.com/wangzn/p/7212587.html https://www.cnblogs.com/go4mi/p/6426215.html pack ...

  6. Linux下读写UART串口的代码

    Linux下读写UART串口的代码,从IBM Developer network上拿来的东西,操作比較的复杂,就直接跳过了,好在代码能用,记录一下- 两个实用的函数- //////////////// ...

  7. 2019.9.28 csp-s模拟测试54 反思总结

    咕咕咕的冲动如此强烈x T1x: 看完题目想了想,感觉把gcd不为1的强行放在一组,看作一个连通块,最后考虑连通块之间的组合方式就可以了. 然后维护这个连通块可以写并查集可以连边跑dfs怎么着都行… ...

  8. python的pip更改源,因为我们处于局域网中

    很多时候,比如网络不给力,连接超时.防火墙阻挡等等各种原因,我们可能无法从Python官方的PyPi仓库进行pip安装,这时候可以选择国内的第三方源,推荐使用豆瓣源,速度不错. 使用方法: pip i ...

  9. eclipse中部署web项目

    因为eclipse是免费的,所以很多企业都会选用eclipse作为开发工作,那么我们就需要熟练使用eclipse部署web项目. 第一步:选择window -> preferences ,选择s ...

  10. npm ci命令比npm installer命令快2至10倍

    npm 5.7.1的发布给我们带了一系列新的功能. 其中我最喜欢的就是npm ci命令了. npm ci命令 1.npm ci命令只根据lock-file去下载node_modules. 如果你的pa ...