sas信用评分之第二步变量筛选

今天介绍变量初步选择。这部分的内容我就只介绍information
–value,我这次做的模型用的逻辑回归,后面会更新以基尼系数或者信息熵基础的筛选变量,期待我把。

Iv值的介绍你们已经很熟悉了,我这次就简单粗暴的说下变量iv值到那个数就可以用的啦。

(1):在很多书上说要达到0.1-0.3才是中等相关,达到0.3是强相关,但是这里必须提及,变量的iv值本来就是变量多个分段的iv值的相加。所以我们做这部分工作的时候就发现,一个变量我要是变态一点,分成1000分,他可以达到1.5,iv值是很高啊,这个变量你一旦用下聚类或者是决策树分下类,就发现iv值其实是很低的,所以这个iv值的计算我们需要大概的给个分多少段。

(2):在第一点中提到分几份,但是分几份是针对连续变量,对于字符变量的。我建议可以先使用最优分段分下组再进行计算iv值。但是如果字符变量的分类在4-10类的话还是可以直接计算iv值的。

(3):对于在日常的建模中,其实并不是iv值大于0.1才会被筛选出来,我就在建模中碰见一个问题,就是iv值大于0.1都是同类变量,相关性极高,这些变量虽然iv值很高,但是丢进逻辑回归中是不会被全部选中的,因为我们都知道共线性强的变量对于我们模型其实是不好的。讲了这么多就是为了说,变量初步选择的时候我一般是大于iv值0.02我会筛选出来,不为什么,宁可错杀一千,不可放过一个,我对变量就是这么残暴。在这里我考虑到一点,就是可能一个变量单独对因变量的预测力不是很强,但是跟其他变量结合的时候,可能会产生不一样的结果哈。

例如哈,我举一个很不恰当的例子哈,不恰当的例子哈,不要喷我。譬如婚姻状况和年纪,可能这两个变量单独对因变量没什么明显的体现,但是结合在一起呢,譬如25岁下离婚的人是不是会比25岁以上离婚不一样呢。你们顺着这个思路想下去就可以啦,我再说下去25岁以下离婚怎么怎么样,我就要被喷了。毕竟我还是怕键盘侠。

这篇文章的代码我之前是发过的。路径在这里:sas输出变量的基尼系数以及iv值。在这篇文章中我介绍下结果:

代码的使用在上面路径中有介绍,点下去就可以看了。介绍下结果,score2是分组后的变量就是譬如说年龄中52岁分组后是第3组,那么他观测的值就是3。score3输出基尼系数,这部分的内容之后用到基尼系数再说哈。我们着重说下score4以及score5.

Score4的表格是长这样子的:

你看到的var_name这一列的变量是每个变量名价格前缀“p_”如果是字符变量就不加前缀“p_”,_freq_这一变量是分组数,我这边设定的是分成5组,你问我为什么上面写着6,因为我这批数据中有缺失,缺失不参与分组,就是第6组啦。最后一列就是iv值啦,我刚才说的同类变量iv值都很高啦,就是这个图,q_开头的都是同类的变量,iv值基本相近,假设说这些都进去模型的,模型也不会全都要了。

score5的表格是长这样子的:

这图可能在这里比较小,但是你单独点开还是可以看的。

score5是score4的具体每段的iv值的分布,其中m就是观测缺失的组别。后面的start
end这两个变量是这个组别的区间。这里的woe值其实我不建议使用,因为我这边的分区是全部都是等分的5份,但是某些变量有更好的分法,后面对于筛选出来的变量也会进行进一次的最优分段再计算woe值,这里的woe只是为计算iv,顺便显示在数据集中。

其实到了这里,iv值的代码以及iv值运用,我也都讲完了。但是在业务上,还会做这样子一个步骤,就是对于iv值极高的变量会单独拿出来再分析。下面分享一个其中的一个的分析例子,这部分的工作可能不是全部公司都会做,因为很耗费时间。

这是建模中我的一个次数变量至于代表是什么变量因为公司的保密性质,所以我就不说了。分区是计算iv值时分段出来的。假设这个是拨打贷款公司的电话的次数,当他打的次数是3次以下的时候,批核率以及逾期率是比较高的,但是当达到13次以上的时候,批核率不仅降了9%左右,而且逾期率也高了4%,那么这个变量就可以跟领导讨论一下,将这条规则做到前端,让审批审核人员多了一个可以参考的条件,当然这个变量的体现可能相对于其他变量来说是很明显的。但是真正做成规则或者说人工审批的决策还可能不能。具体的情况还是要看自己公司的数据,我这里也只是分享我工作中的一个小小的经验。

sas信用评分之第二步变量筛选的更多相关文章

  1. SAS信用评分之逻辑回归的变量选择

    SAS信用评分之逻辑回归的变量选择 关于woe的转化,这一部在之前的这篇文章:sas批量输出变量woe值中已经写了,woe也只是简单的公式转化而已,所以在这系列中就不细究了哈.这次的文章我想来讲逻辑回 ...

  2. SAS信用评分之模型拟合以及验证的大坑

    SAS信用评分之模型拟合以及验证的大坑 今天的内容是来讲我这段时间被模型拟合和模型验证坑过的那些事.我也是千辛万苦终于是把模型给建出来了.此处应该有掌声.因为模型老是效果不好这件事,我躲在被窝里哭了好 ...

  3. SAS信用评分之番外篇异常值的识别

    SAS信用评分之番外篇异常值的识别 今天想分享给大家的是我早期建模的时候一个识别异常值的办法,也许你在"信用风险评分卡研究"看过,但是代码只能识别一个变量,我将这个代码作了改良,但 ...

  4. 信用评分卡 (part 3of 7)

    python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...

  5. 基于Python的信用评分卡模型分析(一)

    信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡.B卡.C卡和F卡:债项评级模型通常按照主体的融资用途,分为 ...

  6. 信用评分卡Credit Scorecards (1-7)

      欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 python风控评分卡建模和风控常识 https://study.163.com/course/introductio ...

  7. WOE:信用评分卡模型中的变量离散化方法(生存分析)

    WOE:信用评分卡模型中的变量离散化方法 2016-03-21 生存分析 在做回归模型时,因临床需要常常需要对连续性的变量离散化,诸如年龄,分为老.中.青三组,一般的做法是ROC或者X-tile等等. ...

  8. 评分模型的检验方法和标准&信用评分及实现

    评分模型的检验方法和标准通常有:K-S指标.交换曲线.AR值.Gini数等.例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成 ...

  9. 信用评分卡(A卡/B卡/C卡)的模型简介及开发流程|干货

    https://blog.csdn.net/varyall/article/details/81173326 如今在银行.消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户 ...

随机推荐

  1. csp-s模拟测试b组加餐antipalindome,randomwalking,string题解

    题面:https://www.cnblogs.com/Juve/articles/11599318.html antipalindome: 打表找规律? 对于一个回文串,我们只要保证3位以内不回文即可 ...

  2. JS--封装JS跳转页面函数

    //JS跳转页面 function gourl($iAlert,$iPage,$history='',$target="window") { if ($iAlert != &quo ...

  3. ArcGIS中线转面

    1. 打开ArcMap用Add Data加载shp Polyline线文件. 2. 选Editor编辑\Start Editing开始编辑. 3. 选Editor编辑\More Editing Too ...

  4. 爱上一门语言不需要理由——我的js之路

    开始记录js学习:~~~~分享一下你的js学习途径吧 决定学习前端之后,开始接触JavaScript 1995年,网景公司的Brendan Eich用10天完成了JavaScript的设计,他被称为J ...

  5. Simple implementation and results of genetic algorithm.

    This experiment was done for the final assignment of my Professional English class. This part has be ...

  6. Django定义全局变量

    定义全局变量,在项目的任何位置都可以获取到变量的值 在include App=>include文件夹下=>context_processors.py 里定义需要获取的变量 #!/usr/b ...

  7. Centos Apache 多站点配置

    首先明白APACHE配置文件位置 /etc/httpd/ 系统会自动加载 "/etc/httpd/conf.d" 目录下面的 "*.conf"文件 创建多个 & ...

  8. 007-使用python统计代码行数,空行以及注释

    # 自己写过的程序,统计一下你写过多少行代码.包括空行和注释,但是要分别列出来 1.打开文件方法 1.1 以读文件的模式打开一个文件对象,使用Python内置的open()函数,传入文件名和标示符 f ...

  9. ubuntu和win10设置双显示器

    ubuntu:最右上角那个图标,点开找到系统设置,系统设置中找到“显示”中,在其中可以调节双屏显示或者只显示一个屏,图等会补... win10:现在是ubuntu系统所以操作忘记了写不出来,等下换系统 ...

  10. 【模板】tarjanLCA [2017年6月计划 学习tarjanLCA]

    P3379 [模板]最近公共祖先(LCA) 题目描述 如题,给定一棵有根多叉树,请求出指定两个点直接最近的公共祖先. 输入输出格式 输入格式: 第一行包含三个正整数N.M.S,分别表示树的结点个数.询 ...