评分模型的检验方法和标准通常有：K-S指标、交换曲线、AR值、Gini数等。例如，K-S指标是用来衡量验证结果是否优于期望值，具体标准为：如果K-S大于40%，模型具有较好的预测功能，发展的模型具有成功的应用价值。K-S值越大，表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。

例如，K-S指标是用来衡量验证结果是否优于期望值，具体标准为：如果K-S大于40%，模型具有较好的预测功能，发展的模型具有成功的应用价值。K-S值越大，表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。

信用评分模型介绍（一）

2016-08-28 蒋靓 Larry Jiang Larry的风险模型分享与探讨

引言：对于信用评分模型，很多朋友或多或少有所了解，这里做一般性的介绍，并分享自己的多年从业经验。这边短文主要包括：信用评分模型，自变量的生成、筛选、分档和转换，及常用有监督学习模型。

信用评分模型

信用评分模型是一种有监督的学习模型（Supervised Learning），数据由一群自变量X和对应的因变量y构成。传统零售信用模型中，X大致分为客户的基本信息（年龄、性别、职业、学位等），财务信息（收入，每月生活消费，每月信贷还款额等），产品信息（LTV，信用卡类别，个人贷款用途等），征信信息（前6个月被查询次数，前6个信用卡最大利用率，未结清贷款数等）；而一般取值0-1因变量y可以定义为在未来12个月是否出现欠款90天等.

经验备注：在大数据下，很多互联网公司对个人的评估不再局限于以上几种信息，而是根据更为广泛的数据源对个人进行更全面的刻画，故有称之为客户画像。数据维度会考虑个人在社会上留下的任何数据，如手机使用行为，理财行为，社交圈，网购行为，旅游行为等等等等。大家的各方面数据其实都在被不同的公司和不同的APP收集。。。

自变量的生成

自变量是信用风险的来源，除了考虑直接收集的变量，信用评分建模过程中往往需要建模人员产生更多的衍生变量。这部分工作要分析人员的直觉、长期经验的积累和数据挖掘技术的应用。大家可以通过京东和支付宝的评分一窥其自变量的维度：芝麻信用分为5个维度：身份特质，履约能力，信用历史，人脉关系，行为偏好；小白信用分也分为5个维度：身份，资产，关系，履约，偏好。

经验备注：现在越来越多的模型技术被应用于信用模型，但是个人觉得无论高级模型还是初级模型，最为重要的是更广泛的数据和产生更多更具有预测能力的自变量。

自变量的筛选

自变量一旦丰富了起来，就涉及到有效变量的筛选，大致可根据一下几个原则或方法：变量的直观意义（是否跟y有关），变量的单调性或合理性，未来是否可以获取以便模型可实施，变量的区分能力（IV），变量间相关性（变量聚类），变量缺失率，分档之后的稳定性等等。

经验备注：对于区分能力太强的变量，或缺失率很大的变量，不建议直接放入模型，可以考虑做成规则或者做成最后模型的调整。在大数据下，人们经常强调自变量与因变量的相关关系，应用于精准性要求不高的营销模型问题不大。而对于精准度要求极高的信用评分模型，相关关系的应用值得推敲。

自变量分档和转换

为了保持模型的稳定性，信用模型一般对自变量进行分档，比如根据风险不同把年龄分成几档。这样每档需要一个值来代表这段的自变量输入，这就是变量的转换，常见的有WOE和Logit转换。通过转换后不仅实现了稳定性要求，也克服不同变量间刻度不统一的问题，还克服回归中缺失值的填充问题。

经验备注：如果分档过粗糙，不但会降低单个变量的预测能力，也会造成最终评分集中度过高的问题。解决方法：可以考虑每档用线性插值来代替常数，也可以寻找更多能区分分数集中样本的自变量放入模型。

有监督学习模型介绍

目前比较流行的模型主要有以下几种（以后分享会逐一介绍）：

Logistic 回归（Logistic Regression）
决策树（Decision Tree）
支持向量机（Support Vector Machine）
人工神经网络（Artificial Neural Network）
生存分析模型（Survival Analysis Model）

经验备注：除此上述之外，还有些高级方法或算法：集成方法（Ensemble Method）（例如随机森林（Random Forrest），Boosting，AdaBoost），深度学习方法（Deep Learning），随机梯度下降算法（Stochastic Gradient Descent）等。

评分模型的检验方法和标准通常有：K-S指标、交换曲线、AR值、Gini数等。例如，K-S指标是用来衡量验证结果是否优于期望值，具体标准为：如果K-S大于40%，模型具有较好的预测功能，发展的模型具有成功的应用价值。K-S值越大，表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。的更多相关文章

评分模型的检验方法和标准&信用评分及实现
评分模型的检验方法和标准通常有:K-S指标.交换曲线.AR值.Gini数等.例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成 ...
门店评级VS坏客户
sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&a ...
大数据运算模型 MapReduce 原理
大数据运算模型 MapReduce 原理 2016-01-24 杜亦舒 MapReduce 是一个大数据集合的并行运算模型,由google提出,现在流行的hadoop中也使用了MapReduce作为计 ...
【转载】NeurIPS 2018 | 腾讯AI Lab详解3大热点：模型压缩、机器学习及最优化算法
原文:NeurIPS 2018 | 腾讯AI Lab详解3大热点:模型压缩.机器学习及最优化算法导读 AI领域顶会NeurIPS正在加拿大蒙特利尔举办.本文针对实验室关注的几个研究热点,模型压缩.自 ...
zabbix监控Linux服务器CPU使用率大于40%的时候报警（实践版）
zabbix自带的模板里面有监控项,所以监控项就不用创建了,直接创建触发器就可以了,触发器细节如下: 名称:CPU使用率大于40% 严重性:严重表达式:{121.201.54.50:system.c ...
C#开发微信门户及应用(40)--使用微信JSAPI实现微信支付功能
在我前面的几篇博客,有介绍了微信支付.微信红包.企业付款等各种和支付相关的操作,不过上面都是基于微信普通API的封装,本篇随笔继续微信支付这一主题,继续介绍基于微信网页JSAPI的方式发起的微信支付功 ...
Vintage_坏客户定义
python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_ca ...
C# 绘制窗体客户非客户区要用WM_PAINT和WM_NCPAINT
窗体分为两部分:客户区(Client area)和非客户区(Non-Client area) WM_PAINT消息.OnPaint()方法.GetDC()API函数都是处理窗体客户区绘制的而标题 ...
SQL游标+递归查询客户子客户转换率
ALTER PROCEDURE [dbo].[Account3YearsConversion ] as DECLARE @AccountId UNIQUEIDENTIFIER , @yearbefor ...

随机推荐

洛谷 P1420 最长连号【最长合法子序列/断则归一】
题目描述输入n个正整数,(1<=n<=10000),要求输出最长的连号的长度.(连号指从小到大连续自然数) 输入输出格式输入格式: 第一行,一个数n; 第二行,n个正整数,之间用空格隔 ...
官方支持的全新版Neo4j-JDBC驱动3.0
原文:The All-New, Officially Supported Neo4j-JDBC Driver 3.0 作者: Michael Hunger 译者:仲培艺,关注数据库领域,纠错.寻求报道 ...
跨域知识（二）——JSONP
JSONP是服务器与客户端跨源通信的常用方法.最大特点就是简单适用,老式浏览器全部支持,服务器改造非常小. 它的基本思想是,网页通过添加一个<script>元素,向服务器请求JSON数据, ...
单行中文字和图片的相关height和line-height特性
这几天在做仿京东的产品页,发现在制作过程中的一些问题,需要好好研究下. 需要实现的效果如上图所示: 在写CSS样式的时候,对于我的关于竖线的做法是: 设置高度为14,border样式,但导致了一个问题 ...
Java Map 排序
1. 按照key值排序对于java中Map的排序,有排序Map,比如TreeMap,对于这个Map,首先只能按照键排序,其次再put和remove的时候由于需要排序,性能上会有所牺牲. 这种方案,使 ...
poj3463&&hdu1688 次短路（dijkstra）
A*算法超内存. 对于最短路,我们可以维护dis[]数组,来求得最短路,但是此题有次短路,所以定义dis[][2],dis[][0]表示最短路,dis[][1]表示次短路;cnt[][2],cnt[] ...
Oracle使用——impdp导入数据时数据表已经存在
背景在做数据迁移时,需要将不同地方的dmp文件整合到一个数据库中,在导入时,目标表已经存在,该如何把数据追加进入目标表中方法介绍当使用IMPDP完成数据库导入时,如遇到表已存在时,Oracle提 ...
ASO优化经验：APP关键字优化的技巧
当开发首款产品的时候,可能你根本连ASO是什么都不知道,因为有太多别的事情需要你做.大多数新手开发商甚至到游戏要进入Appstore的时候才知道有“关键字”这件事要去研究.正因为这些开发商几乎没有在关 ...
Java练习 SDUT-2499_数字
数字 Time Limit: 1000 ms Memory Limit: 65536 KiB Problem Description 定义f(x) = {比x小,不可以被x整除并且不和x互质的数的个数 ...
CODE FESTIVAL 2017 qual B B - Problem Set【水题，stl map】
CODE FESTIVAL 2017 qual B B - Problem Set 确实水题,但当时没想到map,用sort后逐个比较解决的,感觉麻烦些,虽然效率高很多.map确实好写点. 用map: ...

信用评分模型介绍（一）

随机推荐

热门专题