样本稳定指数PSI

　　信用评定等级划分之后需要对评级的划分做出评价，分析这样的评级划分结果是否具有实用价值，即分析样本分布的稳定程度。样本分布稳定，则信用评定等级划分结果的实用价值就高。采用样本稳定指数（ PSI ）检验样本分布的稳定程度，若训练样本和测试样本在分布上表现一致，样本稳定指数的取值就会接近于零，信用评级划分结果的可靠性就会很高；若训练样本和测试样本在分布上差异很大，样本稳定指数的取值就会变大，信用评级划分结果的可靠性就会很低。样本稳定指数大于 0.10 ，即认为训练样本和测试样本分布上发生了轻微的改变；样本稳定指数大于 0.25 ，认为训练样本和测试样本分布上发生了比较明显的改变，应该警惕。

K 代表信用等级数，p_i1 代表训练样本在第 i 个信用等级上的违约概率，p_i2代表测试样本在第 i 个信用等级上的违约概率。

import numpy as np

y1_train_prob = np.array([0.1,0.7,0.7,0.3,0.5,0.8])

y1_pred_prob = np.array([0.1,0.4,0.1])

def psi(y1_train_prob,y1_pred_prob,k=8,eps=1e-10):

    """

    param y1_train_prob:训练数据预测1的概率

    param y1_pred_prob: 预测数据预测1的概率

    param k: 等级个数

    param eps:数值稳定系数

    return :psi

    """

    y1_train_prob = np.sort(y1_train_prob)

    y1_pred_prob  = np.sort(y1_pred_prob)

    len_train = len(y1_train_prob)

    len_pred  = len(y1_pred_prob)

    num_K_train = [] #训练样本每个信用等级的计数占比

    num_K_test  = [] #预测样本每个信用等级的计数占比

    i = 0

    while i<=1:

        temp1 = len(y1_train_prob[y1_train_prob<(i+1/k)])-len(y1_train_prob[y1_train_prob<i])

        num_K_train.append(temp1/len_train)
 

        temp2 = len(y1_pred_prob[y1_pred_prob<(i+1/k)])-len(y1_pred_prob[y1_pred_prob<i])

        num_K_test.append(temp2/len_pred)

        i= i+1/k        

    Sum = 0.0 #存储psi值

    for i in range(k):

        left = num_K_train[i]-num_K_test[i]

        right = (num_K_train[i]+eps)/(num_K_test[i]+eps)

        Sum = Sum + left*np.log(right)

    return round(Sum,3)        

psi(y1_train_prob,y1_pred_prob,k=10)

样本稳定指数PSI的更多相关文章

【机器学习PAI实践十二】机器学习算法基于信用卡消费记录做信用评分
背景如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应 ...
PSi-Population Stability Index (PSI)
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
模型稳定度指标PSI与IV
由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知.稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发 ...
模型稳定性指标—PSI
由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知.稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发 ...
模型监控指标- 混淆矩阵、ROC曲线，AUC值，KS曲线以及KS值、PSI值，Lift图，Gain图，KT值，迁移矩阵
1. 混淆矩阵确定截断点后,评价学习器性能假设训练之初以及预测后,一个样本是正例还是反例是已经确定的,这个时候,样本应该有两个类别值,一个是真实的0/1,一个是预测的0/1 TP(实际为正预测为正 ...
信贷风控模型开发----模型流程&好坏样本定义
第二章模型开发流程&好坏样本定义 2.1模型开发流程 2.1.1 评分模型流程图 2.1.2流程图阐述该小结提出了一些数据指标,如果不明白没有关系,往后的文章笔者会一个个地解释这些指标的含 ...
【转】风控中的特征评价指标（二）——PSI
转自:https://zhuanlan.zhihu.com/p/79682292 风控业务背景在风控中,稳定性压倒一切.原因在于,一套风控模型正式上线运行后往往需要很久(通常一年以上)才会被替换下线 ...
SQL->Python->PySpark计算KS，AUC及PSI
KS,AUC 和 PSI 是风控算法中最常计算的几个指标,本文记录了多种工具计算这些指标的方法. 生成本文的测试数据: import pandas as pd import numpy as np i ...
一个windows下的ddos样本
一个windows下的ddos样本. 加载器程序运行之后会在临时目录释放出一个256_res.tmp的文件之后将该文件移动至system32目录下,以rasmedia.dll命名. 删除原文件. ...

随机推荐

Latex的\cite后面的参考文献显示问号
今天编写Latex的参考文献,发现编译之后参考文献都是问号,很疑惑.网上搜到一个帖子,发现他的问题和我的类似,但他比我还多出一个问题,就是Bibtex按钮是灰色的无法使用. 遇到“看不到Bibtex按 ...
UDP广播与多播
UDP广播与多播使用UDP协议进行信息的传输之前不需要建议连接.换句话说就是客户端向服务器发送信息,客户端只需要给出服务器的ip地址和端口号,然后将信息封装到一个待发送的报文中并且发送出去.至于服务 ...
About RFC
RFC说明 Request For Comments (RFC),是一系列以编号排定的文件,几乎所有的因特网标准都收录在RFC文件之中,如果你想成为网络方面的专家,那么RFC无疑是最重要也是最经常需要 ...
Ajax请求数据的两种方式
ajax 请求数据的两种方法,有需要的朋友可以参考下. 实现ajax 异步访问网络的方法有两个.第一个是原始的方法,第二个是利用jquery包的原始的方法不用引入jquery包,只需在html中编写 ...
C++的类型转换：static_cast、dynamic_cast、reinterpret_cast和const_cast
在C++中,存在类型转换,通常意味着存在缺陷(并非绝对).所以,对于类型转换,有如下几个原则:(1)尽量避免类型转换,包括隐式的类型转换(2)如果需要类型转换,尽量使用显式的类型转换,在编译期间转换( ...
TCP状态转化图 TIME_WAIT解析
先上转换图: 重点研究TIME_WAIT状态,根据UNIX网络编程中的思路,TIME_WAIT状态有两个存在的理由: 理由1. 客户端执行主动关闭,假设最终的ACK丢失,服务器将重新发送它的最后那个F ...
tensorflow中的参数初始化方法
1. 初始化为常量 tf中使用tf.constant_initializer(value)类生成一个初始值为常量value的tensor对象. constant_initializer类的构造函数定义 ...
OpenCV 图像旋转实现
1 旋转矩形首先建议阅读图像旋转算法原理-旋转矩阵,这篇博客可以让你很好地理解图像中的每一个点是如何进行旋转操作的.其中涉及到了图像原点与笛卡尔坐标原点之间的相互转换以及点旋转的一些公式推导. 这里 ...
51Nod 1067：Bash游戏 V2（巴什博弈）
1067 Bash游戏 V2 基准时间限制:1 秒空间限制:131072 KB 分值: 10 难度:2级算法题收藏关注有一堆石子共有N个.A B两个人轮流拿,A先拿.每次只能拿1,3,4 ...
LG3812 【模板】线性基
题意给定n个整数(数字可能重复),求在这些数中选取任意个,使得他们的异或和最大. \(1≤n≤50,0≤S_i≤2^{50}\) 分析模板题. 推荐一篇好博客现在我来证明一下线性基的性质. 性质 ...

样本稳定指数PSI

样本稳定指数PSI的更多相关文章

随机推荐

热门专题