样本稳定指数PSI】的更多相关文章

信用评定等级划分之后需要对评级的划分做出评价,分析这样的评级划分结果是否具有实用价值,即分析样本分布的稳定程度.样本分布稳定,则信用评定等级划分结果的实用价值就高.采用样本稳定指数( PSI )检验样本分布的稳定程度,若训练样本和测试样本在分布上表现一致,样本稳定指数的取值就会接近于零,信用评级划分结果的可靠性就会很高:若训练样本和测试样本在分布上差异很大,样本稳定指数的取值就会变大,信用评级划分结果的可靠性就会很低.样本稳定指数大于 0.10 ,即认为训练样本和测试样本分布上发生了轻微的改变:…
背景 如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法. 评分卡建模理论常被用于各种信用评估领域,比如信用卡风险评估.贷款发放等业务.另外,在其它领域评分卡常被用来作为分数评估,比如常见的客服质量打分.芝麻信用分打分等等.在本文中,我们将通过一个案例为大家讲解如何通过PAI平台的金融板块组件,搭建出一套评分卡建模方案. 本…
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知.稳定度指标(population stability index ,…
由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知.稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针.其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化.公式如下: 这里的AC与EX为不同时间段的模型输出分数,如果PSI过大,说明模型输出的分数…
由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知.稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针.其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化.公式如下: 这里的AC与EX为不同时间段的模型输出分数,如果PSI过大,说明模型输出的分数…
1. 混淆矩阵 确定截断点后,评价学习器性能 假设训练之初以及预测后,一个样本是正例还是反例是已经确定的,这个时候,样本应该有两个类别值,一个是真实的0/1,一个是预测的0/1 TP(实际为正预测为正),FP(实际为负但预测为正),TN(实际为负预测为负),FN(实际为正但预测为负) 通过混淆矩阵我们可以给出各指标的值:查全率(召回率,recall):样本中的正例有多少被预测准确了,衡量的是查全率,预测对的正例数占真正的正例数的比率: 查全率=检索出的相关信息量 / 系统中的相关信息总量 = T…
第二章 模型开发流程&好坏样本定义 2.1模型开发流程 2.1.1 评分模型流程图 2.1.2流程图阐述 该小结提出了一些数据指标,如果不明白没有关系,往后的文章笔者会一个个地解释这些指标的含义和计算方法 数据获取:获取建模所需要的数据,一般分为内部为外部数据,内部数据例如贷款公司内部搜集存储的客户信息,例如客户在平台内部的登陆.注册.消费信息等,外部数据一般有第三方数据,例如人行征信报告.一些第三方机构提供的多头借贷等 EDA与数据描述,EDA全称explore data analysis,目…
转自:https://zhuanlan.zhihu.com/p/79682292 风控业务背景 在风控中,稳定性压倒一切.原因在于,一套风控模型正式上线运行后往往需要很久(通常一年以上)才会被替换下线.如果模型不稳定,意味着模型不可控,对于业务本身而言就是一种不确定性风险,直接影响决策的合理性.这是不可接受的. 本文将从稳定性的直观理解.群体稳定性指标(Population Stability Index,PSI)的计算逻辑.PSI背后的含义等多维度展开分析. 目录Part 1. 稳定性的直观理…
KS,AUC 和 PSI 是风控算法中最常计算的几个指标,本文记录了多种工具计算这些指标的方法. 生成本文的测试数据: import pandas as pd import numpy as np import pyspark.sql.functions as F from pyspark.sql.window import Window from pyspark.sql.types import StringType, DoubleType from pyspark.sql import Sp…
一个windows下的ddos样本. 加载器 程序运行之后会在临时目录释放出一个256_res.tmp的文件 之后将该文件移动至system32目录下,以rasmedia.dll命名. 删除原文件. 加载开始释放的dll文件,并调用该dll导出的install函数.…