KS,AUC 和 PSI 是风控算法中最常计算的几个指标,本文记录了多种工具计算这些指标的方法. 生成本文的测试数据: import pandas as pd import numpy as np import pyspark.sql.functions as F from pyspark.sql.window import Window from pyspark.sql.types import StringType, DoubleType from pyspark.sql import Sp
KS检验统计量的扩展应用 KS(Kolmogorov-Smirnov)检验是比较两个经验分布之间是否存在差异. 我们设X1, X2,-, Xm, Y1, Y2,-, Ym为两个独立随机样本,分别满足假设A1和A2,分布函数分别为F, G.现在我们想知道的是X和Y的概率分布之间是否存在差异,我们建立以下假设 H0:F(t) = G(t), for every t H1:F(t) ≠ G(t), for at least one t 接下来我们要计算双边双样本统计量J 首先我们需要获得X,Y样本
均值比较.单样本T检验(One-sample Test))目的:检验单个变量的均值与给定的某个常数是否一致.)判断标准:p<0.05;t>1.98即认为是有显著差异的..独立样本T检验(Indpendent-Samples T Test))目的:检验两个独立样本均值是否相等.)判断标准:p<0.05;t>1.98即认为是有显著差异的..配对样本T检验(Paired-Samples T Test))目的:检验两个配对样本均值是否相等.)判断标准:p<0.05;t>1.98
在针对连续变量的统计推断方法中,最常用的是 t 检验和方差分析两种. t 检验,又称 student t 检验,主要用于样本含量较小(例如n<30),总体标准差未知的正态分布资料.它是用 t 分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著. u 检验适用于总体标准差已知的小样本均数的假设检验,或总体标准差未知的大样本均数的假设检验.当样本数较大时,t 检验和 u 检验可以等同使用. t 检验又三种: (1)单样本 t 检验过程:进行样本均数与已知总体均数的比较. 当样本量足够大,