对数据集分箱的方式三种,等宽等频最优,下面介绍对数据集进行最优分箱,分箱的其他介绍可以查看其他的博文,具体在这就不细说了: 大体步骤: 加载数据: 遍历所有的feature, 分别处理离散和连续特征: 得到IV树: 递归遍历IV树,得到分割点构成的列表: 去掉不符合条件的分割点,得到最优分割点列表: 遍历最优分割点列表,将最优分割点信息注入到InfoValue对象中: 将每个特征构成的对象放到规则集中(是一个列表): 通过规则集对test进行WOE转换: 将规则集存一份到csv中,可以直观的查看