lightgbm histogram算法 将连续的浮点值离散成k个离散值,构造宽度为k的histogram leaf-wise生长策略 每次在所有叶子中找到分裂增益最大的一个叶子,一般也是数据量最大的 参数 num_leaves 叶节点数目,<=2^(max_depth) max_depth [1] 调参 hyperopt:自动获取最佳的超参数. pip install hyperopt import hyperopt def hyperopt_objective(params): model=…
1 业务架构 风控平台是相对独立的系统,信审的案件可以从借款端平台推过来,也可以从第三方平台推过来.信审案件到达风控平台后,自动创建工作流,根据风控流程处理各流程环节任务. •自动决策 风控流程自动处理案件,访问第三方合作伙伴的接口,获取用户黑名单.欺诈数据和多头借贷等数据,查询名单数据,决策引擎输出各环节处理结果.自动决策后出三个结果,自动通过.转人工.拒绝. • 人工信审 根据决策引擎输出的结果进行转人工处理,人工通过初审和复核岗,给出具体信审结果,信审通过的案件给出风险等级和具体额度. •…
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share https://blog.csdn.net/arsenal0435/article/details/80446829(原文链接) 1.本项目需解决的问题    本项目通…
王青天 孔越编著, 2020年6月第一版 第一章介绍,介绍金融科技fintech是指使用技术提供财务解决方案.人工智能和机器学习技术可以帮助包括欺诈预防.风险管理.客户服务和营销等多个环节的智能化.个人借贷交易的不同阶段涉及线上借贷行业的9种风险:信用检查不足.中介不充分.还款不及时.流动性不足.缺乏透明度.运营和技术失败.法律风险.过度杠杆和道德缺失,其中信用检查不足风险是最需要控制的风险. 个人信贷中信用风险评估的关键是,通过分析借贷人的信用信息,评估借款人的偿还能力和意愿量化违约风险.信用…
一.背景 很多农民因为缺乏资金,在每年耕种前会向相关机构申请贷款来购买种地需要的物资,等丰收之后偿还.农业贷款发放问题是一个典型的数据挖掘问题.贷款发放人通过往年的数据,包括贷款人的年收入.种植的作物种类.历史借贷信息等特征来构建经验模型,通过这个模型来预测受贷人的还款能力. 本文借助真实的农业贷款业务场景,利用回归算法解决贷款发放业务. 线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛.本文通过农业贷款的历史发放情况,预测是否给预…
导语 大哥说.今年手Q游戏的春节红包你来做.那该怎么做?以及怎么做才干让大哥放心?本文从后台的角度出发讲述了这个过程和方法.对于关键的前台部分也有所涉及. 文件夹 1.需求背景 1.1.红包类别 1.2.体验流程 1.3.后台需求 2.需求分析 2.1.礼包列表 2.2.区服信息 2.3.领取礼包 3.总体方案与项目分解 4.需求开发 4.1.功能需求开发 4.2.性能需求开发 4.3.容错需求开发 4.4.监控需求开发 5.系统保障 5.1.系统容灾 5.2.过载保护 5.3.柔性可用 5.4…
[机器学习入门与实践]数据挖掘-二手车价格交易预测(含EDA探索.特征工程.特征优化.模型融合等) note:项目链接以及码源见文末 1.赛题简介 了解赛题 赛题概况 数据概况 预测指标 分析赛题 数据读取pandas 分类指标评价计算示例 回归指标评价计算示例 EDA探索 载入各种数据科学以及可视化库 载入数据 总览数据概况 判断数据缺失和异常 了解预测值的分布 特征分为类别特征和数字特征,并对类别特征查看unique分布 数字特征分析 类别特征分析 用pandas_profiling生成数据…
一.MADlib简介 MADlib是Pivotal公司与伯克利大学合作的一个开源机器学习库,提供了精确的数据并行实现.统计和机器学习方法对结构化和非结构化数据进行分析,主要目的是扩展数据库的分析能力,可以非常方便的加载到数据库中, 扩展数据库的分析功能,2015年7月MADlib成为Apache软件基金会的孵化项目,其最新版本为MADlib1.11,可以用在Greenplum.PostgreSQL和HAWQ等数据库系统中.官网地址:http://madlib.incubator.apache.o…
一.MADlib简介 MADlib是Pivotal公司与伯克利大学合作的一个开源机器学习库,提供了精确的数据并行实现.统计和机器学习方法对结构化和非结构化数据进行分析,主要目的是扩展数据库的分析能力,可以非常方便的加载到数据库中, 扩展数据库的分析功能,2015年7月MADlib成为Apache软件基金会的孵化项目,其最新版本为MADlib1.11,可以用在Greenplum.PostgreSQL和HAWQ等数据库系统中. 1. 设计思想 驱动MADlib架构的主要思想与Hadoop是一致的,主…
版本号:V0.9 阅读须知 每个专业方向对应一个课程表格 课程表格里的课程排列顺序即为本培养方案推荐的学习顺序 诚挚欢迎为本培养方案贡献课程,有意向的同学请联系Datawhale开源项目管理委员会 本培养方案持续修订更新中,获取最新版请关注微信公众号:Datawhale,回复"培养方案" 数据分析 课程类型 课程性质 课程名 课程资料 必修 Python基础 聪明办法学Python 文字教程:https://github.com/datawhalechina/learn-python-…