【ArchSummit干货分享】个推大数据金融风控算法实践
作者:个推高级数据工程师 晓骏
众所周知,金融是数据化程度最高的行业之一,也是人工智能和大数据技术重要的应用领域。随着大数据收集、存储、分析和模型技术日益成熟,大数据技术逐渐应用到金融风控的各个环节。个推作为专业的数据智能服务商,拥有海量数据资源,在智慧金融领域也推出了相应的数据解决方案-个真,为金融客户提供智能反欺诈、多维信贷风险评估和高意愿用户智能筛选等全流程的数据服务,助力各金融机构全面提升风控能力。本文将围绕大数据风控,结合个推实践,介绍金融风控机器学习的基本流程、算法实践和产品化建设等内容。
风控流程 & 多维度特征
大数据风控的内容
数据是风控的核心要素,大数据风控实际上就是对数据的处理、建模和应用的过程。大数据风控的流程主要分为四个阶段:数据获取、数据分析、数据建模、风控产品应用。对获取到的海量数据进行清洗和挖掘,有针对性地对金融特征进行深加工;接着通过规则策略和模型算法的构建,对外输出相应的风控服务。
个推以消息推送服务起家,为数十万APP提供高效稳定的推送服务,并沉淀了丰富的数据资源,覆盖超过40亿终端设备,数据全面、广泛且有深度。利用设备基础信息、线上APP偏好数据、线下场景数据以及外部补充数据,个推构建了8个维度、350+特征,同时对特征进行动态更新。基本属性、资产、金融、行为偏好、社会属性、消费偏好、风险和稳定性构成了个推金融数据的八大维度;个推利用数据的八大维度,逾350种特征进行模型构建,并将其应用于金融风控各环节。
金融风控机器学习的基本流程
整个风控建模流程,在个推大数据平台上完成。首先,对持续更新的海量一手数据进行收集、清洗、存储,在数据存储前进行ID打通;第二步,对清洗好的原数据进行特征构建;最后,利用多维度特征进行金融风控模型构建,用到的技术包括协同推荐算法、LR算法、XGBoost、营销模型、多头模型和信用分模型等。
建模流程
如何高效构建特征,是风控建模中一个至关重要的问题。在实践中,个推会对特征进行稳定性分析、脏数据/异常数据处理、特征分箱、特征聚合和特征有效性验证。特征评估指标则包括IV值、Gain值、单调性、稳定性和饱和度等。
风控场景机器学习的算法实践
利用上述多维度特征和建模能力,增能于贷前、贷中和贷后全流程:拉、选、评、管、催五大环节。
全流程数据增能
拉-营销模型,甄别虚假注册,评估借贷意愿
在拉新获客阶段,个推制定贴合大额、小额两种营销场景需求的营销模型,通过规则策略、模型策略、风控策略三管齐下,帮助客户识别“真人”,有效降低获客成本、提升注册率和转化率。客户可通过提供样本数据,通过个推来完成建模,同时,在缺乏样本数据的情况下,个推依托自身积累的海量样本数据,可以构建出多种营销场景下的通用模型,供客户使用。
选-贷前的审核,识别欺诈人群,防范恶意骗贷
贷前审核阶段我们通常采取两个策略:欺诈分模型、风险人群筛选。欺诈分模型指的是根据客户提供的数据信息在个推平台进行数据转换、特征匹配,并对其风险特征予以筛选,利用预设规则予以打分,最后得出相应的欺诈分。个推在逾350种特征中识别出数几十种风险特征。举例来说,当某用户安装小贷类APP达到多款以上,或线下到访场景异常,或该用户命中黑名单都会被识别为风险特征。根据欺诈分的高低予以排序,为客户列出不准入人员、需重点关注人员等。
风险人群筛选指的是根据用户存在的风险特征数量及程度,梳理出风险人员。个推利用筛选出的8种维度、350+特征,通过模型预测和规则制定,输出三类风险人群:黑名单、灰名单、多头名单。多头名单顾名思义,当某用户频繁安装或卸载多款借贷类APP时则会被模型系统判定为多头人员;灰名单指的是稳定性较差的人员,黑名单指的是异常人员。在贷前审核阶段,黑名单人员可直接不予以准入,灰名单和多头人员则需要重点关注。
评-信用分模型,贷前信用评估,辅助贷款定额
在评的阶段,个推采用信用分模型,为客户输出用户的信用评分。信用评分由五种维度构建而成:资产、身份、稳定性、关系、行为。个推信用评分模型先根据模型训练与规则模型,得到各个维度分,再将五个维度的个人评分作为特征输入模型,作为特征得到总体个人信用分。
信用分模型由多个模型整合而成,第一层是分类模型(lr+xgboost),得到分值;第二层在维度分的基础上再进行回归,得到最终信用评分。
管-贷中管控,监测异常特征,实现风险预警
在管的环节,个推采用贷中监测模型。从整体人群筛选出逾期相似(相关)人群,结合实时数据与高危特征异常监测得到高疑用户,结合客户的实际需求,对此类用户通过进一步的精准研判得到逾期风险人员,将此类人员告知客户,让其予以重点关注或排查。
催-贷后催管,催回价值评估,提高催回效率
在催的环节,个推基于自身构建的催回评分系统,可以有效指导金融机构制定差异化催管策略,助力更高效地完成催收工作。比如,当客户出现逾期和坏账时,金融机构通过个推的催回评分,对用户的还款能力和还款意愿进行评估,从而判断哪些用户优先催。
** 风控系统产品化**
前面几个流程主要讲的是个推利用多维度特征自主构建风控模型,但在很多业务场景客户希望快速构建特征、快速返回风控结果。为此,我们研发上线个真决策引擎,在规则设计层为客户提供风控规则,让业务人员在规则执行层通过规则性加工进行灵活操作,目前已提供给部分客户试用。
风控决策引擎
如今,科技与金融深度交融的时代已经到来,金融风险控制任重而道远,。个推将持续挖掘其丰富的数据资产,不断打磨自身技术,助力金融行业运作效率和服务能力的全面提升。
(本文所有图片均来源于个推)
更多技术干货,请关注公众号:个推技术学院。
【ArchSummit干货分享】个推大数据金融风控算法实践的更多相关文章
- kaggle竞赛分享:NFL大数据碗(上篇)
kaggle竞赛分享:NFL大数据碗 - 上 竞赛简介 一年一度的NFL大数据碗,今年的预测目标是通过两队球员的静态数据,预测该次进攻推进的码数,并转换为该概率分布: 竞赛链接 https://www ...
- DataPipeline在大数据平台的数据流实践
文 | 吕鹏 DataPipeline架构师 进入大数据时代,实时作业有着越来越重要的地位.本文将从以下几个部分进行讲解DataPipeline在大数据平台的实时数据流实践. 一.企业级数据面临的主要 ...
- 以P2P网贷为例互联网金融产品如何利用大数据做风控?
以P2P网贷为例互联网金融产品如何利用大数据做风控? 销售环节 了解客户申请意愿和申请信息的真实性:适用于信贷员模式. 风控关键点 亲见申请人,亲见申请人证件,亲见申请人签字,亲见申请人单位. 审 ...
- 风险识别系统-大数据智能风控管理平台-企业风控解决方案– 阿里云 https://www.aliyun.com/product/saf
风险识别系统-大数据智能风控管理平台-企业风控解决方案– 阿里云 https://www.aliyun.com/product/saf
- 【解析 . PPT版】干货:阿里全息大数据构建与应用(包括:互联网金融、互联网+、精准营销...)
作者:毛波,阿里巴巴资深数据专家,阿里数据管理平台(DMP)产品负责人. 摘要: 回顾传统数据仓库.商业智能到大型分布式数据平台的进化历程,深入阐述阿里的数据发展历史和数据观,以阿里DMP平台为例深入 ...
- CentOS6.5下如何正确下载、安装Intellij IDEA、Scala、Scala-intellij-bin插件、Scala IDE for Eclipse助推大数据开发(图文详解)
不多说,直接上干货! 第一步:卸载CentOS中自带openjdk Centos 6.5下的OPENJDK卸载和SUN的JDK安装.环境变量配置 第二步:安装Intellij IDEA 若是3节点 ...
- CentOS和Ubuntu系统下安装vsftp(助推大数据部署搭建)
不多说,直接上干货! 同时,声明,我这里安装的vsftp,仅仅只为我的大数据着想,关于网上的复杂安装,那是服务和运维那块.我不多牵扯,也不多赘述. 一.CentOS系统里安装vsftp 第一步:使用y ...
- Kona JDK 在腾讯大数据领域内的实践与发展
导语 | 近日,云+社区技术沙龙“腾讯开源技术”圆满落幕.本次沙龙邀请了多位腾讯技术专家,深度揭秘了腾讯开源项目TencentOS tiny.TubeMQ.Kona JDK.TARS以及Medical ...
- 大数据的常用算法(分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘)
在大数据时代,数据挖掘是最关键的工作.大数据的挖掘是从海量.不完全的.有噪声的.模糊的.随机的大型数据库中发现隐含在其中有价值的.潜在有用的信息和知识的过程,也是一种决策支持过程.其主要基于人工智能, ...
随机推荐
- go io库
1 io.Reader和io.Writer的获取 tcp协议下的io.Reader是从conn中获取到的,因为要先建立conn,conn建立成功之后,然后读写数据. 2 真正的读写 2.1 io.Co ...
- JGit、SvnKit - 版本提交日志(1)提取
1.相关开源jar包 1>使用JGIT访问git项目 2>使用SVNkit访问svn Git官方JGit使用教程指导 2.Git历史提交日志导出到文件 在项目根目录执行如下命令,将日志 ...
- adb 配置连接
一. adb环境安装 1.1. windown 驱动安装 1. 下载驱动(ADB Kits):http://adbshell.com/downloads 2. adb 测试 <1>. 解压 ...
- 洛谷 P1631 序列合并(优先队列)
传送门 解题思路 首先读入a.b数组后,sort一遍(从小到大),然后把a[1]+b[1],a[2]+b[1],a[3]+b[1]……a[n]+b[1]全部加入一个优先队列q(小根堆). 然后从一到n ...
- [LeetCode] 30. 串联所有单词的子串
题目链接: https://leetcode-cn.com/problems/substring-with-concatenation-of-all-words/ 题目描述: 给定一个字符串 s 和一 ...
- 100行代码撸完SpringIOC容器
用过Spring框架的人一定都知道Spring的依赖注入控制反转;通俗的讲就是负责实例化对象 和 管理对象间的依赖 实现解耦. 我们来对比两段代码: UserController{ UserServi ...
- C#设计模式:备忘录模式(Memento Pattern)
一,C#设计模式:备忘录模式(Memento Pattern) 1.发起人角色(Originator):记录当前时刻的内部状态,负责创建和恢复备忘录数据.负责创建一个备忘录Memento,用以记录当前 ...
- 欢迎使用Markdown编辑器
#欢迎使用Markdown编辑器 你好 ,这是我第一次使用Markdown编辑器所展示的页面.如果你想学习如何使用Markdown编辑器,可以仔细阅读这篇文章,了解一下Markdown的基本语法知识. ...
- Linux服务器安装系统之1-LSI阵列卡Raid10配置方法
- 解决vuex数据页面刷新后初始化问题
在vue项目的开发中经常会用到vuex来进行数据的存储,然而在开发过程中会出现刷新后页面的vuex的state数据初始化问题!下面是我用过的解决方法 利用storage缓存来实现vuex数据的刷新问题 ...