AI应用在金融领域,如何能够在商业上有所突破
如今,随着社会不断发展,技术不断进步,国内外各大金融机构已经在大数据、人工智能、区块链等新技术上有很多尝试,智能客服、智能投顾等新金融形式也早已不新鲜。那么,这些前沿新科技遇到严肃谨慎的金融业,究竟是“黑科技”般的存在,还是技术宅们的另一场狂欢呢?
以下是氪信联合创始人杨玢玢在《当金融遇上黑科技》线下主题沙龙活动的精彩分享:
大家好!我是氪信杨玢玢,负责氪信产品研发。氪信的全称是氪信信息技术有限公司(CreditX),最近刚刚完成了B轮融资。团队的核心人员均来自于雅虎、微软、携程、eBay、央行等世界知名公司和机构,在人工智能领域有超过10年的积累。
在氪信创立之初,我们主要思考这样一个问题:AI应用在金融领域里,如何能够在商业上有所突破?李开复老师也针对这个问题说过他的观点:想要有所突破,需要几个必要因素,一个是要有数据,毕竟AI归根究底还是数据的技术;另外要有处理数据的能力,其次还要有商业变现的场景。技术单独存在不能产生价值,一定要放在一个对技术有需求的场景里面。
我们认为,把AI技术应用于金融领域是一个突破点,而且金融本身是数据化非常完善的场景。同时,金融领域还具备以下几个要素:
第一,市场本身快速发展。在国内目前征信体系不是很完善的情况下,很多有金融需求的人得不到相应的金融服务。氪信通过对数据的搜集和加工,为符合要求的用户提供金融服务。
第二,数据端非常成熟。如今,大家花在手机上的时间特别多,互联网行为就是一个非常好的数据。关键在于如何把它和金融、信用相结合,怎么去拟合他们之间的关系。而这种信任评估是氪信比较擅长的。
从我们决定把AI的技术应用于金融风控,至今已有一年半的时间,在这段实践过程中,我们看到在技术层面、业务层面和战略层面都存在很多痛点,概括来说,就是业务本身对技术提出了需求。比如2016年蓬勃发展的小额现金贷业务,本身就是一个欺诈频发的行业,且没有强数据做支撑,因此,很多从业十几年的金融风控专家在面对新业务形态时,显得有些束手无策。
没有强数据不代表没有数据,事实上,企业还是能够拿到一些所谓的“弱数据”,比如手机上的数据,设备类的数据,或者一些消费类的数据。拿到数据之后去想怎么把这些数据用好,最后再决定要不要给这个人授信。至于授信多少,就需要用到AI技术了。
接下来分享一下氪信的做法和取得的成果。简单来讲风控分为两个部分:一个是反欺诈,一个是授信。
在实践过程中,我们发现区别于传统征信,互联网征信存在几个核心的点:
第一,在反欺诈的阶段,传统征信很难捕捉到一些不是很明显的、由于社交关系和其它关系对自己产生的潜在风险,例如一些团贷、群体欺诈的问题。但是这些问题通过挖掘网络数据价值就可以得到很好的解决。
第二,了解AI的人都清楚,我们在做数据加工的时候,主要还是做特征和建模。在加工的过程中,除了运用专家的方法之外,深度学习也被验证效果突出。建模阶段相比较传统的浅层模型,比如说逻辑回归等等模式,我们采用的是复杂的集成模型方式,因为不同维度的数据具有不同的特点,需要使用不同的建模方法,集成学习框架可以支持不同类型模型算法作为子模型,高效、准确的处理稀疏、超高维、非线性数据建模。
接下来我会分别讲一下我们公司的做法:
第一是底层,我们需要把能够拿到的数据定义为网络需要的关系,底层做一个数据的整合;第二层我们会到一些复杂的网络构建基础,里面有一些信息挖掘和算法;再往上我们会有一些模型,从网络里面拿到隐含的特征,去进行模型的构建;最终来识别比如说一些虚假的申请,或者是一些特殊地域的团贷等。
在网络的算法里面,我们的主要核心是复杂网络构建和团挖掘技术两块。首先在原始的点和边构建好以后,我们如何通过合理算法解决实际的问题,通过团的距离计算,达到比较良好的分团的结果。
另外一个是特征,这个也是非常关键的。我们如何从网络里面提取对一个人的欺诈识别比较有用的信号特征。在这方面,传统的做法是会有一些个人的风险特征,或者关联人,大概多少坏人,这些是我们人能想到的特征。
另外在我们的实践应用过程中,我们发现在突破单个风险点来临的时候,整个网络会出现一些局部风险,并形成连接,比如说形成一些三角或者四角的关系等。从长远的时间上看,这样的关系可能未必不正常,但是一定时间内,你的申请人形成了非常紧密的联系,这件事情是值得注意的。
除了个人局部的风险特征以外,还有全局的。我们用到了一些优化后的算法,每一个人在整个网络中,都会出现一些高的风险点,对和他有社交关系的人也会存在辐射效应。对于个人来说,可能在一度二度三度关系上,会和一个或是几个坏人有一些联系,现在社交比较发达,如果出现大片这样子的人,可以通过辐射算法捕捉到这样的信号。
另外在网络这块,很重要的一点就是整个系统的回转和流程优化。因为网络欺诈有一个特性,对于实时性甄别以及实时修改性上限要求特别高,同时我们学习的目标,不是一个纯事实,很多都是学习专家认定为欺诈的经验,这样的结果对本身的优化是很有价值的,从整个产品来看,形成了数据加工、数据计算和反馈的闭环。
我们也有专家的界面,网络捕捉风险之后,我们的专家都可以看到。
下面分享一下我们氪信在特征加工上的实践。可能了解AI的人特别清楚,我们最后做模型结果的时候,如果是优秀的话,这个优秀的绝大部分来自于我们非常辛苦的加工过程。
我们会看到个人的加工方法,很多时候会有一些不局限性,比如说文本的特征,通过一些方法或者通过不同时间维度的方法,可以描绘出几百个维度的特征,但是不可能达到完备的状态,我们确实需要借助技术本身的能力达到提升。
氪信在小额信用贷的场景里面,尝试用深度学习像循环神经网络处理时序的数据一样处理文本,效果还是非常不错的,我们整个的特征过程是包含了专家的部分以及深度学习自动生成的特征共同传递给模型,并且进行了最终的预测和识别。
这边举一个具体的例子,刚才我提到时序的特征。比如我在不同的时间窗口,是不是要穷尽所有的特征?有可能我们花费了大量的时间,只可以覆盖80%的部分,但是我们用循环神经网络利用长短时记忆的特征,可以捕捉数据在不同窗口趋势类、统计类等不同的特征,从而衍生出来上万种特征,最后我们把这些交给模型,让它来识别哪些是有效的。
建模部分。我们曾做过很多相关的实践,像浅层的偏现金的模式,有它的优势,比较稳定,人也好理解。也尝试过中间阶段端到端的深度学习的方法,通过反神经网络的方法捕捉之间的关联。
最后通过实践结果,我们认为集成模型在金融风控场景里,是一个判断好坏既稳定又有效的手段。集成模型的思想是用不同的子分类器,处理不同的数据。我会选择最好的分类器处理面临的数据,在上面去做一个集成,优势就出来了,就是好而不同,说的直白一点就是三个臭皮匠顶个诸葛亮。从模型性能来看,集成方法无论是拟合能力、模型的预测能力,以及换一个场景它的稳定能力都是非常好的。同时,集成模型在各个场景里也可以实现迁移。现在在氪信的产品体系里面,也融合了这个方法。
在信用贷场景里面,我们和传统模型相比性能提升了1倍,稳定在KS值0.3以上,坏账率直接下降46%。这使得我们很兴奋,是技术给业务直接带来了效果。
氪信要做的就是把AI技术加到金融风控里面,而这个领域里面还是有很多事情可以做的。我们在实践的过程中,同时把方法形成一套产品体系,帮助金融机构解决问题。我们氪信有相应的云数据的服务,有机器学习建模平台,有在线风控引擎,可以帮助完成企业互联网
的升级。
数据核心是我们沉淀的这条金融图谱的知识体系,从原始的需要用什么数据,到加工挖掘数据,再到上层怎么连接管理它,形成精准完备的画像。
另外在系统的整个过程和AI的运营中,从设备接入到数据的加工处理,到得出结果等等,整个都是自动化的过程。现在现金贷的量非常大,解放人力已经成为重要需求,因此我们确确实实需要这样一套数据智能一体化的产品。
- 知识图谱辅助金融领域NLP任务
从人工智能学科诞生之初起,自然语言处理(NLP)就是人工智能核心的研究问题之一.NLP的重要性是毋庸置疑的,它能够实现以自然语言交流为特征的高级人机交互,使机器能“阅读”所有以文字形式记录的人类知识, ...
- 央行下属的上海资信网络金融征信系统(NFCS)签约机构数量突破800家
央行下属的上海资信网络金融征信系统(NFCS)签约机构数量突破800家 ——已接入NFCS的P2P网贷机构将优先 接入央行征信系统 P2P网贷行业的健康发展依赖于信用体系的支撑和保障,加快完善适应 ...
- FPGA IN 金融领域
何为金融: 金融指货币的发行.流通和回笼,贷款的发放和收回,存款的存入和提取,汇兑的往来等经济活动.金融(FIN)就是对现有资源进行重新整合之后,实现价值和利润的等效流通. 金融主要包括银行.证券.基 ...
- 开发者说 | 云+AI赋能心电医疗领域的应用
以"医工汇聚 智竞心电"为主题的首届中国心电智能大赛自2019年1月1日启动全球招募起,共吸引总计545支来自世界各地的医工结合团队,308支团队近780名选手通过初赛资格审查,经 ...
- 曼孚科技:AI自然语言处理(NLP)领域常用的16个术语
自然语言处理(NLP)是人工智能领域一个十分重要的研究方向.NLP研究的是实现人与计算机之间用自然语言进行有效沟通的各种理论与方法. 本文整理了NLP领域常用的16个术语,希望可以帮助大家更好地理解 ...
- 基于python、jupyter-notebook 的金融领域用户交易行为分析
说明:本文重在说明交易数据统计.分析方法,所有数据均为生成的数据 时间原因代码未定义成函数 统计指标:1.用户单日交易行为数据 2.按小时为计算单位,统计用户行为数据(旨在求得一天24小时中每个小时的 ...
- 学习世界模型,通向AI的下一步:Yann LeCun在IJCAI 2018上的演讲
https://baijiahao.baidu.com/s?id=1606296521706399213&wfr=spider&for=pc 机器之心整理,机器之心编辑部. 人工智能顶 ...
- 吴恩达深度学习笔记(deeplearning.ai)之卷积神经网络(CNN)(上)
作者:szx_spark 1. Padding 在卷积操作中,过滤器(又称核)的大小通常为奇数,如3x3,5x5.这样的好处有两点: 在特征图(二维卷积)中就会存在一个中心像素点.有一个中心像素点会十 ...
- [转]马上2018年了,该不该下定决心转型AI呢
转自:http://blog.csdn.net/eNohtZvQiJxo00aTz3y8/article/details/78941013 2017年,AI再一次迈向风口,但我们如何判断未来走向?应不 ...
随机推荐
- 【Java架构:基础技术】一篇文章搞掂:Linux
基于CentOS 一.安装[暂略] 二.使用和登录[赞略] 三.使用yum CentOS自带yum,这里暂时不介绍安装方式 四.使用yum安装JDK 1.检查系统是否有安装open-jdk rpm - ...
- 51NOD 1005
1005 大数加法 基准时间限制:1 秒 空间限制:131072 KB 分值: 0 难度:基础题 收藏 关注 给出2个大整数A,B,计算A+B的结果. Input 第1行:大数A 第2行:大 ...
- 移动无线测试技能图谱skill-map
# 移动无线测试技能图谱 ## 常用IDE- Android * ADT * Android Studio- iOS * Xcode- Common * Atom * Sublime Text * V ...
- appium 链接真机运行时报错
今天用appium链接真机时,碰到的第一个问题:Attempt to re-install io.appium.settings without first uninstalling.(这是日志中显示 ...
- SVN迁移Gitlab步骤
概述 公司要求将之前使用SVN进行管理的项目迁移到Gitlab进行项目管理,但是运维连不上我们这边的SVN服务器,于是我们就得自己将SVN项目迁移到Gitlab.Yeah!终于有我表现的机会了. 要求 ...
- 微信小程序观察者模式 observers
const app = getApp(); const request = require('../../../utils/request.js'); Component({ options: { m ...
- C/C++程序员 面试经历总结
最近在找工作,遇到了一些面试题,很惭愧的是很多都没答上来. 现在把一些问题总结一下,算是记录一下面试的经历吧.以后有空简单地回答一下, 同时也欢迎各位同仁解答,共同学习一下吧! 一.嵌入式C语言面 ...
- 如何深入理解Java泛型
一.泛型的作用与定义 1.1泛型的作用 使用泛型能写出更加灵活通用的代码泛型的设计主要参照了C++的模板,旨在能让人写出更加通用化,更加灵活的代码.模板/泛型代码,就好像做雕塑时的模板,有了模板,需要 ...
- webservice的使用-axis1-02
1.webservice传递javabean 自定义javabean必须是可序列化的 如果javabean中有内部类必须是静态的,因为只有静态的类才可以序列化 如果javabean中用到了其他的jav ...
- linux - sftp, scp, rz, sz(文件传输命令)
1. sftp Secure Ftp 是一个基于SSH安全协议的文件传输管理工具.由于它是基于SSH的,会在传输过程中对用户的密码.数据等敏感信息进行加密,因此可以有效的防止用户信息在传输的过程中被窃 ...