解析P2P金融的业务安全
看了很多乙方同学们写的业务安全,总结下来,其出发点主要是在技术层面风险问题。另外捎带一些业务风险。今天我要谈的是甲方眼里的业务安全问题,甲方和乙方在业务安全的视野上会有一些区别和一些重合。在同一个问题上,解决的思路也有很大区别。我们拿P2P小额贷款来说业务安全。
大体上P2P小额贷款的流程是帐户注册、提交借款资料审核、提现使用,还款。还款阶段主要是催收的问题,不在本文讨论范围之内。所对应的业务风险见下图。
一、账户安全
账户这一层的风险本质上是其他行业也会存在的风险,只不过相对来说金融帐户的安全性要求更高。
1.1 虚假注册
在搜索引擎里搜索批量注册、注册机,能够得到很多搜索结果。在某电商搜索账号之类的关键字,也能得到很多卖各种帐户的商家。在QQ群搜索小号之类,同样存在很多贩卖账号的群。那么这些批量注册的账号有什么用?无非是羊毛党、发广告、水军、骚扰用户、贩卖等,目标自然是为了钱。业务方的KPI一般都会有用户量,为了扩大用户量做各种营销活动,所以业务方是绝对绝对不会允许安全在注册这个环节进行拦截,但作为安全人员,可以不拦截,但一定要知道哪些是虚假小号,这些虚假小号带着标签往业务流程后端传递,一旦小号来真的,安全就来真的。
虚假注册如何识别?这里涉及多种技术与对抗:
1.1.1 IP
首先,最直接的就是通过IP来看。一个IP注册多个帐户,就可能是虚假注册,但这仅仅是可能,如果是一个公司的互联网出口IP,这种单凭IP注册账户数来看的机制就会造成误伤,所以要综合来看。
规则1:代理IP判定。为了对抗IP的注册限制,很多注册机会通过读取代理注册,不停的变换IP。解决代理的问题,一是知道哪些是代理,二是协议判断,两者综合起来。知道哪些是代理,可以通过爬取互联网上的代理IP来进行,很多代理网站会不定时更新代理,通过爬虫把这些代理爬下来做成黑名单,命中即为代理,规则简单有效、准确度高、系统消耗低。
但问题是爬虫技术终归有限,不可能完全覆盖所有代理IP。这时候就要通过协议判断来进行,协议判断我们会看几种情况。
一是反向探测对端端口开放情况,代理常用端口是80和8080,如果对端IP开启了这些端口,显然是不正常的,一个家用IP地址是不大会开放这些端口的。
二是看HTTP头的X-Forwarded-For,这个字段只有在通过了HTTP 代理时才会添加,
如果带有XFF,那就是代理了。
三是看源端口,根据我们的经验,大于10000的源端口有两种情况,不是代理就是大型机构,所以会有误伤,建议判断权重在50%。
四是看Keep-alive,带有Proxy-Connection: Keep-Alive的报文,毫无疑问是代理。
以上,通过代理IP库和协议识别,根据准确性赋予权重,对代理的识别应该就比较精准了。还没有把握的,可以把注册放过去往后看,看帐户活跃度和行为,反过来再来调整规则权重。
但是代理一定是坏人吗?不一定,但从金融领域来看,用代理作恶的可能性更大。一个良民,是不大会用代理的。用了代理,我就要怀疑你的动机。还是那句话,安全的纵深防御,往后面的业务去看。
规则2:恶意IP。所谓恶意IP,大体上有三种数据来源。
第一种是来自于业务产生的,如果某IP上次曾经作恶,那我有理由认为下次他仍然可能作恶,这种IP要带标签观察。
第二种是高危区域,所谓高危区域,从历史和行业情况来看,安溪、 龙岩、莆田、泉州、电白、宾阳、儋州,这些地方的IP先打上标签,别问我为什么知道。
第三种是威胁情报来源,这方面国内已有公司提供关于IP的数据,能够知道IP近期是否有木马病毒,是否有黑客攻击行为。这部分恶意IP的问题是,数据要新鲜,因为恶化速度非常快,不能说上个月这个IP有过攻击行为,这个月还给打标签。
规则3:IDC IP。一个to c的业务,跑来注册的IP是云服务器的IP,这正常吗?显然不正常。事实上很多就是被黑的服务器,或干脆就是自己租的服务器来跑批量注册。这里就要去做一些收集,各大云服务商、各大IDC服务器段,还有一个是僵尸机器,也从原来的广告欺诈转移过来了,这些数据都有情报厂商提供。这块主要注意的是要长期维护数据源。
1.1.2 图形验证码
关于图形验证码,事实上我们已经基本上放弃这种技术。验证码的出现本意是为了抬高恶意注册、撞号的门槛,但事实上这种门槛随着打码平台的出现已经没什么意义了,验证码阻碍的反倒是那些好的用户。所以我们不在这部分做继续探讨。
1.1.3 手机验证码
手机验证码的出现,也是为了阻止恶意注册、盗号之类的行为。相应的,黑产对抗手段也升级到了收码平台。黑产通过在收码平台上开项目,可以使用大批量的不同号码来注册。(题外话:收码平台也存在恶意注册、盗号撞库、黑客攻击的问题,黑吃黑的节奏)。对于收码平台的对抗,也有几种可以使用的手段:
规则1:收码手机号码库。仍然是通过爬虫爬取各大收码平台的手机号码,然后形成号码黑名单库。凡是命中的,一律加标签。但这种的问题是爬不全,这种平台太多,而且会定期更换号码。另外还涉及到爬与反爬的对抗,所以能爬就爬,不能爬的跳过,通过其他方法来防御。
规则2:授权验证。你来我这里申请贷款,我要求你授权爬取你的运营商网上营业厅信息,用户输入帐号密码,我们去爬取姓名,号码入网时间,通话记录。姓名是用来核实身份真实情况。入网时长与是否欺诈贷款有密切的相关,一个刚入网的手机号来贷款,本身就十分可疑,进一步的再看是否有通话记录,一个从未有过通话的手机也十分可疑。这种做法比较重,会涉及一些问题。比如各省运营商网厅独立运营,架构不一致,就需要对应不同的运营商和省份拉数据,一旦网厅变化,拉数据的方式也要变化,比较笨重。再一个会比较慢,网络速度会严重干扰。还有隐私问题,让用户输入账号密码去爬数据,本身就面临合规风险。同时还会涉及到对抗,当运营商发现之后会采取措施对抗爬虫。最后还会涉及用户感受,增加了业务流程。所以是否要采用这么重的技术,取决于资产价值和风险态势。
另外值得一提的是,有些公司推出了手机小号服务,本意是为了保护用户隐私,避免被电话骚扰,但实际上也被黑产用来注册、贷款等行为。
规则3:合作数据验证。要说手机号码,最权威的当然还是运营商这边的数据,但各大运营商情况比较复杂。在某运营商,如果想拿到号码与人的对应关系数据接口,需要一个省一个省的谈。这里的合作数据验证,一是与运营商合作,但这里的难度可想而之。另外一个,业内也有一些提供骚扰、欺诈电话库的公司,可以与他们合作查询号码的信用。有条件的,还可以根据银行预留手机来发送验证码。这种合作数据验证,最大的问题就是不好谈,小型金融机构根本谈不来。另外就是费用问题。
规则4:电话通告等其他验证方式。当用户注册时候,推送验证码不是通过短信下发,而是电话通告8位验证码。这样就在一定程度上避免了这个环节上的校验码泄露,挡住了收码平台。只不过这种方式成本较高,大规模的语音通告形成了费用。还有通话成功率有限,目前用户的接受程度不高,用户在某些环境下不愿意接听电话。但不失为一种新的探索方式。
综上,各种方式都有利弊,没有最完美的解决方案,只有最适合自己的方案。也可以对每种办法都做轻量级、分层次的使用,综合平衡。
1.1.4 人机识别
大多数情况下的恶意注册都是通过工具、接口来进行的。如果能及时准确的识别工具行为,就能很大程度上防范虚假注册。但如果去研究每一个工具的特征,显然是一个浩大的工作。这里可以使用设备指纹技术来进行判断,所谓设备指纹技术,是指抓取用户设备的信息来判断。
规则1:手机模拟器。有很多安卓平台下的手机模拟器,一个通过模拟器来注册帐户的人,显然有较高的风险。对普遍流行的模拟器,加入一些特征判断,比如海马玩模拟器,能够读到的设备信息就是droid4x。对其他的模拟器,做一些数据规则来实现。设备指纹技术抓取设备的MAC、型号、号码等信息,通过算法形成一个设备特征符,如果该设备多次注册,就可以进行判定。
规则2:虚拟机。同理,通过虚拟机注册的也有较高风险。虚拟机可以通过一些环境特征判断,几个常见的特征,虚拟机网卡一般000569、000c29、005056开头。虚拟机的USB和声卡特征,时钟异常,内存,进程,服务,注册表都具备特征可以判断。
规则3:行为判断。所谓行为判断,可以看键盘敲击频率、鼠标移动速度和轨迹、HTTP Referer,甚至屏幕触摸的压力、重力、点击位置。如果填写资料速度非常快,就可能是工具行为,如果鼠标移动非常快,且每次都完全一致,也可能是工具。总之这里可以延伸出很多规则,只要有行为数据。
其他规则:除了这种特征式的规则,还有一些逻辑验证或交叉匹配。例如两次登陆时间和距离异常,1小时前在深圳,1小时后在北京。再比如设备环境无法读取。诸如此类,可以根据业务设计多种规则匹配。
但设备指纹也仍然可以绕过,黑客可以通过不断测试掌握算法。目前市面上已经有一些一键变换环境的软件,可以自定义修改条件,每次生成不同的设备指纹。但设备指纹的重点是收集了大量的设备数据,除了在这里用,还可以在很多环节用到。
1.1.5 坏帐户
用户注册的帐户名,一般都具有某种含义,在国内很多情况下是他的邮箱帐户。而一个坏帐户,可能是杂乱无序的随机字符。另外,还可以从帐户的行为来看。
规则1:帐户是否在互联网出现过。以邮箱作为匹配,收集互联网曾经出现过的邮箱帐户,如果一个帐户名曾经出现过,那就是一个好的现象。如果从未出现,那就可疑。这种做法需要收集大量的邮箱帐户,并且定期更新。
规则2:帐户名是否有意义。这里工程量略大,要有算法团队支撑,分析存量数据的帐户。同时还要有延伸,例如hacker001是一个坏帐户,那hacker00203是否是坏帐户?这就要去看数据中聚类有相似特征的Email前缀聚集成,构造模型并验证。
规则3:帐户信息完整。在金融,帐户是需要实名认证的,如果实名认证未通过,则代表可能存在信息虚假。
规则4:帐户活动。帐户注册以后,是否有过登录,是否有过相关操作行为。如果帐户注册后不动了,那就有问题。如果有操作行为,也要看这些行为,具体业务收集具体的操作行为,总结出正常人群业务行为和异常行为,这种也需要算法来支撑。
好坏帐户的判断是一个重型武器,需要大数据,需要算法,也需要强大的性能保障。没有团队是玩不转的。
1.2 帐户盗用
盗账号目前有两大主要手段,一个是撞库,一个是钓鱼。堵住这两条,账户安全就做了大部分的工作。当然自身网站和数据安全也是需要保证的,但这个狭义上不属于业务安全的范围,不做讨论。
1.2.1 撞库
撞库是利用互联网上已经泄露的数据进行批量测试,对付这种可以有很多种手段来防。
规则1:帐户注册层面的IP防范技术可以复用,针对代理、恶意IP、反向探测等都可以用。
规则2:行为判断。最简单的是看IP和账号的频率,但是黑客也仍然会变换IP,缓滴式撞库,所以单单从IP账号频率,只能起到一定的作用,在现在的形势下还不够。要去看更多的行为来判断,所谓更多行为,实际上取决于你能够获得的行为数据有多少,设备指纹在这里就大有用武之地,通过抓取用户设备信息,形成一个画像作为基线。当环境产生变化而不可信时,推出短信码等的校验。另外,也可以通过页面点击流、击键行为来做判断。事实上目前看来,通过行为判断的防盗号,或者说对可信环境的判断的防盗号,是一个比较综合的手段。
1.2.2 钓鱼
关于钓鱼实际上可以作为专门一篇来讲,这里大体说三个方向,一是自身技术方向上的漏洞问题,比如浏览器跨域、Session劫持等。二是外部合作打击和宣传教育。三是通过设备指纹技术也可以很大程度上做防范,当钓鱼者登录的时候,设备指纹判断登陆环境异常,从而推出二次挑战。
1.3 身份冒用
帐户环节,最重要的是解决你到底是谁的问题,解决这个问题最主要的手段是实名验证。而实名验证根据情况不同,目前主要是姓名与号码核对、身份证图片、银行绑卡、人脸识别这几种。
1.3.1 姓名与号码核对
这是最基础的验证手段,输入姓名和身份证号码,在后台进行比对。而事实上,由于大量的身份证信息泄露,这种验证已经没什么意义了。在网上搜身份证,就可以得到大量的图片和身份证信息。比如在百度图片搜身份证,会出来大量图片,然后如果你用这些身份证信息去大一些的平台注册,会发现都已经被注册过了。所以这种手段只是略微抬高了一丁丁门槛,没什么大用。
1.3.2 身份证图片上传
在某些平台,会要求上传身份证图片信息来做验证。这种单一上传身份证图片的也没什么大用,泄露身份证图片也不是什么稀罕事,所以如果没有其他辅助验证手段的话,这种完全就属于影响了客户体验的同时,安全性上也没有任何提高。所以要么在业务上还有其他辅助手段,要么就还需要一些技术手段来验证这张图片,比如读取图片附带的经纬度、时间等信息来做判断。
1.3.3 银行绑卡和人脸识别
银行绑卡和人脸识别,在对抗中其实都是一样的。黑产大致几种手段,一个是兼职招聘,要求应聘者提供相关信息,然后谎称发工资需要打款验证,通过绑卡,人脸识别也可以通过兼职招聘编造一些理由,让应聘者通过。再一种是收购身份证办银行卡、手机卡,从而做成冒名卡,由于办理银行卡等需要面签,所以他们就会找一些长的比较像的去办,哪里去找长相相似的呢,兼职招聘也是最好的办法,雇佣那些长相相似的,在利益的驱使下,很多人还是愿意去跑腿的,不要以为这只是个案,在任何一个流动性比较大的银行网点,每天都有若干起冒名办卡。
银行绑卡和人脸识别的问题是,流程比较重影响客户体验,小型机构在技术和资金上都办不到,人脸识别还存在准确性问题,同时也都能被绕过。但也还是当前形势下的一个解决办法,至少逼着黑产提高了成本。
二、借款
在借款环节,也就是我们所说的贷款环节,主要风险是虚假资料和代理中介。
2.1 虚假资料
所谓虚假资料,就是包装自己的资料以提高额度或者通过放款。对虚假资料的识别,传统线下手段是实地核实,在互联网上则主要依靠大数据做交叉验证,所谓交叉验证就是通过匹配,来验证你所说的是否真实。比如我号称自己住在一个高端小区A栋3楼,该小区均价8万一平方,那么我们就要核实了,是否真的住在这个小区,该小区是否均价8万。是否真的住,可以通过手机上的GPS来定位是否经常在这里出现,数据可以通过APP获取,可以与运营商合作。均价是否8万则可以爬取房产相关数据比对后确认。
事实上在虚假资料这里可以核实的很多,所有贷款申请资料项,只要能找到数据源,都可以做自动化核实,比如收入、汽车、房产、证券资产等。这里要用到一些模糊匹配技术,比如我填写资料时是:南京路隆盛小区A栋301,而标准写法是南京东路1000号隆盛花园A区1栋301室,但在本质上这两个位置是一样的,这就需要地址模糊匹配技术去核实。
2.2 代理中介
虚假资料很大程度上和代理中介脱不开关系,中介会帮助不良客户包装资产,批量化的生产。因此对不良中介需要严加防范,因为他们经验丰富,集团化作战,并会根据防守方策略做不断调整优化。关于代理的打击,由于代理存在一台机器替多人代办的行为,因此可以很容易通过设备指纹定位。
三、总结
以上,无论各种技术,其本质上都是通过各种渠道收集大量数据来做模型和规则判断,用以防范风险。所以数据来源和准确性是第一个要解决的问题,而中小机构是无法解决这个问题的,也就造成了当下P2P的风险局面。因此迫切需要各界联合形成黑名单,为中小机构提供数据支撑。黑名单可以但不限于黑手机、高危身份证、黑名单、多头贷款、黑卡等。
有了数据,才能够做一些规则,在这个基础上可以形成宽表、关联网络、算法,挖掘稀分布的数据价值。大数据为业务安全带来的实际产出价值是显而易见的,在网络攻防层面还在探讨、尝试的阶段,业务安全在很多大型机构已经离不开大数据了。
转载自:http://www.freebuf.com/news/special/81062.html
评价:文章挺不错的,在业务安全领域说了不少干货。值得收藏。安全的领域还包括:网络安全、系统安全、数据安全、反作弊、反薅羊毛等等。安全是个很大的领域。
解析P2P金融的业务安全的更多相关文章
- 浅谈P2P金融
自从李总理开发互联网大会,提出“互联网+”,好像与互联网相在的所有事情都火起来了.上至80岁的老头,下至十多岁的孩童,都知道了这个词“互联网+”.虽然大家可能对”互联网+“的概念都只是一支半解,但是像 ...
- P2P金融
P2P金融又叫P2P信贷,是互联网金融(ITFIN)的一种.意思是:点对点. P2P金融指不同的网络节点之间的小额借贷交易(一般指个人),需要借助电子商务专业网络平台帮助借贷双方确立借贷关系并完成相关 ...
- P2P金融的概念理解
P2P金融又叫P2P信贷.其中,P2P是 peer-to-peer 或 person-to-person 的简写, 意思是:个人对个人. P2P金融指个人与个人间的小额借贷交易,一般需要借助电子商务专 ...
- 股票数据的原始数据形态&数据驱动来设计金融股票业务场景
1. 数据源 其实金融数据没大家想象的那麽复杂,只需要最原始状态的数据,保存到本地即可以. 那麽,怎样才是股票数据的原始状态呢.那就看看1920's年代的道氏理论,他是怎样计算道琼斯指数,那麽他采用的 ...
- 尉蓝色的P2P金融众筹平台手机模板
蓝色的p2p金融投资众筹网手机模板html整站下载.实用的众筹app手机模板下载.主要页面有:众筹项目.发布.个人中心.登录.注册.优惠券.回报.项目详情.我要支持.帮助中心等总共37个手机页面. 模 ...
- 互联网金融P2P主业务场景自动化测试
互联网金融P2P行业,近三年来发展迅速,如火如荼. 据不完全统计,全国有3000+的企业. “互联网+”企业,几乎每天都会碰到一些奇奇怪怪的bug,作为在互联网企业工 ...
- 互联网金融研究组:P2P借贷平台:性质、风险与监管(上)
互联网金融研究组(): P2P借贷平台:性质.风险与监管(上) 目 录 一.性质与合法性 1. P2P网络借贷 1.1 概念重新界定 1.2 发展概况与特点 2. 延伸模式及其合法性浅析 2. ...
- 终于有人把P2P、P2C、O2O、B2C、B2B、C2C 的区别讲透了
http://news.mbalib.com/story/88506 P2P.P2C .O2O .B2C.B2B. C2C,每天看着这些常见又陌生的名词,如果有人跟你说让你解释它的含义,金融的小伙伴们 ...
- 王宝强新片P2P风波持续发酵,互金真的前途未卜?
王宝强离婚风波还未完全结束,一波未平一波又起,新片又引来话题爆点,其自导自演的电影<大闹天竺>陷P2P平台集资的新闻占据各大媒体头条. 该P2P平台为湖北武汉一家P2P互联网金融理财平台& ...
随机推荐
- JAVA邀请码生成器
code import java.util.Random; /** * 邀请码生成器,算法原理:<br/> * 1) 获取id: 1127738 <br/> * 2) 使用自定 ...
- Lab2 新增的细节
entry.S 新增加了这个入口函数 bootloader 加载完成后 将执行 kern_entry 而非lab1 中的kern_init defs.h 使用了 ({})宏定义的方式,并且执行了一行定 ...
- day38 06-MyEclipse配置Schema约束
- 上传同步github
…or create a new repository on the command line echo "# testproject" >> README.md ...
- bzoj 3598 [Scoi2014]方伯伯的商场之旅——数位dp
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=3598 TJ:https://www.cnblogs.com/Zinn/p/9351218.h ...
- 常见的php攻击(6种攻击详解)
1.SQL注入 SQL注入是一种恶意攻击,用户利用在表单字段输入SQL语句的方式来影响正常的SQL执行.还有一种是通过system()或exec()命令注入的,它具有相同的SQL注入机制,但只针对sh ...
- 确定比赛名次 HDU - 1285 (拓扑排序)
注意点: 输入数据中可能有重复,需要进行处理! #include <stdio.h> #include <iostream> #include <cstring> ...
- Excel按照某一列的重复数据设置隔行变颜色效果
问题:如图所示,想按照A列中的重复数据设置隔重复行变颜色的效果,能否通过条件格式命令实现. 方法1:(最佳答案) 条件格式公式:=MOD(SUMPRODUCT(--($A$1:$A1<>$ ...
- 常用命令3-文件搜索命令1-locate
新建文件搜索不到,是因为查询是从数据库里查询的,然后数据库是一天后才更新,但是可以强制更新. 优点:能进行模糊搜索. 在tmp目录下创建一个文件,发现,在root家目录下搜不到.是因为配置文件原因. ...
- shell 中数组学习
因为应用shell的时间不是太长.对于数组在实际项目中没有接触过.今天在需要把相似于:a=1,2,3,4这种东西转换. 之前用的方法是用awk,分别取出.所以今天想是否有更好更简洁的方法-- ...