查看原文
其他

当我们在研究大数据风控时,到底在研究什么?大数据风控之“习惯数据”在信贷风控中的应用!

2017-09-13 文琳阅读

欢迎点击上方文琳阅读 关注!


相较于传统金融的风控模式,大数据风控可以通过机器的大规模数据运算,完成大量用户的贷款申请审核工作,提升工作效率,审核时效和审核工作量受限较小。同时,大数据风控可以针对业务运行中出现的新情况、新数据进行快速迭代,增强模型的有效性,具有参数规则一经调整就可以即时生效的优势;同时机器和软件也可以以“24x365”模式工作,摆脱工作时间的限制。


✍️  作者|姚宗超、刘凡宁

👀  来源|兴业数金(公众号)




随着信息通信技术、互联网、云计算和大数据等方面的不断突破发展,互联网行业在国内呈现蓬勃发展之势,各类“互联网+”业务模式随之兴起,“互联网+金融”也呈迅速成发展之势。


各类金融创新不断,但也出现一些问题和风险隐患,尤其是互联网金融领域发生的几个大案,也将互联网金融业务推到风口浪尖。


2015年7月18日,中国人民银行等十部委联合印发了《关于促进互联网金融健康发展的指导意见》(银发[2015]221号),规范互联网金融合规发展、防控互联网金融风险成为政策导向,互联网金融的本质是“金融”,金融的核心是风控,已逐渐成为业界共识。


相较于传统金融风险管控,互联网金融业务项下的风险管控对线上欺诈防范、远程数据快速处理、同步多类型数据快速分析等方面提出了更高、更快捷的要求,尤其是互联网融资借贷领域的风险管控,引入可计量、快速决策的智能化大数据风控技术,已经成为互联网金融业务健康快速可持续发展的必然要求。


大数据风控的基本含义及特点


大数据风控是指运用大数据构建模型的方法对借款人进行风险控制和风险识别的量化风控过程。大数据并不是单纯指数据量的增加,最重要的是发现可批量处理以及传统风控忽视的或者是难以采用的数据的价值。


目前,国内大数据风控依据的主要数据还是金融数据,如年龄、收入、职业、学历、资产、负债等数据,以及人民银行征信中心的征信数据等,用户的行为、社交数据还只是大数据风控的辅助数据。


当然,用户的行为数据、社交数据等在某些条件下也会对客户信用风险事件产生重大的影响,但是这些数据在信用评估中的权重,还处于不断优化的过程中。


2013年互联网金融兴起,P2P网贷平台主要是作为传统金融的补充,其主要的服务对象瞄准的是传统金融覆盖不到的小微企业主和个人,提供的贷款和传统银行的信贷差异不大,在风控环节仍是延续银行的做法:以央行征信报告为主要数据来源、以专家经验或专家规则为评判策略,只是额度更低、限制条件更为宽松、期限和还款方式更灵活。


2015年初,央行释放出了个人征信市场化的信号,“大数据”开始被证实可以作为征信报告的有效补充,例如移动设备信息用于识别身份冒用、黑名单灰名单用于识别多头负债、位置信息用于评估稳定性、页面行为分析用于识别欺诈、消费记录用于评估可支配收入水平、社交关系用于评估信用行为等。


综合来看,与传统风控相比,大数据风控主要具有如下特点:

1、数据维度多方面:大数据风控不仅仅包括了传统的金融信息数据,同时也涵盖了社交、购物、爱好等多方面多维度的数据;


2、数据实时性:数据是具有时效性的,相比与传统的风控征信数据,大数据风控更新更快,能够更加有效地反映实时的风险变化;


3、评价结果全面可量化:大数据风控将海量数据纳入风控体系,并以多个风控模型进行多角度分析,评分结果将更加全面准确。


大数据风控和传统风控评估的不同点比较详见下图:


由于传统金融的审核主要由人工完成,受人工审核的天然限制,审核时效和审核的工作量都具有局限性,效率提升相对有限;


相较于传统金融的风控模式,大数据风控可以通过机器的大规模数据运算,完成大量用户的贷款申请审核工作,提升工作效率,审核时效和审核工作量受限较小。


同时,大数据风控可以针对业务运行中出现的新情况、新数据进行快速迭代,增强模型的有效性,具有参数规则一经调整就可以即时生效的优势;同时机器和软件也可以“24*365”模式工作,摆脱工作时间的限制。


国内主要大数据风控平台介绍


(一) BAT及网易、京东


像BAT及网易、京东这样的企业都在最大化自身的数据技术优势,挖掘自身数据潜力,利用技术打造各具特色的数据风控,并逐步将这种能力开放给第三方。


我们通过下面表格可以直观地了解代表性公司在构建大数据风控平台时不同的侧重点。



根据如上公开资料显示,BAT及网易京东这五个国内金融科技领域的代表公司,在大数据风控方面均有侧重:


蚂蚁金服旗下芝麻信用,利用梯度提升决策树、随机森林、神经网络、分群调整技术、增量学习技术等在内的机器学习算法,可以为缺少信贷记录的人群做出客观的信用评价;目前,芝麻信用已通过商家自助服务平台全面开放消费金融风控能力,帮助行业提升风控水平。


京东金融形成了由多种大数据机器学习模型构成的弱分类组合预测模型,借助随机森林、Lasso 回归等算法,参考数千个预测变量,借此评估用户的还款意愿和还款能力;同时,京东也在正在逐渐开放生态,开放技术以及产品能力,为传统金融机构赋能,帮助传统金融机构降低成本、提高效率。


腾讯旗下的微众银陆续建立了客户分群授信、社交评分、信用评分、商户授信管理、欺诈侦测等系列模型;微众银行在推进同业合作的同时,也在做技术输出,帮助合作伙伴构建移动互联网金融服务能力。


百度金融将自己定位为科技金融公司,以大数据技术为发力点,通过人工智能、用户画像、精准建模等技术,扩大征信范围,并对外开放自身技术能力。


网易旗下网易金融依托网易多年积累的大数据,开发上线北斗大数据智能风控平台,构建涵盖贷前、贷中、贷后全流程的获客引流、信贷管理、风险预警等方面的七大风控模型,为金融机构面向中小微企业和个人的融资服务提供获客、征信、授信、管理和催收等服务,并输出营销、客服等解决方案。



(二)P2P平台大数据风控体系


与像BAT和网易京东那样依托大量数据积累的大数据风控实践的互联网金融服务公司相比,我国P2P网贷行业的大数据风控应用仍处于初级的“数据”阶段,“市场先行,风控滞后”的局面仍有待改善。同时,一些P2P网贷平台也正逐渐重视大数据风控技术,并推出了各具特色的模式。我们选取了若干家具有代表性的P2P公司,并简单总结了其大数据风控平台的基本情况(如下表):



综观国内进行大数据风控实践的P2P网贷公司,这些公司在大数据风控方面的实践,主要还处于多方数据采集、聚合并初步应用的阶段,整个行业来看,大数据风控的运用还处于探索阶段。


当然,也存在个别成立较长的机构,通过多年的数据积累,运用大数据、智能算法等手段构建大数据风控平台,为信贷评审和风险防控提供实时、可量化的快速决策,降低业务风险和业务成本,进而促进业务的持续快速发展。


以拍拍贷自主研发的“魔镜风控系统”为例,该系统既沿用了传统银行征信体系的决策指标,又纳入了海量互联网行为数据。多维度的大数据征信信息可从不同角度对借款人进行精确描述并深入量化其信用风险,该数据来源如下表所示:



拍拍贷在数据分析阶段就构建了三个完备的全自动风险控制系统:分别是反欺诈系统魔镜评级系统风险定价系统服务。魔镜等级将很大程度上影响到借贷人的借款成功率、最终借款利率、最高借款额度等。通常来讲,借贷人的信用等级越高,其违约率越低,贷款成功率越高。针对每一笔借款,风险模型会给出一个风险评分,以反映对逾期率的预测。每一个评分区间会以一个字母评级的形式展示给借入者和贷出者。从AAA到F,风险依次上升,例如AA的目标逾期率小于0.1%,F级则大于10%。



根据网贷之家《P2P网贷行业2017年7月月报》的数据显示,截止至2017年7月底,我国P2P网贷平台累计达5916个(含停业及问题平台),正常运营平台数量下降至2090家,网贷行业累计成交量为50781.99亿元,去年同期历史累计成交量为23904.79亿元,上升幅度达到了112.43%,大数据风控在个人(含小微企业)借款融资领域存在很大的优势;但是P2P平台的高增长性与高利率高风险性一直长期并存,尽管越来越多P2P平台都逐步推出了大数据风控平台,但是大数据风控仍然暴露出了一些问题:


1、信贷数据严重不足,各个平台的数据彼此孤立


获取足够多的信贷数据对提升P2P网贷平台风控能力至关重要,海量的数据才能建立更准确的风控模型;然而,我国央行征信系统覆盖的人群非常有限,远低于美国征信体系对人口85%的覆盖,而且各个信用机构针对不同场景的评分依据不能完全迁移,这在某种程度上也限制了数据的体量和维度。


大数据真正的技术含量和价值体现在数据提取与利用上,它应该是由不同企业、不同部门共享而成,进而真实、动态地反映个人与企业的经济状况及信用等级。


不过,目前各个企业对数据大多抱着封闭独享的态度,企业在建立大数据风控平台时不得不从不同平台采购不同数据才能构建完整的客户画像,数据成本比较高,同时数据与平台之间彼此孤立,形成一座座信息孤岛,难以形成共享的数据链和数据网。


2、非信贷数据质量各异,真实性难以判断


社交数据并不能完全准确反映个人信用评级,如宜信曾大费周折的收集借款人的社交数据,最后发现大部分的社交数据根本不能用,美国最大的 P2P 平台 Lending Club 曾尝试通过用户在 Facebook上的表现来确定其信用度,最终也遭遇失败。


其次,电商交易数据的有效性也有待考证,部分交易数据严重失真。比如目前许多电商平台 “刷单”现象严重,一种是商家找所谓的消费者进行 “刷单”,由卖家买快递单号,因此收件人和寄件人与实际的买家、卖家不一致;另一种是快递公司发空包,但快递公司并未完成配送,而帮助商家完成平台上的物流信息。


3、《网络安全法》已经生效,相关实施细则和操作规范还很不完善


2017年6月1日,《网络安全法》正式实施,这是我国第一部涉及网络安全领域的法律,但该部门法律主要是原则性规定了个人信息的保护,还没有出台相关的配套细则,大数据保护和个人信息保护方面的可执行的配套方案仍然缺失。在数据收集和使用的过程中,许多数据会涉及个人隐私,而我国关于互联网个人隐私保护和信息安全的相关法律还很薄弱,个人数据采集、存储和数据信息保护、合规使用等规范不明晰。


如何高效、适度地开发和使用大数据,不仅仅是一个技术问题,更是一个社会法律问题。



个人(含小微企业主)借贷场景下的大数据风控体系探讨


大数据风控是目前时代背景下的高频词语,主要表现为利用数据分析可量化模型进行风险评估,依据评估分数,预测还款人的还款能力、还款意愿以及可能存在的欺诈风险,通过大数据分析技术找出欺诈者留下的蛛丝马迹,从而预防欺诈行为的发生。


结合上文分析,结合大数据风控平台探讨,我们也认为,在个人(含小微企业主)借贷业务场景下,可以借鉴如下方式进行自身的数据风控平台搭建,即按照如下四个基本流程:数据收集、行为建模、构建画像和风险定价搭建平台。具体结构如下图所示:



数据、技术、模型、分析将成为信用风险评估的四大关键元素:

大数据的采集和计算能力,可以帮助贷款企业建立实时的风险管理视图,提高风险管理的及时性;


行为建模借助于多维度的数据、自我学习能力的风控模型等,可以提升企业量化风险评估能力;


客户画像可以帮助企业根据数据类型与信用风险的关联性、风险模型对风险识别能力的敏感性,动态调整客户信用风险评估的数据权重和相关程度;


风险定价可以有效帮助企业根据风险模型对客户评判结果,动态管理不同类别客户的违约程度,实现更加精准的风险定价和客户维护的目的。


风控的实质就是基于真实有效信息基础上的评价和反欺诈,希望在欺诈行为发生之前就将其禁止,从而提升欺诈者的欺诈成本。


从企业构建大数据风控体系的角度分析,一般需要构建自身的云数据系统、风险评估模型、信用衡量体系、风险定价模型等核心产品,实现从数据采集、信用评估、风险定价到预警监测等全流程的风控策略,做到对自身体系内外用户的海量数据进行搜集分析,并将数据模型应用到信贷业务中,实现以数据驱动产品及业务,使得企业风控流程化、自动化。


大数据风控作为科技前沿技术在金融领域相对成熟的应用,大数据风控已经引起各类互联网金融公司的足够重视,从BATJ这样的大企业,到交易规模比较大的几家网贷平台,再到做现金贷、消费金融的创业公司,都在通过不断强化大数据风控技术来控制贷款规模扩张中的风险。


有学者指出,对中国来说,从G20峰会开始探讨互联网金融开始,中国或许正在迎来普惠金融的黄金时代,而推广普惠金融的重中之重在于大数据风控。一方面大数据风控是做小额融资的必备工具,另一方面通过其他维度的数据分析也可以覆盖传统风控涉及不到的小微客户群。


未来的普惠金融,或许会形成若干个比较大的、以少数大企业为中心的大数据风控生态圈,大企业掌握比较多的数据资源,将数据与技术开放,通过大数据风控生态圈连通个人及企业客户与金融机构、互金平台,通过垂直行业、商业生态系统等的业务场景,帮助生态圈内接入的金融机构、互金企业打造智能化的大数据风控体系。


延伸阅读:

大数据风控之“习惯数据”在信贷风控中的应用!

文:雷宏 

来源:信贷风险管理


前言:

人民银行个人征信报告自问世十余年来,一直作为银行等金融机构了解贷款当事人信用状况的信息来源,在当前面临大数据横行,互联网遍布的情况下,人行的个人征信渐渐有些乏力,所提供信息已无法满足金融机构KYC的要求。笔者结合某消费金融科技公司内部审批用《量化风险报告》和了解的情况,认为其中“习惯数据”是值得我们学习的地方,无论是银行业务条线,还是银行内部审计条线,都有些许启示。


1《量化风险报告》结构、内容介绍


《量化风险报告》分为六大部分,分别是:个人基本信息、金融信息、交易信息、行为特征、社交关系和风险策略。


1个人基本信息



从基本信息看,除身份证上的信息外,另已获取常用手机电话和淘宝账号,这将作为随后大量信息的获取来源。


2金融信息



金融信息看,本例中没有取得相关信息,但从格式上看,可以获取个人收入、财力证明等信息。


3交易信息



从交易信息看,获取了网银消费的明细记录,和收货地址联络信息,这些将有助于后台系统对交易真实性行为和生活圈范围的判定。



4行为特征



从行为特征看,获取了手机APP的使用情况,手机流量特征的信息,这些信息看似与客户的还款能力无直接关系,但通过后台基于千万级别用户数据挖掘和参数回归,可以发现异常的信息。


5社交关系



从社交关系看,全部是与手机有关,对六个月内手机机主的主叫、被叫情况,尤其是对与金融机构的联系频率、时长等信息进行了单独列示。基于手机机主主叫、被叫信息,也可以容易划定出客户的社交圈。


6风险策略



风险策略是根据以上内容得出的量化指标和结果,其中对涉及“反欺诈”的信息也单列出来。


2《量化风险报告》与《人行征信报告》的区别


01

“习惯”与“经历”的区别


从《量化风险报告》的内容结构上看,大量信息集中在“交易”、“行为”和“社交”三个方面,而这三个方面的内容,可以统称为“习惯”,这些“交易习惯”、“行为习惯”和“社交习惯”,构成客户日常生活的绝大部分的内容。相信每个看过这份报告的读者,都可以在脑子勾画出这个客户的各种习惯情况,后台系统将这些“习惯”统一整合和提炼出来,最终实现风险量化,由系统进行最终判断。


《人行征信报告》是我们最熟悉的,笔者认为与《量化风险报告》相比,《人行征信报告》更多是从“经历”方面进行列示,包括工作经历、借款(信用卡)经历等,同时,也没有做到风险量化,最终仍需要使用者凭借“经验”进行判断。从本质上讲,《个人征信报告》是建立在经验主义的惯性思维上,即有不良污点的客户必定信用存在缺失,其再次违约的可能性更大。不能说这样的思维不对,但客户首次信用缺失的风险由谁来承担,似乎只能听天由命了。

 

因此,《量化风险报告》的“习惯”与《人行征信报告》的“经历”是两者最大的区别。


02

《量化风险报告》中体现出“反欺诈”特点


《量化风险报告》社交信息部分,有一个“生活圈”分析,其中“生活圈”地点与申请贷款地点不一致时,系统会认定存在“欺诈”嫌疑。在“风险策略”中展示的多个“一对多”的情况,也是为“反欺诈”设计的,而这些是《人行征信报告》远远不能达到和解决的。


3《量化风险报告》的信息来源


据了解,《量化风险报告》的信息来源基本全部来源于客户手机端信息。客户通过在下载该消费金融公司的APP后,在申请类似贷款的白条服务时,需在线授权APP获取个人信息,授权之后,APP就可以获取手机中有用的个人信息了。


4对我们风险控制和内部审计工作的启示


 《量化风险报告》的这家消费金融公司和我们银行内审之间,都有属于自己优势,而且都是使用自己最擅长的方式在解决问题。这家公司优势在于运用大数据的算法参数(核心竞争力)和APP线上获取“习惯数据”的优势,银行内审的优势在于拥有海量的“金融数据”(如个人开户资料和交易流水)。双方均利用了自己的优势或者说利用掌握的数据,呈现出来的结果《量化风险报告》是基于“习惯数据”分析判断的结果,但缺少“金融数据”的证明;而银行内审部门则依靠掌握金融数据的优势,开发出大量模型以发现问题,但缺少“习惯数据”进行验证。


启示一:对非金融数据获取、开发和利用


目前,金融交易数据已经脱离银行这一中介进行操作了,银行无论是业务条线,还是内部审计条线,如果还着重于资金流,而不完善、补充和整合非金融数据、信息流数据,恐怕将真的“身在此山中”了。


一是从获取非金融数据的途径上讲,银行是没有障碍的,以招商银行为例,2016年年报显示,“招商银行手机银行”和“掌上生活”两大APP年度活跃用户均超过2500万户,只要打通部门间、条线间的数据壁垒,明确客户线上授权的合规性,数据获取方面不是大问题。


二是各银行在数据算法的技术水平上讲,笔者不甚了了,但数据除了为客户提供更好的服务场景和体验外,也更可以为风险控制在内的内部管理部门提供“对外反欺诈”、“对内反舞弊”和“风险预警”的信息。


启示二:机器学习技术(Machine Learning,ML)


《量化风险报告》只是一个展示结果,其后台实际运用了机器学习技术,机器学习技术在今年5月阿尔法狗战胜围棋世界冠军柯洁的过程中,名噪一时,家喻户晓。理论上,个人、企业任何交易、非交易的行为都可以成为数据,任意两个数据都能画出一条线性关系,当客户偏离这条线很远的情况下,就是异常,这就是线性回归,而这个回归不是由人而是由机器来做,这就是机器学习,机器通过不断寻找参数,不断的自我修正,用以验证所有的被审计对象。


最后需要说明的是,该消费金融公司的目标客群与银行目标客群并不相同,盈利模式和风险容忍程度也不相同,所以两者在关注点上会存在一些差异。本文是向大家展示目前社会上征信或KYC方面以及其后台系统运行的规律和特点,希望能有所启发。

 

逆水行舟,不进则退。


往期相关报告推荐,可直接点击查阅:

2017年上半年汽车行业大数据研究报告

大数据下的中国女人,看完惊呆了

大数据医疗发展趋势分析

工业互联网产业联盟:工业大数据技术与应用白皮书


2017年中国数字经济发展白皮书

李国杰院士:新经济本质是工业经济向数字经济过渡

中国数字经济专项报告


深度报告 | 中国机器视觉产业发展前景与投资预测分析

2017年中国机器人产业发展报告

人工智能时代的机器人3.0新生态
2017个人家庭服务机器人行业分析

工业机器人发展现状市场分析报告

重磅首发|机器人产业专题分析2016

2016-2020年中国医疗机器人产业深度解析

中国机器人产业生态图谱2015

“智能制造”产业链研究报告

智能制造:万亿级市场的“新制造”



文琳编辑

免责声明:转载内容仅供读者参考,观点仅代表作者本人,不构成投资意见,也不代表本平台立场。若文章涉及版权问题,敬请原作者添加 wenlin-swl  微信联系删除。



今日导读


公众号 wenlin-zx:文琳资讯 点击下列文字可以查阅


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存