风控中的大数据和机器学习

为什么说互联网时代的借贷和风控是由大数据驱动的?“魔镜杯”的举办有着怎样的深意?小科请来了拍拍贷的风控副总裁,顾鸣博士,来为选手们进行一次深入浅出的剖析。顾鸣博士毕业于加州理工大学,拥有计算机科学博士学位,在金融风控领域有着丰富的实战经验,和扎实的理论基础。

1. 风控的核心

风险控制需要做什么?我们认为相比逾期率的绝对数值, 对于风险的控制能力要重要得多。 借款人需要享受合理的额度和借款成本。 投资人需要能够得到合理的风险调整后收益。作为撮合方的P2P平台,则希望在满足借款人和投资人两方的需求的同时(这是先决必要条件),尽可能地服务更多的用户。在这个过程中的核心是对每一笔借款违约概率的准确预测 :

借款人:基于借款人的风险预测,优质的借款人能享受更低的借款成本和更高的额度。相对不那么优质的借款人则需要付出更高但还是合理的成本。最劣质的借款人(甚至是欺诈借款人)则会被直接拒绝。

投资人:由于借款人承担的利息成本是基于其风险设置的,我们可以在大数上设定为未逾期的借款人所付出的利息减去逾期借款人带来的本金损失后依旧能够达到合理的收益水平。

平台:需要合理地平衡借款人的成本和投资人风险调整后的收益。原则上,只要

1)投资人收到的利息足够覆盖风险(需在分散投资的情况下),

2)借款人能够接受成本,

3)这样的成本被法律保护,则平台就应该努力撮合这笔交易。

满足上述原则的过程,我们称为“风险定价”。

2. 线上风控的挑战和机遇

传统银行在做个人信用类贷款(例如信用卡申请)时,主要依赖申请资料、本行信贷历史以及央行征信报告作为风险评估的数据基础。基于相关信贷政策,各个银行会或多或少地利用反欺诈和信用风险模型,结合人工决策,来最终决定是否放贷。

相比于传统银行,P2P行业在征信报告和信贷历史数据上有着先天的劣势。拍拍贷作为目前全国唯一一家纯线上的P2P平台,其所有借款申请中的征信环节也都是在线上完成的,所以相对于传统银行甚至其它P2P平台,在申请资料数据的收集与核实上,面临着更大的挑战。

然而与挑战共存的也是机遇。相比传统银行和线下业务为主的P2P平台,线上获客拥有以下优势:

互联网可以提供每个借款人的庞大的、碎片化的、种类繁多的信息。

互联网的高效性和爆发性使我们能以较低的成本、较短的时间,积累大量的用户数据,为分析建模提供足够的样本量。

这种大样本量、多维度、非结构化的数据非常适合各类大数据分析处理和机器学习技术的运用。

3. 大数据和机器学习在风控中的应用

我们所说的“大数据”并非指绝对的样本量的巨大。 跟传统银行相比,P2P的样本数并不在一个量级上。 如上文所描述,我们的“大数据”更多的是指运用大量的非常规的信息来评估风险,所以相比数据行数的多,主要还是数据维度的多和杂。

举个例子,拍拍贷会实时更新记录每个借款人几千个字段的信息。 用户提交的电子化信息(如身份证、营业执照、房产证、学历证、工资单、社保,银行流水等),第三方权威机构的查询信息(如公民身份证查询中心、教育部学历中心、法院诉讼信息查询中心等可查询信息),还包括了海量的互联网碎片数据,如用户在各类电商的交易信息、微博等社交网络数据,百度搜索引擎数据等,用户每次登陆拍拍贷,在每个页面逗留了多久,修改了哪些个人信息,每次充值,提现行为都会作为字段被记录存储。说到底,All data is credit data.

除了数据上的不同,在对风险的量化方法上,纯线上P2P也需要创新。

传统方法:基础决策树,回归类模型

新方法:各类文本/图像/视频分析方法,SVM,多层神经网络,随机森林,Ensemble,等。

过去的10年里,机器学习领域有了天翻地覆的发展。我们认为在机器能够击败一流围棋高手的时代,让机器基于海量的、人工根本来不及消化的数据来评估一个人借钱后是否会还钱,其可行性是很高的!

不幸的是,量化信用评估领域在技术上的方式方法还是基本上停留在几十年前的水平,早已跟不上当前实时化,移动化,内容包罗万象的数据时代的节奏。非常简单的表现就是,除了少有的例外,目前在金融特别是风控的数据建模 / 数据研发的人才,无论是数量还是质量,都远远落后于互联网行业。

我们希望通过这个大赛,能够吸引更多的数据技术 / 机器学习的人才投身到风控领域。通过颠覆性的技术和方法,极大地提高风控的能力和效率,最终让更多的人能够享受到便捷、高效、低成本的金融服务。普惠金融的意义也正在于此吧。

欢迎加入本站公开兴趣群

软件开发技术群

兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流

QQ群:26931708

Hadoop源代码研究群

兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop

QQ群:288410967

;