刘世平:大数据技术在金融行业中的应用与趋势展望

文/中国科学院大学金融科技研究中心主任,吉贝克信息技术(北京)有限公司董事长,福州大学讲席教授刘世平

算法的改进和计算能力的进步是技术发展的关键,而社会的进步和发展的需求是大数据技术发展和应用的主要动力。本文回顾了大数据技术发展历史上的关键点,梳理了大数据在金融行业的主要应用,并对大数据技术在金融领域的未来趋势做出展望。

随着全球数据生产呈现爆炸式的增长趋势,传统的数据处理技术已经无法应对新的挑战,信息处理技术的发展使数据价值能够被更好地挖掘和利用。大数据作为一种新兴技术潮流,已经在全球各领域迅速发展起来,其核心思想主要有两点,即更加广泛、更加深入的数字化,和全社会范围内数据的互联互通。“更加广泛、更加深入的数字化”,并不等同于传统意义上的纸质文档电子化,而是指企业在大数据时代以数据指导业务的习惯、策略与模式,是一种决策思维和过程。其最终结果是驱动企业提升创新能力和提升企业生产效率,增强了企业竞争能力。“全社会范围内数据的互联互通”是指企业现在面对的不仅仅是其内部数据互联互通的问题(如企业数据总线、数据集成等),而是数据在全社会范围内的互联互通问题。

大数据虽然是2011年被系统化提出来的系统性数据分析新概念,但其技术发展源泉可追溯到20世纪80年代中期数据仓库技术的诞生,那时MPP(Massively Parallel Processing大规模并行处理)架构的产生大幅提高了计算机的处理能力;接下来是90年代初提出的数据挖掘的概念,为数据分析提供了实践和理论上系统化的指导;紧接着在20世纪90年代晚期,基于数据仓库和数据挖掘技术的商业智能(BI,Business Intelligence)的兴起,开启强有力联机分析(OLAP,Online Analytical Processing)与决策支持系统建设时代,让决策者了解企业什么时候(When)、在什么地方(Where)发生了或正在发生什么事(What),但受制于BI系统主要分析内部结构化数据,限制了对非结构化数据及其它分析方法的运用,因此限制了BI系统对企业未来的预测能力(Why & How)。幸运的是,大数据发展到今天,已经具有强大的结构化数据和非结构化数据加工处理能力,可以用远低于传统技术的成本对企业当前及未来做全面系统的预测分析,这得益于与大数据相关联的关键核心技术的发展。云计算、移动互联网、移动设备、高效廉价的数据存储能力,算法的改进和计算能力的进步是技术发展的关键,社会的进步和发展的需求是大数据技术发展和应用的主要动力。

大数据是以数据容量大而全,数据类型多,存储、提取、分析和展现速度要求快,应用价值高等特征的数据集合和分析的总称。大数据的核心是将分散在不同地方的数据进行有效的收集和整合,把隐藏在数据中的有用信息提炼出来,结合各个行业的知识,用获取的信息服务于决策过程,提升决策效率和决策的正确性,提高企业创新能力和竞争优势,这才是大数据时代以数据为驱动的商业价值所在,这也是从20世纪80年以来一直不变的核心理念。

大数据发展的历史关键点

随着市场竞争的加剧,信息系统的用户已经不满足于仅仅用计算机去处理每天所发生的事务数据,而是需要能够支持决策的信息,去帮助管理决策。然而传统数据库的处理方式使其无法承担这一重任。数据仓库理念提出了数据整合和数据应用的理念,并引入了并行计算的概念。数据仓库的实施将数据从众多的数据源系统中转换成共同的格式,建立统一的数据模型,利用从各种数据源提供的数据,用户可以快速查询并通过对数据仓库中存储的大量数据的获取所需要的信息,从而使用户在关键方案上迅速做出知情决策,使企业产生更多的利润和节约更多的资源。数据仓库获取信息的方法主要是查询,统计分析和报表,以及多维分析。其中,多维分析是和以前应用方面最大的不同,也是数据仓库的核心价值的体现。它能够进行动态分析,利用下钻和上卷的功能可以快速而动态地对数据进行分析,从而让传统的固定报表由“死”变“活”,使得动态报表成为可能。

随着信息社会中数据和数据库的爆炸式增长,数据仓库无法发现这些数据中存在的深层次的关系和规则,更不能根据现有的数据预测未来的发展趋势,因此数据挖掘(Data mining)提出了挖掘隐含在数据中信息的理念,它是在查询,统计报表和多维分析之上更加深层次获取信息的有效方式,尤其是对带有预估性的分析,如未来哪些客户会流失,哪些贷款、行用卡客户会违约等此类带有预估性的信息。这类问题在已经整理的信息中是不存在的,因为是对未来可能发生事件的一种预估。可以说,数据挖掘是一种在决策支持过程中分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。

数据挖掘的主要算法及其应用可以参考表1:

商业智能理念(BI)主要是数据仓库与数据挖掘技术的整合和应用的延伸,通常被理解为对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得更加广泛的知识和更加深刻的洞察力,做出对企业更有利的决策。其目的是将人工智能和技术要素进行高效的智能整合,让企业的任何层次上都能够满足信息检索和商业决策的功能需要,帮助企业获取更多、更优质的客户,提升和改进客户关系,发现新市场以及开发新产品和服务。它赋予的不仅是使决策者更敏感,决策更迅速、更果断,而且还支持和扩展员工的记忆力、洞察力、活动范围及决策和行动的权力。

大数据的理念是一个逐渐发展的过程,从企业的信息化的角度来看,最初人们首先使用的是ERP系统来记录企业购买明细、记录及付款信息等。随着技术的发展及企业对信息重要性的逐渐重视,能够存储营销信息、客户名单、客户细分情况等的CRM系统应运而生。之后,随着网络技术,移动设备,存储技术,计算能力和算法的不断进步,自媒体的发展,以及企事业对于决策信息的巨大需求,大数据的概念应运而生。这一概念在2011年终于被系统提了出来,称作是创新、竞争力和提升生产效率的未来前沿技术。

大数据在金融行业的主要应用

大数据的应用领域非常广泛,它几乎已经涵盖各个行业,包括但不限于金融、政府、零售、交通、制造、电信、医疗卫生以及政府的很多部门的各个领域。 然而,金融行业一直是大数据应用的前沿和领航者,这与金融行业的激烈竞争和“有钱”是分不开的。

1. 客户的管理

通过大数据分析平台,在银行已经有的传统结构化数据的基础之上,再接入大量的外部数据,如政府部门已经收集的数据和互联网产生的数据,就可以构建客户360度全方位视图,即客户画像。

政府数据包括政府各个部门在日常工作中收集的各项数据,除了人民银行征信管理系统收集的信贷关系数据之外,政府有大量对于金融机构有用的数据目前还没有得到充分的利用,如税务数据,海关数据,工商数据,司法数据,房管所、车管所的数据,教育数据,社保数据等不同部门的数据。当然,任何数据的使用都要考虑数据的安全问题,确保数据不被泄露并保证数据的安全。同时一定要充分考虑企业和个人的隐私保护问题。数据的使用必须在合理、适度的原则下使用,必须在合规和合法的前提下使用。除了政府的数据,互联网数据也非常重要,如客户通过社交网络、电子商务、终端媒介等产生的结构和非结构化数据,它们对于了解客户和判断客户的金融行为有着重要的意义。

金融机构内部也拥有大量具有价值的数据,如业务订单数据、用户属性数据、用户收入数据、客户查询数据、理财产品交易数据、用户行为等数据,这些数据可以通过用户账号的打通,建立用户标签体系。在此基础之上,结合风险偏好数据、客户职业、爱好、消费方式等偏好数据,利用机器学习算法来对客户进行分类,并利用已有数据标签和外部数据标签对用户进行画像。进而针对不同类型的客户提供不同的产品和服务策略,这样可以提高客户渗透力、客户转化率和产品转化率。也就是说,通过大数据应用,金融机构可以逐渐实现完全个性化客户服务的目标。

2. 产品的管理

通过大数据分析平台,金融机构能够获取客户的反馈信息,及时了解、获取和把握客户的需求,通过对数据进行深入分析,可以对产品进行更加合理的设置。通过大数据,金融机构可以快速高效地分析产品的功能特征和喜欢的状态,产品的价值,客户的喜好原因,产品的生命周期,产品的利润,产品的客户群等。如果处理得好,可以做到把适当的产品送到需要该产品的客户手上,这是客户关系管理中一个重要的环节。

3. 营销的管理

借助大数据分析平台,通过对形式多样的用户数据(基本信息数据、财富信息数据、教育数据、消费数据、浏览数据、购买路径、客户的微博、客户的微信、客户的购买行为)进行挖掘、追踪、分析,以提升精准营销水平。在客户画像的基础上,金融机构可以有效地开展精准营销,包括利用外部大数据进行网络获客;基于社交数据、网络行为数据等对客户进行进一步的细分、分类;根据网络行为数据等对客户进行事件营销、实时营销等;根据外部大数据分析展开交叉销售,提升业务量并加深客户关系;根据客户偏好、年龄、资产规模等进行个性化营销以及基于客户生命周期进行客户生命周期管理,即新客户获取、客户的维护,客户防流失和客户赢回等大数据应用。

4. 风险的管理

风险分析比较重要的包括信用风险、市场风险、操作风险和流动性风险,这些都是巴塞尔协议特别强调的几类风险。当然,IT风险和信誉风险也日益重要,需要特别关注。法律与合规风险和国家风险也必须提上议事日程,尤其是对于有国际业务的金融机构。对于这些风险的风险管理,大数据技术都是非常重要的手段和工具,风险数据集市和数据模型已经成为银行的标配,也是监管部门的要求。巴塞尔协议中对于每种风险的计算方法都有明确的规定,但是数据是基础和核心,大数据技术的应用是关键。信用风险对于数学模型的使用也是最早和最广泛的,包括但不限于初滤模型、审批模型、行为模型、催收模型、违约概率模型、破产概率模型、偿债能力模型、财务诚信度模型等等。所有这些都离不开大数据的计算和分析方法,其中算法的选择和变量的转换是提升模型准确度的关键,也是判断模型建设者创造力的关键。

中小企业是社会新增就业和创新的主体,而他们得到的廉价高效金融服务却是非常少,关键在于信息匮乏或者不完整,信息不对称,总体抗风险能力弱,判断偿债能力比较困难和经营成本高。大数据,尤其是政府大数据可以有效地克服这一困难。金融机构可通过企业的产量、流通、销售、财务、税务、工商、社保等相关信息结合大数据挖掘方法进行中小微企业的贷款风险和偿债能力的分析,量化企业的信用额度,进而推动中小企业的健康发展,将对就业和创新具有巨大的推动作用,这也是大数据在零售银行的应用非常重要的原因所在。

5. 系统的管理

大数据分析平台能够通过分布式计算提高银行交易性能,提升海量数据处理能力,加强数据的分析能力,进而能够简化金融机构的运行与管理。大数据不仅可用于前端商业决策,同样也可以用于后台IT信息系统的管理,提升系统管理水平和数据利用率。利用大数据分析技术采集IT系统各方面数据信息进行数据挖掘分析,可以自动评估企业所有IT系统的运行情况,从而满足企业运维层面的需求、业务增长对信息系统的需求、IT系统性能匹配的需求以及系统采购论证的需求,最终提升信息系统的服务管理水平。总之,系统管理可以通过大数据分析系统性能,为系统优化、升级和扩容提供决策依据。

6. 内部流程的优化

大数据能够增强企业内部的透明度,使企业上下级之间信息流通更加通畅和便捷。同时,通过大数据技术的应用来优化企业内部流程,提高企业运作效率。在企业内部,有大量的机会可以通过优化业务流程和集中决策来节省资源。大数据的应用能够推进企业跨业务、跨部门、跨层级的信息交换和共享,从而洞察和揭示业务流程中所存在的缺陷,并制定出符合其业务战略和目标的方式来优化资源和资本的配置、管理成本并减少浪费。

大数据在金融行业应用展望

据IDC预测,未来几年全球数据量将以超过40%的速度增长,到2020年全球数据量将达到35ZB,为2009年(0.8ZB)的44倍,这个估计也许已经偏低。目前,移动设备和自媒体的推广和应用快速飞快,信息技术在飞速发展,物联网数据将进一步增强和加速数据量和提升和数据获取的速度。同时智能技术的发展和应用必将会使数据分析更加深入,使得更加复杂的计算和分析成为可能,从而更好地揭示数据中隐藏的巨大价值。价值的增加反过来会进一步增强对于数据的需求,进而推动更多数据的收集和整理。

与此同时,非结构化数据的应用将会更加广泛。随着计算机、互联网和数字媒体等的进一步普及,以文本、图形、图像、音频、视频等非结构化数据为主的信息在急剧增加。IDC在一份调查报告中指出:企业中80%的数据可能都是非结构化数据,这些数据每年都按指数增长60%。在非结构化数据中也蕴藏着非常有用的信息,面对如此巨大的信息海洋,如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。而传统关系数据库在管理非结构化数据方面存在某些先天不足,尤其在处理海量非结构化信息时更是面临巨大挑战,且随着技术对这一瓶颈的突破,对非结构化数据的收集、整理、分析和应用会更加普遍,非结构化数据的应用也会更加普遍。

随着信息技术的发展,未来也将会有越来越多的数据可视化工具出现,数据会变得更加容易理解,更加容易看懂,结果也会更加直观和易于理解。移动设备会进一步普及,移动解决方案和决策支持系统会更加普及。

大数据技术的应用能够大范围地消除信息不对称、信息不完整和信息不及时的现象。智能大数据技术及其应用必将会出现,它的出现必将会大幅提升社会生产力,催生新科学研究思想,促进产业间的跨界融合或颠覆某些现有产业生产模式,最终将深刻改变社会发展面貌和促进社会进步。基于大数据和智能技术,已经发生和可以预见的包括但不限于智能投顾、算法交易、智能营销、智能风险管理、智能信贷、智能客户关系管理等。未来,随着智能大数据的发展,在最佳时间提供适当的产品给需要的客户,以适中的价格,通过客户乐于接受的渠道和形式将会成为可能:这也是客户关系的最高境界。同时,市场营销将会更加准确,风险管理将会更加有效,内部流程将会进一步优化,效率将会得到进一步提升,普惠金融将会更加普遍,中小企业将会得到更加廉价和高效的金融服务,更多的企业和个人将会获得更好的金融服务。最终,金融更好地服务实业,更好地服务创新,更好的金融推动社会进步和高效发展的局面必将会很快出现。

本文刊发于《清华金融评论》2017年8月刊

;