大数据和人工智能发展的思考
10月12日,第七届中国智能产业高峰论坛在佛山开幕,在第一天的主论坛上,北京拓尔思信息技术股份有限公司副董事长、总裁施水才发表了主题为《大数据和人工智能发展的思考》的精彩演讲。
在演讲中,施水才先生从自身多年大数据技术和服务领导者角色的角度,介绍了旗下利用大数据技术推出的数据增值服务平台,并得出了“数据——信息——知识——智能——智慧”的价值提升路径。从大数据、云服务到人工智能,施水才为嘉宾铺设了一条如何利用大数据去实现人工智能增值的道路,有很大的参考价值。
以下是施水才先生的演讲整理稿:
大家上午好。非常感谢中国人工智能学会邀请我在大会上做分享报告。今天我想给大家分享一下对于大数据和人工智能产业的发展思考。
我想讲的第一点是我认为把大数据和人工智能产业进行一些比对,把这两个事情放到一起比对是非常有意义的。第二点想讲的,到底我们是人工智能+行业,还是行业+人工智能,谈一下我的理解和认识,第三点我觉得我们需要突破人工智能现在非常强调3个要素,就是计算能力、数据和算法,我认为对于未来人工智能的研究和应用,仅有这三点是不够的,应该有其他重要的因素需要加进来。第四点我想探讨的是我们现在在人工智能的几个方向里面,哪一些还有大的机会,来让我们创新、创业、赚钱,最后讲一讲我们自己基于NLP平台的一些人工智能应用实践。
大数据和人工智能产业的对比
对比大数据和人工智能产业的发展是有启发的。因为人工智能的发展和数据密不可分,而且目前人工智能发展所取得的成就大部分和大数据密切相关,因此观察大数据产业的发展对人工智能产业发展很有意义,同时我们认为数据驱动的商业(Data Driven Business)比智能驱动的商业更符合产业的本质,实际上大数据产业的落地能力是强于人工智能的,所以大数据产业发展中出现的问题对人工智能产业发展很有意义。
大数据的发展有几个方面对人工智能的发展有启发。包括数据的重要性,数据质量的重要性,应用场景的重要性,行业知识的重要性、政策法规的重要性,以及变现的模式的参考意义。大数据从2010年在美国白宫首先开始制定一些政策,到2012年我们国家开始热起来,这几年出台了很多政策规范,甚至搞了很多园区,但是我们现在发现整个大数据产业仍然处于非常早期的阶段。为什么这么说?第一,它在哪些方面推动了产业的变革?第二,谁赚到钱了?现在基本上只有互联网的大公司通过推荐精准化营销、电子商务等等赚到钱了,但是我们大量从事产业大数据的企业大部分还在烧钱,行业也没有从大数据中收益和发生大的产业变革,仍然处于非常早期阶段。人工智能也是一样的,大部分的AI企业仍处于投资和烧钱的阶段。
再细化一下,我们看看影响整个大数据产业发展的4个要素:数据开放、技术研发、产业生态、法律法规。总体上讲,目前大数据产业发展非常早期,仍然是大数据投资和创业的良机,在产业生态上主要的特征是垄断和新的数据孤岛,大数据创业公司仍需3-5年才能实现规模盈利,大部分在持续的烧钱,2017-2018年产业整合趋势明显。在数据方面,互联网大企业的数据霸权主义、政府数据公开的艰难(在国际上很落后,60名开外),行业和企业数据的难以获得以及灰色数据灰色产业链,以及个人隐私问题都非常的突出,我们国家每年数据交易的市场是500个亿以上,但是合法的只有10%左右,90%都是灰色数据链,所以导致最近公安查,说很多大公司被抓起来了,个人隐私问题非常突出,要破解数据的魔咒,需要在法律法规和产业生态两个角度去破局。
除了数据及数据的质量外,应用场景是非常重要的,大数据的4个V不重要,hadoop/Spark不重要,重要的是应用场景,那么对AI来说也是一样的,因为实际上我们看到大数据和AI的热门应用领域实际上重合度很高:金融、健康医疗、教育、在线广告、情报分析……。应用场景和行业密切相关,主要是垂直化和行业化,一旦进入行业,你就会发现,很多问题来了,所以我们说人工智能发展仅仅强调数据、算力、算法是不够的。
政策法律也非常重要,在互联网时代,我们国家互联网发展为什么快?其中一条人多,人口红利,还有一条非常重要规则没那么严,政府和行业对互联网的支持比较多,企业层面有时甚至有点蔑视规则。但是大数据和人工智能时代,像互联网早期那样野蛮发展已经行不通了。现在数据开放和隐私保护,从个人隐私到人身安全,因为搞不好会死人的。
小节一下,通过对比大数据和人工智能产业的发展,我们可以得到如何几个结论: 人工智能产业仍处于非常早期的阶段;数据的重要性不容置疑,但问题多多;应用才是驱动力;垂直行业才是大部分参与者的机会所在。
人工智能+行业 or 行业+人工智能
今天想和大家分享的第二点是关于到底是“人工智能+行业”还是“行业+人工智能”。 我的基本看法是行业+人工智能仍然是智能产业发展的主流。 我们觉得“行业+人工智能”可能占到90%,“人工智能+行业”可能只占到10%。区别在哪里?人工智能+行业是创造新模式,更多表现在以前这个行业不成熟,或者没有现有的很好的商业模式,比如像自动驾驶;而行业+人工智能是对用人工智能技术对行业进行变革和改造,要么降低成本,要么提高决策和管理水平。比如法律啊、教育啊、金融啊。很对AI的新技术在消费领域和工业领域的应用也不一样,比如消费领域的人脸识别、美颜相机在工业领域可能是身份认证、银行开户、安防监控、商业分析;消费领域的语音识别和输入法技术可能是智能客服应用,深度学习和图像识别在工业领域可能是智能分拣和安检应用。
如果90%的机会在于“行业+人工智能”,那么钱、数据和算法就是不是决定性的因素,如果钱是决定性的因素,那未来也就不会有什么创新了。行业知识和行业专家是壁垒,所以说大公司压迫下的创业公司仍具有广阔的空间,那么那些行业将实现AI爆发或者说受到冲击最大呢?刚才李德毅院士说的很好,四个行业,制造业、教育、金融、医疗,我非常认同,我觉得最关键的是要看两点,一个是行业本身的成长空间,就是说是否足够大,是否未来有成长性,另一个是这个行业是否依赖于人的经验和知识,依赖越大的,被人工智能取代的需求就越大,比如医生,主要是专家太少。我们投资过的一个项目,是病理切片癌症诊断,据说全国能看病医生也就不到1万个,而合格的专家只有不到500个,你看需求多大,大数据和人工智能可以解决这个问题,IBM Watson的思路也是一样的。另外就是律师和金融行业的人,主要是太贵,律师一小时多少钱,金融行业动不动几百万,其实你用了大数据和人工智能后发现,其实他们不值这么多钱。刚才李院士说制造业我国使用机器人的数量远远落后韩国日本等,主要原因我觉得还是成本问题,所以我认为最紧迫的可能不是家政机器人之类的,而是取代高成本的人力以及人力不够的行业。
人工智能产业还有一个特点比较鲜明的。就是他是Embedded,嵌入式的,所以可以说AI技术是一种Enabling Technology。未来所有的企业都应该是AI企业,所以你看现在包括Google百度都说自己是AI All In。
人工智能的三要素问题
今天想和大家分享的第三点是关于人工智能的三要素问题。现在讲人工智能,就和大数据的4个V一样, 几乎每个专家都要将人工智能三要素,数据、计算力、算法 。但是真的够了吗。我认为不够,为何什么说呢,大家看看,人工智能正从计算智能、感知智能向认知智能及创造智能的方向发展,认知智能包括理解、运用语言的能力,掌握知识、运用知识的能力,在语言和知识上的推理能力,主要集中在语言智能即NLP。到了认知智能这个阶段光有数据、算法、和计算资源我认为不够的,需要什么?我认为重要的一点可能还需要很多的知识,需要有知识图谱等别的很多东西,所以知识可能是第四个要素。从另外一个角度,目前人工智能三要素中对应用场景没有论及,所及基本还是从技术层面来考虑问题的,我们认为不够,所以应用场景的问题是否可能成为第四要素?再者人共智能必须考虑人的问题,是人工+智能,人机协作的问题在很多AI场景中必须考虑。所以我提出一个问题,如何寻找人工智能的第四要素?
人工智能的重点机会和方向问题
今天想和大家分享的第四点是人工智能的重点机会和方向问题。这就是以自然语言处理即NLP为代表的认知智能。目前AI硬件领域的投资很厉害,也是大公司的天下,比如GPU,FPGA,ASIC芯片等,在视觉领域的投资,也很多,特别是图像识别啊、语音识别啊,诞生了不少独角兽公司,技术进步也很快,但是太多了。不是未来的投资方向。而以自然语言处理为核心的认知智能,目前在国内的投资及发展和美国有不少的差距。根据腾讯研究院的报告,美国在NLP领域的新创其实差不多是中国的3倍,根据乌镇智库的报告,2000-2016年,全球累计新增自然语言处理企业数据达到543家。2009年以来,美国每年新增的自然语言处理企业占当年全球新增企业总数的比例保持在40%左右,根据调研公司CB Insights近日公布的“最值得关注的100家人工智能公司,约25%的项目与“自然语言处理”直接或间接相关,所以说NLP已经成为最值得关注的人工智能公司。根据福布斯精选Top50 AI公司2016年融资34.15亿美元,其中约16.2%的资金投向“自然语言处理”直接或间接相关。
为什么是这样的情况呢?因为在目前AI领域,依托大数据和深度学习,进展最快、效果得最好的是机器识别,机器识别结合机器学习在很多AI应用场景下实现了较好的机器智能,但是识别不等于理解,未来实现强机器智能或“智慧”,还需要解决机器理解和推理的难题,特别是自然语言理解/生成(自然语言处理技术)。如何让机器像人一样思考,理解人类语言、用人类语言表达、感知和表达情感、进行推理、规划、决策、具备自学习进化能力这些都是NLP的难题。
NLP包含的内容也是保罗万象,从词法、句法、语义、篇章、语言表示等基础技术,到分类、聚类、情感分析、知识图谱、机器翻译、自动摘要、自动问答、信息抽取等核心技术,到搜索引擎、智能客服、舆情监控等NLP+,再到各垂直行的“行业+NLP”。早期大家认为深度学习对NLP贡献不大,这两年有所突破,我们在6个数据集上的测试表明,深度学习对自动分类的贡献还是比较大的,平均可以提高5个百分点,所以深度学习对NLP有用,但是提高的精度还不够。
整个在自然语言处理里面,有几个东西我认为现在非常热,第一个就是聊天机器人或者虚拟助理。明天有一个专门的论坛讲这个,特别好,我在这里不多讲了。为什么这样说?因为它是所有自然语言处理技术的集大成,而且是未来争夺入口的一个焦点,所以苹果、微软、脸书、亚马逊都在搞,而且未来这些平台都会走向开源。
总的来说国内目前在自然语言处理的投资远远落后于对视觉处理领域的投资,这是我们的一个机会。 但是自然语言的处理障碍壁垒更大,和行业结合得更加紧密,这是它的一个特点。
最后和大家分享一下我们公司基于大数据+NLP技术做的一些事情,拓尔思是一家以大数据+人工智能为发展战略的创业板上市公司,拓尔思的人工智能的发展战略,首先是AI All in的路线,即我们所有的技术产品、应用产品和云服务都是内嵌AI技术;第二是大数据驱动,利用大数据的技术和应用基础来支撑和驱动AI技术和应用的发展;第三是应用场景优先,因为没有业务场景这些技术的东西就没有用武之地,需要应用场景来前导拉动和价值变现。当前拓尔思AI技术主要拓展的场景在金融、安全、传媒、司法、情报等垂直行业领域;此外,拓尔思再技术发展路径方面强调两条,第一个是云服务落地,逐步把业务都做成云服务的模式,第二条致力于垂直整合,如果不能形成垂直整合的生态闭环,你就不能赚大钱,实现更高的盈利能力和竞争门槛。同时我们也强调与巨人同行,技术上既采用开源开放的框架和平台,又要研发出自己专攻领域超越和创新的成果。
总结,我认为我们分析比较大数据产业的发展对人工智能的产业发展非常有意义;第二我们认为行业+人工智能仍然是主流,行业里有更大的空间可以供大家去创新和创造;第三面对人工智能的落地和进一步发展需要,人工智能三要素还不够,还需要知识作为第四要素;第四是在自然语言处理领域的里的创新机会和拓尔思在这方面应用实践。希望与大家共同努力,推动我们国家人工智能产业特别是自然语言处理技术领域更快更好地发展。
我的分享就到这里,谢谢大家!