说说大数据智能
上周,南京大学开设了国内第一家人工智能学院,机器学习大牛周志华领衔院长,可谓实至名归。最近几年,以大数据和人工智能为代表的前沿信息技术,备受各界关注,相关领域的风投和创新、创业高烧不退,学术界大牛们纷纷下海,大数据深度学习研究和应用也在逐步落地,就连国务院的支持政策也是一个接一个。还有Facebook扎克伯格和Tesla埃隆马斯克为代表的大佬们就AI威胁站队互掐,AlphaGo的成功营销与Watson的失败医疗等等…这一波大数据驱动的AI热潮,发展势头强劲。笔者在前文讲到过大数据的本质,就像Palantir的公司名一样,毕竟做“先知”的诱惑太大,而大数据智能的核心目标就是降低决策过程中的不确定性,希望能预见未来。而通过智能技术进行前瞻预测是关键,不管是物联网、云计算、大数据、人工智能还是DT(Data Technology)偌大的技术生态,其核心都是为这一目标服务。
大数据智能,简单讲,就是行业大数据和人工智能技术的融合。各行各业正在加速变革,以适应大数据智能技术带来的挑战。基于大数据深度学习的阿尔法狗(AlphaGo),不仅仅在围棋领域战胜了人类顶尖高手,向医疗健康领域的拓展更是速度惊人,基于深度学习技术的皮肤癌诊断、眼疾诊断和心脏病预测等已经达到或超过普通医生的水平。IBM沃森医疗集团的认知人工智能系统Watson,基于大数据和人工智能自然语言处理技术,短时间内能自学习数十万篇医学论文,从而找出癌症治疗的关键基因,为个性化健康检测和精准医疗提供了强大的智能技术手段。如何抢占大数据和人工智能应用高地,同时掌握相关核心技术和知识产权,是各国大数据和AI战略聚焦的重点。下面我们就来看看大数据智能到底是怎么回事,为什么有如此大的吸引力,炒作?泡沫?抑或是大势所趋。
1 琅琊榜看大数据
要理解大数据智能,首先要真正搞明白大数据是什么?怎么认识和理解大数据?笔者不想再向大家???V还是5V,而是来谈谈豆瓣排行榜第一的武侠剧《琅琊榜》。为什么叫《琅琊榜》,是因为有一个高端神秘的大数据公司-琅琊阁,每年都会发布武术高手排行榜单,并为各方提供及时的情报服务。而最神秘的琅琊阁CEO梅长苏,自然华丽丽地占据榜首。所谓“琅琊榜首,江左梅郎”是也。当然琅琊榜单和麒麟才子梅长苏只是琅琊阁这家大数据公司的对外宣传而已,甚至打出了“得麒麟之才者得天下”的口号。
要理解大数据技术那就得理解琅琊阁的这些榜单到底是怎么排出来的,我们都知道,现代的各种排行榜,都是以海量数据作为基础进行统计分析。片头青山绿水之间的琅琊阁地宫就是座海量大数据中心(分布式存储),江左盟广布天下的分站和盟员就是数据采集端(手机、网站、传感器),而飞鸽传书就是高速的数据传输通道(物联网、移动互联网)。当然琅琊阁还有帮隐秘的数据科学家(智能预测建模),所以才能成就广为人知的麒麟之才-梅长苏(琅琊阁CEO),“得麒麟之才者得天下”的关键不在于梅长苏个人,而是他背后的神秘大数据公司琅琊阁(董事长是老阁主)。
图1 琅琊阁大数据中心
其实不管是古代诸葛亮、刘伯温还是几十年前的林彪,都是善于收集和分析数据的数据科学家。只要掌握足够的数据和信息,就能对事物的本质,对时局和对手有足够的认识,足不出户而知天下事,见微知著。大数据时代更是这样,我们每个人的一切都在加速数字化,吃穿住行用,还有我们的身体和思想本身在各大机构的数据中心里都能找到对应的数字副本,只要能集中这些数字副本,就能从多个层面Copy或Hack任何一个人。万物互联和数字化的世界,控制了信息流就能控制一切,而不仅仅只是获得商业垄断优势,从广义上讲,大数据崇拜的本质是希望垄断信息权的控制。当然除了数据,还有对人心的把握,时机的掌控等等,这一系列智能模型之外的因素也必须加以考量。《琅琊榜》看大数据,历史就是大数据,观历史可知未来。有人先知先觉,有人后知后觉,有人不知不觉,关键取决于对大数据智能的应用和把握!
2 四位一体看大数据智能
那么大数据跟智能是个什么逻辑关系呢?这就不得不说说其它几个前沿技术领域。这些年最核心的前沿信息技术基本可以从物联网、云计算、大数据和人工智能四个层面加以概括。为什么这样讲,移动互联网的兴起是大数据时代的分水岭,移动互联网之前的PC时代、互联网时代,传统的企业信息化系统也多是小数据或结构化大数据;进入移动互联网时代之后,特别是android和iphone智能手机的普及,让每个人都成为了数据产生器,甚至不需要你输入,你的位置,关注,社交等都一直在产生海量的数据,还有越来越广泛的企业移动应用,产生的数据量惊人,可以说没有移动互联网的普及我们就无法进入大数据时代,从技术角度讲,移动互联网属于物联网技术范畴,物联网的发展不只是让人和智能手机作为数据生产者,更是能让越来越多机器、电子设备、传感器、甚至道路建筑本身都是数据发生器,万物互联数字化的深度和广度在进一步拓展。
图2 四位一体看大数据智能技术
上述四种前沿信息技术发展遵循量变到质变规律,如上图,物联网、大数据、云计算和人工智能是四位一体发展的(时间有先后,但技术实质性突破都在最近几年),未来智能时代的基础设施、核心架构将基于这四个层面,这种社会演化趋势也很明显:从农业时代、工业时代、信息时代到智能时代。从物联网、大数据、云计算到人工智能,一个比一个热,一个比一个快,一个比一个深入,这是信息技术发展的大势,其内在的逻辑联系和发展趋势使然,终极目标直指大数据智能。四位一体看大数据智能技术,这就好比我们人体一样,物联网(移动互联网)构造了眼耳鼻舌身等感官,主要功能是负责各类数据的自动采集;大数据是各种物联感官获取的感受信息,数据规模太大之后,需要云计算来进行记忆和存储,反过来云计算的并行计算能力也促进了大数据的高效智能化处理;而基于大数据深度学习的人工智能就是我们最终获得的价值规律、认知经验和知识智慧;当然人工智能模型的训练也需要大规模云计算资源的支持,构建的智能模型也能反作用于物联网,进行更优化更智能地控制各种物联网前端设备,而这个过程中的数据、指令交互和应用部署也是一种典型的云-端互联架构。
大数据智能为什么离不开物联网和云计算,主要基于如下两点:(1)物联网是大数据的采集端和智能服务的发布端,是智能服务于人和机器的重要载体,就像现在的智能手机和机器人,同时,物联网也是互联网、传统电信网等信息承载体,让所有能行使独立功能的普通物体能实现互联互通的网络。当前人工智能领域深度学习这一关键技术的突破,得益于大数据驱动,而大数据得益于可穿戴物联网设备和智能手机等的应用普及,使得大数据采集的范围、广度和深度进一步加强,这为提供更为精准的大数据智能预测提供了数据保障;(2)云计算是大数据智能处理分析的基础支撑平台,提供强大的存储能力和密集计算力,来支持海量数据资源的动态管理和智能模型的高性能学习。其技术实现是基于互联网进行相关服务的推送、使用和交付,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。通过这种方式,云中共享的软硬件资源和信息可以按需提供给计算机各种物联网终端和设备。智能时代的基础IT和DT架构一定是基于上述四种关键技术领域的整合。也就在昨天,微软宣布肢解原来最重要的Windows部门,而组建两个新的大部:一个是体验和设备部;一个是云计算和人工智能平台部。可以看出,微软的东方不败自宫式重组,就是打算四位一体练就大数据智能神功,希望能在DT时代继续保持霸主地位。
3大数据智能:一种新的认知范式
笔者在前文曾提到,大数据智能的成功普及将是传统信息化的终点,换句话说,信息化走向智能化之后,整个信息技术相关的产业链(包括传统产业的升级)都会产生质的变化。大数据智能应用的终极目标是利用一系列智能算法和信息处理技术实现海量数据条件下的人类深度洞察和决策智能化,最终走向普适的人机智能融合!这不仅是传统信息化管理的扩展延伸,也是人类社会发展管理智能化的核心技术驱动力。大数据智能代表了一种新的认知范式,图灵奖得主,关系数据库的鼻祖Jim Gray将人类科学的发展定义成为四个“范式”,并描绘了自己关于第四范式的愿景:几千年前的科学,以记录和描述自然现象为主,称为“实验科学”,即第一范式,其典型案例如钻木取火;数百年前,科学家们开始利用模型归纳总结过去记录的现象,发展出“理论科学”,即第二范式,其典型案例如牛顿三定律、麦克斯韦方程组、相对论等;过去数十年,科学计算机的出现,诞生了“计算科学”,对复杂现象进行模拟仿真,推演出越来越多复杂的现象,其典型案例如模拟核试验、天气预报等;Jim Gray认为今天,以及未来科学的发展趋势是,随着数据量的高速增长,计算机将不仅仅能做模拟仿真,还能进行分析总结,得到理论。也就是说,过去由牛顿、爱因斯坦等科学家从事的工作,未来可以由计算机来做。Jim Gray将这种科学研究的方式,成为第四范式,即数据密集型科学。
图3 大数据智能应用,自问四个关键问题
大数据智能就类似Jim Gray提出的“第四范式”,我们如何看待周遭的世界,没有大数据时是靠归纳总结和实验模拟,当然经验和直觉也很重要,而大数据的兴起,前面三种范式的做法必然面临挑战,推理、经验和直觉等能力在庞杂大数据面前会大打折扣。就像我们的科学发展史一样,大数据智能的普及将是对传统认知方法的颠覆,人类的科学发展是一部理性战胜感性的历史,望远镜改变了我们对宇宙的看法;显微镜改变了我们对微观世界的认知;而当前通过大数据智能技术来解释我们亲手构建的数字世界,也意味着我们即将跨入一种新的认知范式时代,所谓科学的第四范式,只是其中一方面罢了。真正的大数据智能,既能像望远镜一样宏观,也能像显微镜一样微观,可以让我们通过对多维数字空间的自动投影、变换、关联等来更好地理解和掌控周遭的数字世界。当然这个过程也伴随着风险,大数据环境下的数权意味着更重大的责任,如何重构权责关系?智能更是意味着机器的觉醒,如何控制负面影响?值得我们深思…
参考资料:
[1] 维克托.迈尔-舍恩伯格, 大数据时代: 生活、工作与思维的大变革, 浙江人民出版社, 2013.
[2] 万?. 从图灵测试到深度学习: 人工智能 60 年[J]. 科技导报, 2016, 34(7): 26-33.
[3]李国杰, 程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考. 中国科学院院刊. 2012(06).
[4] Ferrucci D, Levas A, Bagchi S, et al. Watson: beyond jeopardy![J]. Artificial Intelligence, 2013, 199: 93-105.
[5] Zhang Z. When doctors meet with AlphaGo: potential application of machine learning to clinical medicine[J]. Annals of translational medicine, 2016, 4(6).
[6] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[7] Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85-117.
[8]第四范式:基于大数据的科学研究 http://blog.sciencenet.cn/blog-502444-931155.html
[9] Tony Hey,Stewart Tansley,Kristin Tolle . 第四范式 : 数据密集型科学发现[M]. 科学出版社, 2012.
欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708
Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967