大数据时代下的新科研
“大数据的概念听上去和云计算一样,有些‘高大上’,但是大数据绝不是一个空泛的口号,事实上它不仅改变了人们的生存面貌,更为科学研究带来重大的机遇。”中国科学院遥感与数字地球所研究员郭华东说。
依托海量的数据状态和云级别的数据处理能力,大数据以其Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实)的4V特点,带来了一场全方位的思维变革、产业变革和管理变革。郭华东表示:“它把我们的科学研究各个领域以及各个环节都推到了一个前所未有的‘大数据时代’。”近日,以“科学大数据的前沿问题”为主题的第507次香山科学会议在北京香山饭店举行,会议邀请了来自全国各地多学科跨领域的专家学者,共同探讨大数据时代下科学研究的基础设施、创新模式与共享机制以及人才培养等问题。
大数据让科研面临新挑战
在中国科学院计算机网络信息中心主任黄向阳看来,计算机技术、以互联网为代表的通信技术和以物联网为代表的传感技术的持续创新和广泛应用使人类的数据化能力和范围快速扩张。“以大科学装置为代表的机构内部产生的数据量能够被测量和记录的越来越多,而我们对事物、现象等的测量、记录也更加频繁和细致。”他说。
“如今,这种扩张让我们看到大量从宏观到微观、从自然到社会的观察,计算、传播等仪器设备和活动都在快速产生着海量、多样的数据。”黄向阳说,“比如高通量科学仪器、望远镜、卫星、加速器、传感器网络、医疗成像设备、测序仪等各种科研仪器和装置、模拟方法、智能终端以及各种应用等,这些都使得科研领域被推到了一个前所未有的‘大数据’时代。”
海量数据的剧增,势必让量变引起质变,黄向阳表示,不断增加的数据引发人们思维和行为模式的变革,而在科学研究领域,这也将直接为科研模式带来极大的改变。“继实验科学、理论科学、计算科学之后出现了第四种研究范式,即‘数据密集型科学’,成为大数据时代下的新模式。”
“我们有理由相信,大数据为科学研究带来了重大机遇,比如当所能利用的数据增加时,人们将可以做很多在小数据基础上无法完成的事情。”黄向阳说。
取之于科学用之于科学
中国科学院高能物理研究所计算中心主任陈刚说:“中国的髙能物理实验每年产生的数据也达到PB级(百万GB级——编者注)。高能物理实验是典型的大科学装置和大科学研究项目,这意味着跨国家跨地域的国际合作。这样的大科学项目需要将实验数据收集和存储起来,并通过高速网络分发给处于不同国家或机构的合作者。这对高速网络提出了巨大挑战。”陈刚表示,正因如此,高能物理需要建设专用高速网络并采用新的网络技术来实现数据的全球共享。
“通俗的说,科学大数据是科学工程研究中的海量数据。”中国科学院遥感与数字地球研究所研究员王力哲说。在他看来,大数据“无处不在,且蕴含着巨大的经济价值”,它既是一门多学科融合的一个交叉学科,也在反过来影响和改变着更多的科学领域。
王力哲以我国人口密度对比线——“胡焕庸线”的形成机理分析作为一个实例来解释科学大数据知识发现的理论方法:“‘胡焕庸线’的形成涉及多方面自然、社会、经济因素的影响,个体空间行为—空间过程—空间格局的相互作用机理模型极其复杂;这项研究伴随着超长序列的海量空间数据和社会经济数据,包括地理、气候、遥感、 人口、工农业生产、资源、环境、商业、教育、交通等等。”他表示,“而空间大数据时代的到来,使用超长时空序列的、多源、异构的自然、社会、经济空间大数据,进行空间大数据分析和知识发现,能够为研究‘胡焕庸线’形成机理进而为‘新型城镇化建设’这一重大国家需求提供理论决策支持。”
在天文领域,大数据也在为挖掘有价值的信息及规律发挥着重要的作用。中国科学院国家天文台研究员赵永恒说:“随着全球各个大型巡天观测项目的开展,天文学研究的模式正在从以往的小样本向着大数据模式转变,海量的天文数据给天文学家带来了巨大的机遇和挑战,天文学的研究也越来越离不开大数据集的统计分析,即数据挖掘和知识发现。”
他表示,现如今,对这些海量天文大数据进行数据处理与分析已经超越了当前的计算能力。“如何对天文大数据进行高效和及时的处理从而加速天文学研究的科学产出已成为天文观测和天文研究迫切需要解决的难题,而大数据无疑可以帮助天文学家重新审视和了解我们的宇宙。”
大数据管理带来新思考
尽管大数据时代的到来为诸多科研领域带来新的曙光,然而如何将科学数据变成创新资源,并在数据共享的积极作用下有效保障国家安全与个人隐私,成为人们关心的话题。
“尤其像现在,科学数据的应用边界,已经从传统的科研和教育领域,向社会经济和商业领域延伸,因此这仍然是一个复杂的、系统的问题。”中科院网络信息中心科学数据中心主任黎建辉说。
据他介绍,为此,国际国内均在做一些有益的探索和尝试。“在学术领域,新的数据出版模式正在逐步形成。”黎建辉说,“在商业领域,数据集
市作为在云计算技术支持下的数据共享、交换与交易的模式,在国内外呈现快速发展的趋势。”
在浩瀚的数据海洋里挖掘和捕捉能够推动人类进步的信息,与此同时还要保障一系列的数据安全隐患,在复旦大学上海数据科学实验室主任朱扬勇看来,培养数据科学家十分重要。“这里说的是数据科学家而非传统的信息科学家,他们关注对数据现象和规律的研究,并开始出现在领先的企业和大学中,发挥着他们的巨大作用。”
合格的大数据人才需要具备哪些品质?王力哲表示:“数据科学是一个多学科融合的交叉学科;数据科学是以数据为研究对象,以信息论、统计学、数据理论、数学分析等理论为研究手段,以获取海量数据中蕴含的知识为目标的一门学科。” 也正因此,他认为从事大数据研究势必应该是复合型人才。
“除此之外,他还要关注国际数据科学领域热点议题,关心数据及其涉及的一系列政策、标准、技术、方法和国际发展态势。”中国科学院地理科学与资源研究所研究员刘闯表示,“世界性的数据科学领域学术带头人正在一些热点议题中涌现出来。”
她认为,数据领域国家化人才还应对数据领域热点问题把握准确,有一定超前的战略思想,并在这些问题上有“开放的、独特的学术业绩”。
“我国在数据领域培养国家化人才方面与大国地位差距甚远,特别是一些关键性领域尚属空白。在这个方面,我们还有很多工作要做。”刘闯说。
声音连线
大数据或许可以“创造大脑”
10月26日,由复旦大学主办的浦江创新论坛·未来科学论坛上,多位国内外顶尖科学家齐聚一堂,围绕“关注未来:拓展认知的疆界”这一主题,就当今时代科学发展最具吸引力的重大领域展开了精彩的讨论。
据中新社报道,中国科学院院士,北京航空航天大学校长怀进鹏在论坛上公布了一个有趣的科学设想:大数据也许可以“创造大脑”。从神经科学来认知脑,也许通过数据人类可以创造一个脑。孩子学习识物的时候,不需要一两百张、而是通过20张左右的图片,他就能学会区别什么是马,什么是牛,什么是车,这与大数据识别有着相似之处。
怀进鹏设想,通过研究从数据科学到电脑到智脑的演化,也许能从无数据到大数据建立人脑图谱,在移动计算和现有的大数据当中尝试“创造大脑”,创造一个部分的功能或者仿真一个功能,使电脑向智脑转换。
今天的时代是一个用户产生内容的时代,但是对于大数据的运用,基本还停留在浅显的层面,如通过网页浏览量数据分析用户的喜好、需求等。更多的数据依然是无序、不可被分析的状态。
怀进鹏说,如果能建立一种智能模式,“教会”电脑掌握从数据的无序到有序关联,以便认识人的一部分世界,通过建立一系列融合关联,让电脑学会构成一个时间段的社会理解,用芯片或者机器创造“一天的宇宙”。
加入电脑能够形成跨语言之间的迁移学习,最后形成自主生长和所派生的复杂结构下相互数据、信息和知识之间的关联,以便对智脑的理解有附加的帮助,在这样的方式下通过数据分析出传播学、社会学的新特征。或许还可以了解人是如何学习和记忆的,如何认知和增长智力、形成自主学习的,甚至了解情感形成的过程。
“也许通过数据,我们可以创造一个脑,因为基于数据的科学可以使得机器更聪明,也可以使得社会更理性。”怀进鹏展望说。