生物大数据研发及创新凸显国家意志
2014年,百度以大数据分析的方式预测高考试题,成功押中了全国18套作文考题中的12套,成为大数据在现实生活中应用的一个经典案例。近几年,大数据的研究和实践向各个领域渗透,当人们把杂乱无章的信息通过一定的规范进行数据整理和数据挖掘变成了有效的知识,并升华出改变社会能力的智慧因子的时候,大数据作为一种工具和平台应运而生,生物则是大数据应用最为关键的领域。从微生物数据分析研究到医院大数据的存储分析和管理,再到全国流行病数据分析在地图上的叠加和展示,呈现出国内不同慢性疾病及健康状况的全面动态实时分布,生物大数据正在给我们的未来提供更多创新机会。
欧美、日本等国家早已开始制定国家战略,建立国家级别的生物数据库,以此把控科技发展和创新的制高点以及市场先机,我国亟待在这一新兴的技术和战略领域出现曙光之时谋得一席之地。
为此,9月26日,由科技部中国生物技术发展中心和复旦大学联合主办、复旦大学附属中山医院承办的生物大数据战略研讨会在上海举行。与会专家均为国内大数据研究领域的领军学者,大家一致认为,生物大数据将是今后一个阶段科技创新的基础,应从国家层面给予重视,并制定相应的国家策略,在大数据分析标准、人才培养、资源共享机制上提供具体的指导性意见,为中国生物大数据的发展培植一个良好的沃土和环境,为未来参与到全球大数据技术研发与竞争以及市场应用提供可行的目标和方案。
生物大数据创新价值无限
随着以新一代基因组测序技术为代表的高通量生物实验技术的出现,人类获得了以前所未有的深度和广度观测生物体运行机制的能力,生物实验数据的全面性、精确性和数据量达到了空前的程度,从而产生了生物大数据。更重要的是,这些数据仍然不断的以几何级数在增长。
“基因组数据给我们带来了许多的创新机会”,中国科学院院士陈润生在研讨会上说,“大数据时代并不意味着为了大数据而大数据,其目的是为我们发现新的生物学规律,为工业生产、医疗实践提供更好的依据”。
陈润生以基因组中的暗物质——非编码核酸为例指出,生物领域仍有许多重大的科学问题没有解决。2012年12月17日的《科学》在评价人类进入21世纪科学进展的时候,提出了自然科学领域的十大突破,第一个提出来的就是所谓的基因组中的暗物质,并指出这是在人类自然科学领域最值得激动和关心的,即遗传密码信息中迄今为止还有很多不为人知的秘密。
首先,当科学家破译了人类基因组后发现,编码蛋白质的传统基因的部分只占人类基因组的3%。“那97%才是我们大数据中未知的广大领土,这里面蕴含着重大的科学规律。而围绕现有的3%的研究,整个世界科学领域已经造就出了无数著名的科学家”,陈润生感叹道,大数据本身包括基因组大数据,更多的是给我们提供了创新及实际应用的机会。
其次,像华大基因这样的企业,测序量大约是世界基因组测序量的40%,处于全球第一的水平,但这些数据里有多少人们已经从中获得了认知。“我们产生的数据远远比从中获得的认知大得多,如果不建立大数据的分析方法,发展大数据分析和应用,就是很大的浪费。”陈润生强调,要从理论基础和方法上进行重大变革,这样方有机会在大数据的时代做出全新的创新,为我国的医疗实践,为工农业生产创造更多的价值和机会。
给医疗大数据应用更多投入
复旦大学附属中山医院是从上个世纪90年代开始进行信息化建设的。2003年,医院独立自主建立了信息化系统,确立了以医务为先导,以数据为核心,服务临床一线患者健康的宗旨。经过多年的建设,基本形成了覆盖全院各个部门、各项流程、相对完备的信息系统。数据显示,目前系统内已经积累了669万条病史记录,4958万条医嘱信息,3.86亿个检验,278万份影像数据。
“我们医院正在建设的病例系统更是数据惊人,每张CT片扫描后,数据量超过了1GB”,中山医院院长樊嘉教授介绍说,检查数量累计一年的数据要超过400TB,大数据开启了一次重大的时代转型,如何分析和利用这些数据是当前急需研究的课题。中山医院已做了一些尝试,在全院信息系统的基础上单独建立了临床数据库,并逐步形成了一些单病种的数据库,为临床科研提供数据支持,建立了生物样本库管理系统,为系统管理科研样本提供了技术支撑。
生物大数据战略要挖掘大数据的潜在价值,探讨生物大数据的整合利用,构建大数据的运行和管理体系,完善大数据利用的法律法规,对此,樊嘉教授呼吁,国家应加大在大数据方面的投入
大数据需法规保护和人才支持
生物大数据的研究包括数据存储、大数据管理、大数据分析、大数据科学和大数据应用,是一个多学科共同参与的领域。统计显示,2014年对大数据分析师的职位空缺达100多万。那么,从事大数据的科学家都需要什么技能呢?
来自EMC中国研究院的技术总监孙宇熙研究员认为,一般做大数据的人比普通的软件工程师有更多的统计学知识,但毫无疑问又会比统计学的从业人员有更多的编程能力。他强调,数据科学的目的是为了挖掘隐藏在数据中的信息,获取一个全面的洞察力。从业人员要从数据、信息、知识、理解、智慧五个方面入手。
目前,从事生物大数据的有三类人才,第一类被认为是手里有数据的人,即那些从事生命科学领域研究的科学家以及掌握着很多有效数据的人;第二类是IT领域做大数据技术开发和应用的人;第三类是结合生产实践进行大数据二次开发的人。第一类人不断挖掘出有效数据,第二类人探索数据增长带来的技术挑战,第三类人要用好数据,但三者又是互通有无的。
中国标准化研究院副院长邱月明研究员指出,除了人才之外,国家在现阶段应该对大数据和生物大数据的标准化给予更多关注。“要解决谁可以利用大数据,从什么途径来保护这些大数据的知情权、使用权以保证隐私。目前,我国还没有建立专门的法律法规,要先有法律法规,然后才有标准,并通过系统构建生物大数据平台达成知识共享体系”,邱月明说。
国家层面进行战略设计及数据储备
伴随着生物大数据的信息技术维护是我国生物数字主权的必要手段。有科学家指出,世界上三大数据中心都在欧美和日本,我国产生了这么多数据,可目前数据还要提交到上述几大中心,这对我国的数字主权是极大的挑战。
哈尔滨工业大学计算机学院和软件学院院长王亚东教授告诉科技日报记者,我国生物信息获取的平台技术受制于国外产品,缺乏引领国际组学基础研究计划的能力,同时,生物数据分析与利用能力严重不足,缺少自主知识产权的高价值生物数据资源,我国的医疗数据几乎不能共享,转化利用率低,我国生物大数据产业尚未形成。
与会代表认为,我国已经成为生物信息技术的产出大国,怎样把有效的资源集中投入到研究中去,应该形成业界共识,形成战略发展目标。当务之急是建设国家生物大数据中心,将之看做“两弹一星”同等的重要,此外,要持续加强对新一代/新原理测序设备的研发。以大数据为代表的生物信息技术发展已经是箭在弦上,没有退路,只有积极迎头赶上全球技术的创新和应用发展。
以应用需求带动大数据技术发展
复旦大学金力院士指出,通过本次大会不同领域的专家,尤其是与生物医药领域之外的大数据专家的交流,达成了关于生物大数据的两项基本共识:一是所谓生物大数据是由数据、技术、应用三部分组成,三者缺一不可;二是应该以生物医药领域的应用需求来带动生物大数据技术的发展,并建议“十三五”国家在做大数据整体规划设计方向的时候,最重要的是要明确生物大数据的发展目标。
据悉,未来生物大数据的研究成果及数据将有望汇集到国家的层面上。国家的战略目标是使我国的组学大数据中心在世界上具有一定的发言权、话语权和主导权,能够让世界看到中国,看到中国的生物医药产业,更看到中国的强大。