生物大数据时代已经来临:中国能否与世界同步?
大数据时代已经来临。2014财年,美国政府就如何充分利用生物医学大数据,启动Big Data to Knowledge计划,这是继2012年美国国家大数据计划实施后新一轮面向生物大数据的基础研究计划。目前,发达国家在生物大数据领域的技术和应用已远远走在前端。在我国,生物大数据还处于发展的初期阶段。该如何以最快的速度赶上这一潮流,如何从国家主权层面对生物大数据进行有效的保护和管理,如何在基础研究和技术市场应用上与世界同步,已成为不可回避且值得深入思考的话题。
谁是生物大数据技术的领航者
大数据发展的核心动力来自于人类记录、测量和分析世界的渴望。当前,高通量测序技术的快速发展,使生命科学研究获得了强大的数据产生能力。
哈尔滨工业大学计算机科学与技术学院院长王亚东教授告诉科技日报记者,上世纪90年代,科学家花费10年时间、近30亿美元获得了第一个人类基因组图谱;而今天,完成一个个人基因组测序不到一天时间,费用低于1000美元。
自人类基因组计划完成以来,以美国为代表,世界主要发达国家纷纷启动了生命科学基础研究计划,如国际千人基因组计划、DNA百科全书计划、英国十万人基因组计划等。这些计划引领生物数据呈爆炸式增长,目前每年全球产生的生物数据总量已达EB级,生命科学领域正在爆发一次数据革命,生命科学某种程度上已经成为大数据科学。
“这还只是刚刚开始”,王亚东强调,“随着测序技术在医疗、健康、医药、环境、能源等相关领域的广泛应用,人类将面临生物数据的海洋,其将成为这些领域创新的源泉,对这些数据创新性的管理和应用,将为生命科学及相关产业领域带来一次新的革命。”
与全球蒸蒸日上的生物大数据创新发展热潮相比,中国的研发及应用才拉开帷幕。“我们与国际前沿技术水平至少相差30年,差距主要表现在数据分析、数据管理和与临床的应用对接上”,上海生物信息技术研究中心主任李亦学研究员对此深表担忧。
李亦学分析认为,我国有四大方面非常欠缺:其一,国内现有的生物大数据分析能力虽然与欧美相差不大,但是在数据分析构架、软件系统与先进的IT技术接轨上有待提升。其二,国外在生物大数据领域的领先人才多,尽管我们也有国际顶级刊物上发表的论文和成果,总体而言,国内高水准团队还是少。其三,欧美讲求成果应用,层出不穷的分析软件可被实验室、临床、产业多方应用。其四,在生物大数据理论研究、标准制定和广泛应用上,中国都亟待全面跟进。
谁将引领生物大数据应用的市场和资源
对生物大数据的有效管理和利用,发达国家很早就开始了竞争。早在上世纪80—90年代,美国、欧洲和日本即已分别建立世界三大生物数据中心:美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)和日本DNA数据库(DDBJ)。
王亚东强调,“这三大生物数据中心掌握并管理着全世界的生物数据和知识资源,并处于垄断地位。”
美国国立卫生研究院(NIH)建立了8个国家级生物数据技术研究中心,旨在长期发展生物大数据分析技术,提高生物大数据利用和转化能力,并保持其领先地位。王亚东进一步指出,美国政府于近两年两次启动生物大数据研究计划,目的是有针对性地研究生物大数据管理、分析、共享等生物领域迫切需要的核心技术,从根本上提升美国利用生物大数据的水平,并以此带动生物领域研究与产业发展。
在商业领域,生物大数据的应用市场也如雨后春笋,目前,一些公司已开始提供生物大数据服务。例如,谷歌投资DNANexus公司,提供生物大数据管理和分析服务,并于2011年接管NCBI数据;早在2006年,23AndMe公司就开始提供个人基因组数据分析服务,目前其受益者总数已超过50万人;英国卫生部于2013年专门建立了Gel公司,管理和分析英国十万人基因组计划产生的基因组数据。
BCC报告指出:“至2018年,生物大数据的市场总额将增长至76亿美元,年复合增长率达到71.6%。”麦肯锡公司报告指出:“如果美国医疗保健行业有效利用大数据,就能把成本降低8%左右,从而每年创造出超过3000亿美元的产值。”
谁来掌控我国生物大数据主权
对于一个国家而言,重要领域的大数据已成为战略资源,拥有数据的规模和运用数据的能力将成为一个国家综合国力的重要标志。
我国人口居世界首位,生物样本资源丰富,这将使我国很快成为生物数据产出大国,但目前还不是生物大数据利用强国。
事实上,国际上生物数据资源一直掌握在欧美的几大数据中心。我国产生的许多生物数据资源不得不提交到这些数据中心,导致我国投入大量资金与人力产生的生物数据严重流失。
在生物大数据领域,我国缺乏从国家层面对生物大数据进行有效管理与利用的体制、机制和环境,李亦学称,“这已经使中国的生物数字主权受到严重威胁”。
王亚东也强调,“现在国际上的三大生物数据中心都是欧美国家层面建立的,并免费向国际开放。我国的相关科学研究和市场应用发展受益于这些数据中心,同时也严重依赖和受制于此。”
业内人士指出,我国尚未建立面向生物大数据技术发展的国家级技术研究中心,技术研发缺乏宏观规划和引导,技术产出较少,难以建立完善的生物大数据技术体系,不能满足生物大数据发展面临的数据管理和服务需求。同时,除了哈尔滨工业大学和上海生物信息技术中心等少数高校和研究所建立了生物大数据专业研究团队外,人才缺口较大。
大数据的使用已经成为一个国家各领域提高生产力、创新能力以及竞争力的关键要素。
专家们指出,生物大数据是国家战略资源,对生物大数据资源的管理和利用应上升为国家意志,并考虑实施如下措施:建立国家生物大数据中心,保障我国数字主权,统筹管理和合理利用国家生物大数据战略资源;通过国家科技政策,集中突破生物大数据核心技术,形成自主关键技术与系统产品,打破美欧技术限制;以现有优势学术和技术资源为基础,建立国家级生物大数据研究机构,提升我国生物大数据技术和服务水平,并培养专业的生物大数据人才;强调应用需求牵引和政策支持,以加快生物大数据产业的全面发展。