生物大数据“行路难”

编者按

“大数据”时代已经到来。目前,大数据成为继云计算、物联网之后IT行业又一大颠覆性的技术革命。而随着技术的普及,大数据在生物、金融、零售、能源、交通等领域已得到应用,正在渗透到人们生活的各个方面。

同其他领域相比,我国在大数据方面和国外起点一致,可以说,大数据时代也是我国一次新的发展机遇。为此,本报将开设专栏介绍大数据在不同领域的应用现状及我国大数据发展亟需破解的难题,与读者共迎大数据时代的来临。

■本报见习记者 李勤

虽然我国数据产生量很大,但是生物大数据与国外相比仍比较落后。图片来源:百度图片

世界杯预测、高考预测、当前哪种男性最受欢迎……这些大家所熟悉的分析都用到了大数据,但是很少人知道,大数据早将“手”伸到了生物医学领域,开始了疾病预测。

欧美国家对生物领域发展大数据十分重视。今年3月,英国宣布,英国医学研究理事会(MRC)将投资3200万英镑资助首批5大项目,来提高医学生物信息学的能力、产能和核心基础设施。这项“医学生物信息学计划”预计总投资5000万英镑,将通过建立耦合复杂生物数据和健康记录的新方法,来解决关键的医学难题。

早在2012年3月,美国奥巴马政府就宣布推出“大数据的研究和发展计划”,将大数据提升到了国家战略层面,承诺将投资两亿多美元。2014年,美国政府就如何充分利用生物医学大数据,又启动了Big Data to Knowledge计划。

虽然我国企业也频频在大数据上有所动作,但是上海生物信息技术研究中心主任、中科院上海生命科学研究院生物信息中心主任李亦学对《中国科学报》记者指出:“虽然国内大数据在其他方向的发展远超国外,但是生物大数据与国外相比仍比较落后。”

没有免费的午餐

生物大数据发展相较国外落后,并不是因为没有数据量产生。

据我国最早从事理论生物学和生物信息学研究的科研人员之一、中国科学院院士陈润生介绍,以华大基因为代表的基因测序机构为生物大数据的产生作出重要贡献。

华大基因当前的测序量大约占据国际数据量的40%左右,而且随着技术发展和测序手段成本的下降,几乎所有的研究型大学和研究单位,无论是在农业、林业还是医学,都对基因测序有所涉及。

“基因组层面的生物大数据的发展带动了蛋白质组、代谢组、生物网络等各个层级的相关生物大数据的海量产生,但是我国当前还未能建立统一的生物数据信息中心。”陈润生指出。

李亦学也认为,生物大数据滞后于国外的最根本原因在于我国没有大型的综合生物大数据库,也没有生物大数据中心平台。

这意味着,我国开展研究时只能向国外的大数据库“求助”。虽然这些大数据库都宣称,只要递交申请就可免费共享数据,但是,天下并没有免费的午餐。

记者了解到,国际一些大型生物学数据库要求数据使用申请者提交详细的数据使用说明,即使数据库中已存有我国科学家所提交的相当规模的数据,但想再取出使用却绝非易事。

李亦学称:“免费共享数据仅是从理论上而言,实际核心数据不会及时交给申请者,内行会发现获得的数据都是非核心的或不完整的。临床医学相关的大数据库则有专门委员会来审核数据申请者,如果拒绝申请,也不会给出理由。”

因此,为了具备拿数据的资格,我国科学家们常需反复准备申请材料,却往往再也没有下文。“受制于人,非常恼火。”李亦学感叹道。

建大平台遇“难题”

国家级生物数据库的建立,往往带有公益色彩,需要有长期稳定的投入和专业的技术队伍。据专家介绍,上世纪90年代,我国有关部门已考虑建立国家层面的数据中心,但直到现在,仍未讨论出具体的实施方案。

那么,为何数据中心迟迟未能建立?

李亦学向记者算了一笔账,英美国家对数据库的建立投入了很多资金,引进的人才大部分有博士学位,每年的费用都由国会拨款支持,来源比较稳定,一年约需投入1亿美元。

“我国如果建立一个类似的生物大数据中心,应该也要有数百人的编制和每年几亿元的长期稳定投入。这笔钱如果由政府支付,障碍仍然不小。”李亦学分析。

陈润生也指出,建立一个国家层级的数据平台虽然在科学界是共识,但是这个中心建立的地点、呈现的方式(实体还是虚拟)、囊括的内容、涉及的权利范围以及怎么管理、由谁来管理都有很多不同的方案。

在这样的形势下,不能集中精力、统一调配全国的生物数据成了一道难题。

“用基因组数据得跟华大商量,用蛋白数据得跟其他人商量,小数据中心虽然有,但都是各自的,没有统一的协调管理。没有全国的生物数据中心,则无法统筹。”陈润生道出了难处。

同时,我国生物数据虽然产出量大,但利用率远远不够。尽管产生的数据提供了很好的信息,但是挖掘其全部价值还牵扯到很多方面。如数据量很大,能否在短时间内分析和挖掘其价值是个问题。

而且,大数据产生后需要相应的理论、技术和方法来跟进,也需要新的工具和方法。业内人士指出,国内现有的生物大数据分析能力虽然与欧美相差不大,但是在数据分析构架、软件系统与先进的IT技术接轨上有待提升。

植根中国“土壤”

李亦学指出,生物大数据虽然面临这些障碍,但是可以靠“抓目标、强合作”追上国际的脚步。

他认为,中国发展生物大数据的优势在于有海量样本。

当下应该做的,就是保护国内的生物数据资源并且寻找有价值的利用方向。

“一是要明确生物大数据发展的目标和途径,二是敞开胸怀和国内的研究单位合作,将生物大数据这项事业做好。”李亦学强调。

例如,我国目前实行的医联工程在上海地区已经取得了一些成果。

三甲医院和社区医院把就诊居民的就诊记录和健康档案全部联网,建立了数据库体系,包含了3400万份电子病历和档案。

李亦学表示,在征得病人同意后调用健康档案和检查结果,既提高了看病效率,又不会妨碍隐私保护,像小水珠一样的数据最终也能汇聚成汪洋大海,有益于生物大数据这项国家战略资源的保护与利用。

陈润生也指出,生物大数据发展应该脚踏实地,植根于中国的“土壤”,挖掘自身特色。

“中国的物种自身具备多样的特点,完全有可能形成有特色的生物大数据体系。在这样的形势下,瞅准问题,发展生物大数据的目的性更强一些,这才是我们要关注的。”陈润生说。

;