【中国科学报】玉米多组学数据库上线了

▲玉米种质资源中的表型变化 华中农大供图

本报记者 张楠 通讯员 蒋朝常

近日,华中农业大学教授严建兵课题组成功整合了来自同一玉米群体的多组学数据,构建了玉米属综合数据库ZEAMAP,相关成果发表于iScience杂志。

该数据库内嵌了基因组“浏览器”和“搜索引擎”,从而实现了对相关组学生物大数据的高度集成、快速检索和智能分析。

此前,我国玉米基础研究取得了显著成绩,但在其研究材料和数据的共享平台建设上有待加强。该数据库的建立,不仅帮助用户提升了对作物组学数据挖掘的时间效率,更实现了多维组学大数据之间的联系,在打通信息“孤岛”上迈出有力一步。

多组学信息整合破壁垒

谈及搭建玉米多组学数据库的动因,论文通讯作者严建兵介绍,他曾在国际玉米小麦改良中心学习、工作4年多。“该中心的使命就是向全世界无偿分发种质资源。这段经历对我产生了很大影响。”从2010年底回国开展工作第一天,严建兵就把建立玉米多组学数据库提上了日程。

此外,国内学者基础研究的材料和数据收集、分享工作长期依赖于国际数据库,如美国国家生物信息中心(NCBI)、欧洲分子生物学实验室(EMBL)等建立的数据库。严建兵对《中国科学报》表示:“这些国际数据库极大促进了后来者的科学研究,为全球科技进步作出了重要贡献。”

不过,“随着高通量测序技术的快速发展,生物学数据朝着多组学、多维度的层面快速积累。以玉米为例,现有数据库大多关注一种或几种特定组学数据,不同数据库之间难以有效整合利用。”严建兵指出。

于是,这些数据成了一座座“孤岛”。论文第一作者桂松涛告诉《中国科学报》,有的玉米组学数据库只包含了基因的注释信息,有的只记录了遗传变异信息。仅通过这两个孤立的数据库资源难以判断出某个遗传变异是否会对附近的基因表达造成影响。

为了突破信息壁垒、提高研究效率,严建兵课题组以其自身牵头收集并被国内外同行广泛使用的玉米关联群体为基础,整合了该群体的基因组、转录组、表型组、代谢组、表观基因组、遗传变异以及遗传定位结果等多组学大数据,构建了玉米属综合数据库ZEAMAP。

在该平台,用户可根据相应的条目链接,在不同组学大数据之间进行跳转访问,实现信息互联。

目前,ZEAMAP收录了4个玉米基因组和1个大刍草基因组,并对每个基因组中数万个预测基因予以详细的功能注释。该数据库还整合了玉米关联群体507份自交系中数百万遗传变异的基因型信息,并整合了遗传变异与数十种农艺表型、数百种籽粒代谢产物以及上万个基因表达量的遗传定位结果。

ZEAMAP内嵌基因组“浏览器”以及丰富的数据检索、分析和展示工具,用户可直观地对比较基因组、基因共线性区块、表达模式聚类、遗传变异基因型、连锁图谱、遗传定位结果、染色质交互、组蛋白修饰以及群体水平的DNA甲基化等多组学数据进行检索和分析。

数据分享与数据安全都不能缺

“从用户角度来说,ZEAMAP极大降低了用户对作物组学数据挖掘的时间成本。”华中农业大学教授李林主要利用生物大数据进行玉米株型建成分子机制研究。他指出,目前全球已有的几乎都是单一组学大数据库,ZEAMAP则在一定程度上实现了多维组学大数据之间的联系,立足于完整反映遗传信息的整个链条,超越了存储层面的数据库。

严建兵进一步解释说:“我们收集、整合的同时,还做了很多关联分析。如果你做了基因组学的实验,那么通过与代谢组学或遗传组学的结果比对,可以查验你的结论受到支持还是反对。对于入门研究者来说,可以清晰明了地看到,其他学者已经做过哪些相关研究。”

也就是说,该数据库可以帮助学者直观了解到,他们感兴趣的基因与附近的哪些遗传变异有关联。同时也可以根据这些遗传变异和相关表型的遗传定位结果,去寻找可能的从遗传变异到基因表达,再到表型改变之间的关系。

据不完全统计,已有超过60个国内外实验室使用严建兵课题组资源,产生了一大批基础研究成果。“即便不是我们自己产出的成果,但是数据和种质资源的分享,对整个玉米研究领域的发展是非常有益的,对于农作物的遗传改良、作物育种非常重要。”严建兵说。

不仅仅是数据库类型单一的问题需要关注,去年上半年发生的一次事件也提醒科学家,当前的组学数据库过于集中在欧美国家。由于美国政府预算未被国会批准,政府相关机构停摆,美国玉米基因组和遗传学数据库(www.maizeGDB.org)被关停,导致研究者无法及时获取完整数据。而类似事件并不少见。

“学界缺乏能够真正服务于中国作物学研究的数据库。”李林强调,“如果能够具有多样化的选择,那对数据安全、研究的方便程度都会更有利。”

维护更新须持之以恒

李林也正尝试建立网络大数据库,深知其中不易:“大数据时代,信息很多也很全面,但同时也会带来‘噪声’,整合起来非常麻烦。严建兵课题组是通过10年积累,多位研究人员、研究生接力实现的。而数据库搭建完成后,对其维护更新也是件持之以恒的事。”

对此,严建兵坦陈,在国际上一些成熟数据库会有专职人员进行维护,从几人到几百人的规模都有。而国内无论从项目体系还是评价体系,都暂时没有相应支持,做数据库只能靠兼职。

“研究人员搭建数据库,不仅要具备深度的专业知识,能够对基因、转录、蛋白等组学数据进行挖掘分析,还要对计算机语言、数据库搭建规则等有所掌握。”严建兵说。

从另一个角度看,搭建生物组学数据库,不仅是促进科学事业发展的公益性工作,同时也是培养交叉学科人才的过程。第一位帮助严建兵从零开始搭建数据库的博士生刘海军,目前已经在奥地利科学院格雷戈尔·孟德尔研究所从事博士后研究。

桂松涛从事生物组学数据库工作一年半时间,钻研了许多搭建工具,从做实验慢慢转到做生物信息,经历了收获也经历了许多尝试和妥协。

“搭建数据库与传统科研工作有很大差别,不仅要解决技术上的问题,还要考虑展示逻辑,考虑用户对数据的了解程度,以及用户体验。数据库平台在简单、直观、易用的同时,最好还要尽量美观。”桂松涛说。

“我们期待这一云端集成检索,能有效促进现有玉米组学数据资源的利用率,帮助科学家深入理解玉米遗传变异、表型和基因之间的关系,辅助玉米的遗传育种和改良。”严建兵团队已经发出邀请,期待学者们上传数据,共同完善该数据库。

相关论文信息:https://doi.org/10.1016/ j.isci.2020.101241

《中国科学报》 (2020-07-21 第3版 农业科技 原文链接)

;