对话王向峰:大数据时代的农业需要什么?
高通量测序技术的飞速发展与生物数据的爆炸式增长推动基因组学研究进入了大数据时代。王向峰教授主要从事植物基因组学、生物信息学和系统生物学方面的研究。将大数据技术运用到植物基因调控网络构建、重要农艺性状基因挖掘、基因注释与功能预测等植物科学研究中,并最终与育种实践相结合,开发分子设计育种模型、软件、数据库,为我国育种家服务,是他的课题组长期努力的目标。
谈到课题初衷时,王向峰说道:“人类健康与医学领域中‘大数据’技术体系已逐步建立起来,但‘大数据’如何应用到农业生产与育种产业还需要一定时间的摸索。与‘精准医疗’、‘智慧医疗’的理念类似,以大数据技术为依托的‘精确育种’、‘智慧农业’等体系的建立与发展是全球农业发展的未来方向。相对于小样本量数据,大数据具有积累速度快(Velocity)、数据规模大(Volume)、数据类型多样(Variety)这三个‘V’的特征。大数据并非体现在数据物理存储上的‘大’,而是体现于信息量的‘全’和数据特征的‘杂’。这对植物学与农业相关科研机构建立统一的大数据计算构架、大数据存储与管理方案、大数据挖掘方法与流程提出了巨大的挑战。”
王向峰还谈到:“科研人员与小型机构本身难以应付这一挑战,而云技术的出现为科研领域提供了解决方案,研究者可以通过网络很方便的按照分析需求,从云平台服务商那里获取廉价且灵活扩展的计算资源,从而满足大数据存储、管理、分析的要求。”
用云计算服务科学
云计算作为新兴的IT技术,允许用户通过网络方便的随时获取基础计算资源,而无需添置与维护昂贵的用于大数据存储与分析的高性能计算硬件资源,采用虚拟化技术可实现计算资源的快速扩展,用户可以根据自己的存储分析需求,快速调整资源配置,经济灵活。
王向峰谈到:“不难想象,未来基因组学分析、高通量测序数据分析、以及各类高通量生物学计算都将通过云计算与云存储等制定化服务及统一的分析流程的方式完成,而无需科研人员自己构建本地的计算平台与分析流程。”
在过去几年的时间里,王向峰的研究团队致力于对已发表的公共数据的整合性挖掘,以及开发基于机器学习等现代信息技术的大数据分析方法。关于大数据如何服务于植物科学研究,王向峰以基于公共数据库构建植物基因表达调控网络为例进行了介绍。
传统方法依据单一数据集中基因的共表达趋势推测基因间潜在的调控模式,但这一方法并不能直接说明表达模式相似的基因之间是否真实的存在直接的靶向调控关系。
基于大数据的网络构建是借助公共数据库中收录的所有类型的数据为基因间功能关联与调控关系寻求证据,多类型数据包括:植物中保守顺式调控元件序列数据、使用高通量测序技术得到的Chip-Seq数据、转录因子结合位点数据、基因共表达数据、蛋白质互作数据,以及科研文献记载的知识型数据等。
在获得整合型数据后,采用适合大数据分析的机器学习的策略构建分类模型、回归模型、决策模型等手段探索数据间的关联与规律,从而提高预测基因调控关系与挖掘重要功能基因的准确性。
让科学走进农业
王向峰谈到:“与国外的大型农业集团和育种公司相比,我国的农业生产信息化管理,基因工程与基因组育种等方面十分薄弱;现代农业必须以数据驱动(data-driven)的管理模式为依托,通过降低农业生产成本、提高耕作效率、降低农业生产的风险,使农民从农业种植中获得更大的利润。”
关于植物基因组学与生物信息学研究如何与育种产业相结合,王向峰继续谈到:“目前植物科学研究与育种应用研究在一定程度上是脱节的,科研工作者要意识到无论基因组测序还是现在的大量的全基因组关联分析(GWAS)研究都是以最终服务于农业生产与育种实践为目的。农作物育种的本质是通过杂交等手段把优良基因进行合理组配而实现改变作物农艺性状的目的,大数据技术正是衔接植物科学与育种应用的枢纽,将基础研究产生的生物学知识与数据转化为分子设计育种的科学依据,最终推动传统的‘经验育种’向高效、定向、低成本的‘精确育种’的转变。”
“我们一直在国内寻求与具有生物信息学背景的云平台提供商开展植物科学与分子育种大数据研究,借助云技术联合开展大数据处理、存储、管理等方案,以及开发基于机器学习的大数据分析新方法。经过多方考虑,我们与百迈客公司达成了合作,使用基于高通量测序与生物信息分析的商业化云计算平台——百迈客生物云平台。我们将会把现有大数据分析流程与软件逐步移植部署到国内这类成熟的商业化生物云计算平台,为国内植物科学研究与育种家们提供服务,全面提高我国植物基因组学研究与分子育种研究的实力。最后希望与国内的同仁们共同努力推动农业大数据的发展,将科学研究与农业应用相结合,实实在在的指导农业生产与育种研究,惠及农民大众,让他们的辛勤劳作获得更大的收益。”王向峰最后总结到。
王向峰教授简介
王向峰,中国农业大学教授,博士生导师。2007年获北京大学生物信息学博士学位,之后在耶鲁大学、哈佛大学完成博士后阶段工作;2010年在美国亚利桑那大学,农业与生命科学学院任终身制助理教授;2014年作为“青年千人计划”被人才引进到中国农业大学工作,现任农学院作物基因组学与生物信息学系系主任。课题组主要从事植物基因组学、生物信息学和系统生物学等方面的研究,发表论文三十余篇。
本文来源于:测序中国/百迈客
欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ