Giga Science Journal:利用DNA序列追溯植物演化关键事件

摘要 : 来自北美、欧洲和中国的科学家最新研究揭示了地球植物演化过程中的重要过渡细节,该研究成果于2014年10月27日发表在《美国科学院院刊》上。

来自北美、欧洲和中国的科学家最新研究揭示了地球植物演化过程中的重要过渡细节,该研究成果于2014年10月27日发表在《美国科学院院刊》上。

从外来藻类植物、苔藓植物、蕨类植物、生长在潮湿热带雨林中的花草树木、人们食用的谷子、蔬菜到家中的观赏植物,地球上的现生植物共同经历了长达十亿多年的历史。

乔治亚大学植物生物学副教授、本论文协调作者Jim Leebens-Mack介绍道,“我们的研究比较了大量不同亲缘程度植物物种的基因序列,并开发了新的分析工具以了解它们之间的亲缘关系并计算植物演化中关键性状产生的时间点。”

本研究是千种植物转录组计划(One Thousand plants ,1KP)的一部分。研究团队正不断地对地球的绿色生命物种进行测序并产出海量的基因序列数据。通过本研究,国际研究小组阐释了古代水生藻类植物演化成陆生植物,并适应光照、水和土壤养分等复杂过程的演化历史。

本论文首席作者、芝加哥植物园Norm Wickett称该研究“就如乘坐时光机器,去看古代的藻类植物如何演变成我们的食物,建筑材料和生态系统的至关重要组成”。

“4.5亿年前,当植物占领了大地,就永远改变了世界,”美国国家科学基金会环境生物学部项目负责人Simon Malcomber称,“该研究成果为了解植物之间的关系提供了新的发现。”

随着植物在平原、山谷和山上生长和繁衍,植物的生理结构经历了快速变化并促成了无数新物种的形成。这些研究数据也有助科学家更好地了解最常见植物的祖先,包括开花植物和松树等无花植物。

研究还发现了一些可应用在医学和工业上的植物物种的未知分子特性。

“这些多样化的序列为我们带来了许多激动人心的新发现, 这些新发现将会对整个生命科学产生重要影响。”千种植物转录组计划项目负责人、华大基因研究院副院长、阿尔伯塔大学教授Gane Ka-Shu Wong表示,“ 例如,我们发现的新藻类蛋白已被用于哺乳动物大脑运作的相关研究。”

华大基因项目负责人张勇表示,千种植物转录组计划的成功运作也将推动我们开展一系列千种物种项目,如昆虫、鸟类和鱼类。

这项工作的开展需要超大的计算工作量。华大基因、国家基因库、亚利桑那大学iPlant Collaborative,得克萨斯高级计算中心和Compute-Calcul Canada共同对该项目提供了巨大的计算能力用于基因数据的储存和分析。

来自iPlant Collaborative的Naim Matasci表示,“这项研究是生物科学家们利用高性能计算资源对大型数据集进行分析,以回答那些曾经被认为是棘手的基本问题的典范。”

为了分析项目中庞大的数据集,来自伊利诺伊大学香槟分校的计算机科学家Tandy Warnow及其学生Siavash Mirarab开发了一种新方法。Tandy Warnow指出,“在这项研究中,我们分析的数据集之大,对之前的统计方法而言,是前所未有的挑战。为此我们开发了准确性更高速度更快的方法。”

国家基因库、iPlant Collaborative、和纽约州立大学布法罗分校新药机会计算分析组等许多机构联手公开了该项目的数据结果。华大基因和国家基因库负责对全部数据进行分析,并协助开发了新工具来分析庞大的数据集。除此,他们还提供计算资源及公开测序数据。本研究中使用的序列数据发表于GigaScience的一篇姐妹文章。

研究者希望该研究不仅能阐释植物的起源和发展,还能为研究者提供更多分子演化研究的平台。

乔治亚大学植物生物学副教授、本论文协调作者Jim Leebens-Mack表示,我们希望这项研究能解决一些长期存在的关于植物关系的科学争论,其他人可以使用我们的数据,进一步阐明植物基因和基因组的分子演化进程。

原文标题:

Data access for the 1,000 Plants (1KP) project

原文摘要:

The 1,000 plants (1KP) project is an international multi-disciplinary consortium that has generated transcriptome data from over 1,000 plant species, with exemplars for all of the major lineages across the Viridiplantae (green plants) clade. Here, we describe how to access the data used in a phylogenomics analysis of the first 85 species, and how to visualize our gene and species trees. Users can develop computational pipelines to analyse these data, in conjunction with data of their own that they can upload. Computationally estimated protein-protein interactions and biochemical pathways can be visualized at another site. Finally, we comment on our future plans and how they fit within this scalable system for the dissemination, visualization, and analysis of large multi-species data sets.

原文地址:

http://www.gigasciencejournal.com/content/3/1/17

作者:网络

;