于军等《mBio》发表基因组学研究进展
2014年11月25日,中科院北京基因组研究所、四川大学、北京大学的研究人员在美国微生物学会开放获取网络期刊《mBio》发表了一项最新研究成果,题为“Flexibility and Symmetry of Prokaryotic Genome Rearrangement Reveal Lineage-Associated Core-Gene-Defined Genome Organizational Frameworks”,这项研究指出,物种特异性cGOFs的定义,为基因组装配和其他基于结构的分析,提供了强有力的指导。
本文通讯作者为中国科学院北京基因组研究所“百人计划”于军和章张。于军博士为基因组科学与信息重点实验室主任,目前担任国家重大科学计划转录组研究首席科学家。一直从事基因组学、生物信息学和人类遗传学等研究。章张博士于2007到2009年在美国耶鲁大学从事博士后研究,2011年至今为北京基因组研究所“百人计划”,主要从事分子序列进化建模与分析、海量生物数据整合与信息挖掘。本研究受到卫生部、国家自然科学基金委的资助支持。
原核生物基因组及其基因虽然比真核生物的小很多,但是被认为是以种系特异性的方式有序组织,这对于理解基因组结构和解读基因型-表型关系非常重要。在泛基因组(pangenome)的情况中,根据物种的泛基因组大学与菌株数目的关系,将物种的基因分为核心基因(core genome)和非必要基因(dispensable genome)。这些核心基因通常包括具有基本功能的基因,被认为随着长时间的进化而相互适应。
此外,核心基因的相对顺序往往被认为是稳定的,有两个原因。首先,核心基因被认为在位置和方向上承受强选择作用,以降低它们表达调控的中断。第二,核心基因大多是垂直遗传(vertically inherited),它们的基因组组织应该有一定程度的稳健性,能够抵制大规模的水平基因转移(HGT)。因此,原核生物的基因组组织,不仅要有一套保守的核心基因,也限制它们的顺序和方向;这样的组织框架通常是物种特定或谱系相关的,在那里,水平获得的非必要基因可以挤进某些染色体位置。
虽然基因组组织似乎在强选择作用下是保守的,基因组重排仍然是无处不在的,甚至在密切相关的菌株之间,已被认为是促进基因组进化的一个驱动力。有时,基因组重排可能是非常密集的,涉及多达一半的总基因组长度。然而,以前对重排的研究在一些物种中报道了一种对称模式,将重排与可变的生态条件联系起来。基因移动性的可用算法集中在HGT,或者不能区别核心基因与其他基因。因此,核心基因组结构的灵活性仍然是难以捉摸的。
这项研究想解决四个基本问题。首先,在一个泛基因组中,是否有一套框架形成的核心基因(或核心基因的一个子集)在染色体上的顺序和方向相对稳定?第二,如果这样的核心基因定义的基因组组织框架(cGOF)存在于一个给定的物种或保持种系内特征,那么当HGT和基因组重排发生在不同频率时,它的灵活性和稳定性如何?第三,相比较非cGOF基因,cGOF基因是否有独特的功能性特征?第四,cGOF对于协助基因组装配和精加工以及注释和数据挖掘,有什么用?
基于来自30个物种的数据,包括来自6个类群的425个基因组,研究人员根据核心基因的稳定性,泛基因组的背景下将核心基因分成同线基因区段。核心基因的一个子集,经常是物种特异性的和种系相关的,形成了一种核心基因定义的基因组组织框架(cGOF)。这种cGOF是单节段(分析的三分之一物种)或多节段的(其余的)。根据节段对来源端轴的取向,多节的cGOFs进一步分为对称或不对称的。
革兰氏阳性菌的cGOFs是唯一对称的,往往在方向上是可逆的,而不像革兰氏阴性菌,都是非对称和不可逆的。同时,所有表现强链偏向性的基因分布的物种,都包含对称的cGOFs和常常特定的DnaE(DNA聚合酶III的α亚基)亚型。
此外,功能性评估显示,cGOF基因与细胞活动是相关的,cGOF的稳定性提供了支架(scaffold)定位的有效指标,这通过装配虚拟和实证的基因组草图也得以证明。cGOFs表现出物种特异性,多节段cGOFs的对称性在物种间是保守的,由DNA聚合酶中心的链偏见性基因分布所限制。物种特异性cGOFs的定义,为基因组装配和其他基于结构的分析,提供了强有力的指导。
原文摘要:
Flexibility and Symmetry of Prokaryotic Genome Rearrangement Reveal Lineage-Associated Core-Gene-Defined Genome Organizational Frameworks
ABSTRACT: The prokaryotic pangenome partitions genes into core and dispensable genes. The order of core genes, albeit assumed to be stable under selection in general, is frequently interrupted by horizontal gene transfer and rearrangement, but how a core-gene-defined genome maintains its stability or flexibility remains to be investigated. Based on data from 30 species, including 425 genomes from six phyla, we grouped core genes into syntenic blocks in the context of a pangenome according to their stability across multiple isolates. A subset of the core genes, often species specific and lineage associated, formed a core-gene-defined genome organizational framework (cGOF). Such cGOFs are either single segmental (one-third of the species analyzed) or multisegmental (the rest). Multisegment cGOFs were further classified into symmetric or asymmetric according to segment orientations toward the origin-terminus axis. The cGOFs in Gram-positive species are exclusively symmetric and often reversible in orientation, as opposed to those of the Gram-negative bacteria, which are all asymmetric and irreversible. Meanwhile, all species showing strong strand-biased gene distribution contain symmetric cGOFs and often specific DnaE (α subunit of DNA polymerase III) isoforms. Furthermore, functional evaluations revealed that cGOF genes are hub associated with regard to cellular activities, and the stability of cGOF provides efficient indexes for scaffold orientation as demonstrated by assembling virtual and empirical genome drafts. cGOFs show species specificity, and the symmetry of multisegmental cGOFs is conserved among taxa and constrained by DNA polymerase-centric strand-biased gene distribution. The definition of species-specific cGOFs provides powerful guidance for genome assembly and other structure-based analysis.
作者:网络