Nature子刊:UMMS研发新基因组装配方法并成功将其应用复杂基因组
近日,美国麻省大学医学院(UMMS)的研究人员利用DNA互作频率数据,新研发出一种更快更准确的基因组装配方法。他们利用这一方法,给人类基因组的未完成区域补上了65个DNA片段。相关文章发表于2013年11月24日的《Nature Biotechnology》杂志上。
Nature子刊:UMMS研发新基因组装配方法并成功将其应用复杂基因组
Job Dekker博士及其同事通过这项研究展示,测定dna片段间的相互作用频率,可以帮助人们在基因组三维结构的指引下,快速准确的组装基因组。二代测序技术生成的DNA短读段,是构建完整基因组序列的基础,而UMMS开发的这种新方法能够将这些读段更有效的拼凑起来。
“二代测序技术生成了大量的短DNA读取,这些信息对于研究者们非常宝贵,”文章资深作者,UMMS的Dr. Dekker教授说。“随着DNA读取越来越短,完整基因组的装配也变得更具挑战性。历经二十年的努力,人类基因组仍有缺口。”
在近十年来,高通量dna测序的成本大大降低,测序新基因组已成常规。二代测序技术能够轻松读取成千上万的DNA序列,但这些序列都是被随机打断的短片段,需要经由计算机程序装配成为能够互相重叠的大片段。像这样的初步装配结果,往往是一系列DNA片段,人们得通过相互比对,才能将其按正确顺序排列成为完整的基因组。
然而,基因组中有大量区域充斥着重复性序列。在这种情况下,特定DNA片段可能有数千种可能的位置,要想为其准确定位是非常困难的。“如何组装这些DNA片段,已经成为相关研究的瓶颈,”文章的第一作者,Noam Kaplan博士说。
为此,Dekker和Kaplan尝试将基因组三维结构作为组装线性DNA序列的指引。他们通过Hi-C技术,测定了基因组各DNA片段之间的相互作用频率。在基因组的三维结构中,距离较近的DNA序列互作更为频繁,而距离较远的DNA序列互作较少。随后研究人员通过计算机,在3D互作频率的基础上进行计算,以确定基因组各个片段的线性位置。
举例来说,从一维的线性基因组来看,一个序列也许能放在好几个不同的位置。而互作频率数据,可以确定该序列与其它序列的关系,即它与其它序列是近还是远。“当特定序列有多个可能的位置时,我们能够从三维上确定它在哪里更加合适,”Dr. Kaplan说。Kaplan和Dekker用这一新方法,确定了65个此前未能定位的片段位置。
Dekker补充道,“与现有方法相比,这一基因组装配的新方法更快速也更简单,能生成更高质量的基因组序列。此外,这一方法还有望用于鉴定癌症的标志性染色体畸变。”
原文摘要:
High-throughput genome scaffolding from in vivoDNA interaction frequency
Noam Kaplan & Job Dekker
Despite advances in DNA sequencing technology, assembly of complex genomes remains a major challenge, particularly for genomes sequenced using short reads, which yield highly fragmented assemblies. Here we show that genome-wide in vivo chromatin interaction frequency data, which are measurable with chromosome conformation capture–based experiments, can be used as genomic distance proxies to accurately position individual contigs without requiring any sequence overlap. We also use these data to construct approximate genome scaffolds de novo. Applying our approach to incomplete regions of the human genome, we predict the positions of 65 previously unplaced contigs, in agreement with alternative methods in 26/31 cases attempted in common. Our approach can theoretically bridge any gap size and should be applicable to any species for which global chromatin interaction data can be generated.