Nature Biotech:基因组装配新方法

美国麻省大学医学院(UMMS)的研究人员,利用DNA互作频率数据,开发了更快更准确的基因组装配方法,并成功将其应用于复杂的基因组。

二代测序技术生成的DNA短读段,是构建完整基因组序列的基础,而UMMS开发的这种新方法能够将这些读段更有效的拼凑起来。

JobDekker博士及其同事通过这项研究展示,测定DNA片段间的相互作用频率,可以帮助人们在基因组三维结构的指引下,快速准确的组装基因组。他们利用这一技术,给人类基因组的未完成区域补上了65个DNA片段,文章于十一月二十四日发表在NatureBiotechnology杂志上。

“二代测序技术生成了大量的短DNA读取,这些信息对于研究者们非常宝贵,”文章资深作者,UMMS的Dr.Dekker教授说。“随着DNA读取越来越短,完整基因组的装配也变得更具挑战性。历经二十年的努力,人类基因组仍有缺口。”

在近十年来,高通量DNA测序的成本大大降低,测序新基因组已成常规。二代测序技术能够轻松读取成千上万的DNA序列,但这些序列都是被随机打断的短片段,需要经由计算机程序装配成为能够互相重叠的大片段。像这样的初步装配结果,往往是一系列DNA片段,人们得通过相互比对,才能将其按正确顺序排列成为完整的基因组。

然而,基因组中有大量区域充斥着重复性序列。在这种情况下,特定DNA片段可能有数千种可能的位置,要想为其准确定位是非常困难的。“如何组装这些DNA片段,已经成为相关研究的瓶颈,”文章的第一作者,NoamKaplan博士说。

为此,Dekker和Kaplan尝试将基因组三维结构作为组装线性DNA序列的指引。他们通过Hi-C技术,测定了基因组各DNA片段之间的相互作用频率。在基因组的三维结构中,距离较近的DNA序列互作更为频繁,而距离较远的DNA序列互作较少。随后研究人员通过计算机,在3D互作频率的基础上进行计算,以确定基因组各个片段的线性位置。

举例来说,从一维的线性基因组来看,一个序列也许能放在好几个不同的位置。而互作频率数据,可以确定该序列与其它序列的关系,即它与其它序列是近还是远。“当特定序列有多个可能的位置时,我们能够从三维上确定它在哪里更加合适,”Dr.Kaplan说。Kaplan和Dekker用这一新方法,确定了65个此前未能定位的片段位置。

Dekker补充道,“与现有方法相比,这一基因组装配的新方法更快速也更简单,能生成更高质量的基因组序列。此外,这一方法还有望用于鉴定癌症的标志性染色体畸变。”

(生物通叶予)

;