快速获得完美装配细菌基因组
生物通,2012-08-06
精确的基因组参照序列对微生物研究者来说具有很高的价值。因此,研究人员进行了经年累月的繁复实验和复杂的计算,迄今已完成了约1800种细菌的基因组装配。日前,美国哈佛-麻省理工博德研究所的研究人员应用新方法,结合了shotgun鸟枪法全基因组测序、单分子测序和自动化计算软件,对16个细菌样本进行了高质量的基因组装配,得到了品质卓越的完成基因组。这一方法极大的减少了完成基因组装配所花费的时间和经费。该文章发表在Genome Research杂志上。
尽可能精确的了解基因组信息对于微生物学研究有着基础性的意义。使用大规模平行测序的短读序数据进行de novo从头装配,这在过去曾被认为是不可能完成的任务,而现在终于可以借助新兴技术得以实现。自动化标准测序方法所生成的基因组装配具有优良的品质,在某些情况下辅以少量的人工实验,就能够得到近乎完成的基因组。然而不论是在Sanger测序的年代还是在目前的短读序时代,大多数基因组装配都存在诸多错误和缺口。重要的是,基因组装配最困难(快速进化)的区域常常缺失或者产生错误。幸运的是,细菌的基因组很小(一般2-6Mb),因此在许多情况下都能够通过额外的工作进行校正。目前,通过测序结合人工实验和计算程序,有1800种细菌的基因组装配已经完成。不过此前的方法即繁复耗时又很昂贵,对快速经济的新基因组装配方法的需求依然很大。
为此,博德研究所开发了应用特殊算法的ALLPATHS-LG软件,对shotgun全基因组测序数据进行装配。该方法结合了Illumina和Pacific Biosciences测序仪各自的技术优势,将其生成的三种数据类型进行了混合。这些数据具有互补性,在理论上具有精确装配整个基因组的能力。并且这一方法和数据处理基本都是自动化的,最大程度的减少了时间和经费的消耗。
该方法采用的数据是Illumina生成的短读序片段、Pacific Biosciences生成的长读序和Illumina生成的jumping pairs数据。这些数据可以互相取长补短,Illumina技术在测序时由于样品制备环节的扩增偏好会导致某些区域的覆盖度不足或缺失,而Pacific Biosciences的单分子测序技术不需要进行扩增,可以很好的覆盖上述区域。同时碱基读取精确度高的Illumina数据也弥补了Pacific Biosciences数据的不足。研究中用于生成jumping pairs的片段大小范围很广,能够覆盖相当长的距离(5 kb以上),这样做牺牲了一定的精确度。不过,Pacific Biosciences单分子测序的读取对于中等距离很有效,弥补了这一缺陷。
研究人员充分利用了三种数据的优势,结合精确度、偏好性和分辨率开发了新的装配算法。他们首先将短读序进行校正,应用精确度高的短读序进行装配,随后再用长读序和jumping pairs填补其中的缺口。这一过程的算法被整合入ALLPATHS-LG软件,输入长读序数据后该模块会自动启动。
这种方法产生的装配能够兼容位点模糊性local ambiguities,允许装配的位点中存在两种或两种以上的可能。这种模糊性可能是测序的系统性误差产生的,也有可能是由装配难以区分的重复拷贝引起的,或者是因为DNA样本中确实存在混合性位点。原核生物在培养过程中的突变,以及真核细胞基因组中的等位基因多态性都可能造成这一现象。
研究人员应用这一新方法,对16种细菌样本进行了基因组装配,其中有三种细菌的基因组是已完成的,可作为研究的参照序列。作为参考序列的三种细菌分别是大肠杆菌E. coli、肺炎链球菌S. pneumoniae和类球红细菌R. sphaeroides。这些菌种基因组的GC含量范围很广,从27%到69%,可以反映不同GC含量下装配策略的有效性。
研究人员发现装配的结果与参照序列存在差异,要正确评价装配的质量就必须解读这些差异。在早前发表的文章中,研究人员曾对E. coli参照序列进行了6处校正,对R.sphaeroides参照序列进行了374处校正。在本研究中,研究人员通过PCR、Sanger测序等方法进行验证,进一步校正了参照序列,其中E. coli校正1处,R. sphaeroides校正32处。研究人员还获取了生成S. pneumoniae参照序列的原始读序数据,使他们得以对参照序列的原始测序数据和新读序数据进行综合性的差异分析,当然这种差异也可能是由两个样品真实序列的不同所引起的。因为无法得到生成参考序列的原始DNA样本,研究人员还不能完全解释这种差异,不过他们评估了参考序列的错误率。S. pneumoniae参考序列和新数据中存在63处差异,研究人员经过验证发现,其中60处都是新方法的检出正确。其余的三处,新旧两种结果都可以说是正确的,这可能是样品自身带来的差异。
利用新方法, E. coli参考基因组的装配生成了一个环形重叠群contig,基本确定了所有碱基(除一个碱基以外)。R. sphaeroides基因组装配成两个染色体,五个质粒,形成11个重叠群。而S. pneumoniae的基因组装配也形成了一个环形重叠群,其中存在6个模糊微点,没有错误。这样的装配结果非常完美,首先三种参照样本的基因组装配结果都没有缺口,其次形成的重叠群都是基本完整的染色体(或质粒),此外装配结果的总体精确度比参考序列高。
研究人员随后很自然的想到,所用到的三种数据类型是否还可以进行精简。他们进行了相应的研究,发现对算法进行充分改进后,可以不用到短读序数据,因为jumping读取就能提供高质量的覆盖度。但去除长片段读序数据则会对装配结果造成严重的影响,因此长读序数据不可或缺。
除了生成更长读序之外,改进实验技术也能够提高基因组装配的质量,例如进一步减少扩增偏好。这对于一些GC含量特别高或特别低的病原体尤为重要,例如结合分支杆菌Mycobacterium tuberculosis (高GC) 和恶性疟原虫Plasmodium falciparum (低GC)。通过优化DNA提取方案和jumping文库建立步骤,也可以提高jumping文库衔接长重复片段的能力。
研究人员还强调,本文中的方法是为可培养菌株DNA设计的,细菌可以从单个细胞繁殖成为一个菌落,这对于基因组装配是一个挑战。博德研究所的这种全自动化一键式新方法,对所有细菌样品都适用默认参数,并且能达到极高的精确度。目前该方法仅用于细菌基因组,要装配更大的基因组需要对算法进行相应变动。
完美的细菌基因组装配非常重要,因为基因缺失、装配错误或者碱基错误等会导致人们对测序生物得出错误的生物学和进化史结论。早期对细菌基因组进行测序,需要耗费极大的精力和资源才能得到完整的环形基因组。随着越来越快的新测序技术的出现,人们为了追求速度和低成本,往往牺牲了基因组装配的完美性。现在人们的确可以很快装配出基因组草图,但这离完美的基因组装配还差的很远。博德研究所开发的新方法基于快速测序技术和新的装配方式,得出的装配结果比已完成的参考基因组序列更好,这种方法即低廉又快速,费用比从前降低了一个数量级。
博德研究所的研究人员以相对较低的成本,快速装配出了近乎完美的细菌完成基因组。通过这一新方法,任何有测序数据和计算机的研究者都能生成高质量的基因组装配,这对于细菌基因组研究非常关键。举例来说,这一技术可以应用于细菌传染病学,为人们提供精确的信息,来追踪致病菌的毒力和抗性在细菌群体中的出现和传播。研究人员总结道,基因组装配的完美化对许多领域都非常重要,随着未来技术的发展,长读序错误率的减少会使基因组装配更加容易。
编者按:此前2012年7月1日的Nature Biotechnology杂志上曾刊登了冷泉港实验室(CSHL)研究人员的文章,他们开发了混合错误校正方法,先将短读序定位到Pacific Biosciences的长读序上,再进行装配。这种方法不仅极大地提高了准确性,同样也能用于装配高质量的完成基因组。 (生物通编辑:叶予)