单分子测序技术组装出高GC含量的极地微生物基因组

基因有限公司,2012/08/29

导读:韩国极地研究所的 Park博士在极地微生物研究中为了揭示Streptomyces菌株的基因组信息(7.6Mb),利用单分子测序的PacBio RS平台对该基因组进行验证,获得平均1.5kb的长片段进行基因组组装,从而首次得到该细菌的完整基因组信息。

极地微生物是一个特殊的群体,它们生存在正常生物无法生存的环境中,对这些微生物进行研究能够揭示诸如全球气候变暖、生物进化等方面的问题。此外,这些极地微生物有着迥异于正常环境微生物群体的代谢类型,能够帮助人们寻找更加有效的抗生素,有助于发现新型的药物应用于医学领域。

如果需要进行上述研究,最好的方法是对极地微生物进行de novo测序,从根本上揭示它们的生物学信息。然而,这些极地微生物的基因组类型也有别于其他环境微生物群体,比如说极地微生物基因组中的GC含量极高(>75%),这种“极端”基因组给测序和信息解读造成了非常大的困难。

韩国极地研究所的 Park博士一直致力于极地微生物研究,为了揭示从南极乔治王子岛分离得到的Streptomyces菌株的基因组信息(7.6Mb),Park博士的研究团队首先利用illumina Hiseq 2000平台对其基因组进行测序。Streptomyces 的基因组中GC含量高达71%,即使利用Hiseq2000平台进行了200×深度的测序,仍无法获得完整的基因组,组装时产生了185 个contigs,随后使用Sanger法仍然无法有效的填补gap。

单分子测序技术在高GC含量基因组的应用

Park博士表示,用其他的短序列测序技术仍然“不可能”填补这种高GC含量的基因组gap,所以他们转而利用PacBio RS平台对该基因组进行验证。由于PacBio RS测序技术具有单分子分辨率,不引入PCR过程,没有GC偏向性,研究人员利用该技术获得了高准确度的CCS数据和平均1.5kb的长片段进行基因组组装,仅仅对基因组覆盖15×就能组装得到26个contig(减少了86%),大大降低了基因组组装的难度,而且gap也大为减小,使得他们首次获得了该细菌的完整基因组信息。

Park博士和他的团队认为PacBio的单分子实时测序技术“对高GC含量的基因组有着更好的测序能力,并且也是一项非常好的改善de novo测序和组装的新工具”

Park博士受到该技术的鼓舞,决定继续利用PacBio技术破解其他极地微生物基因组的组装难题,挑战此前“不可能完成的任务”。

延伸阅读:单分子测序升级参考基因组

现代基因组学的最大需求之一,就是得到人类和模式生物的高质量完成基因组。目前,人们利用二代测序技术对越来越多的物种(从原核生物到真核生物)进行了基因组测序,取得了许多重要的研究成果。

不过大部分物种的基因组还中存在有大量的缺口gap,就目前的数据来说,各种已测序物种的基因组中缺口gap所占的百分比从1.3%至13%不等。这是由于二代测序技术生成的片段短,而过短的测序片段无法跨越高度重复和高GC含量的基因组区域。大量的基因组空白区域中可能存在有重要的生物学功能信息,如果无法补齐这些缺口,不仅不能获得完整的基因组物理结构图,还会给基因组信息的解读造成不小的困难。目前人们主要使用步进PCR结合Sanger测序或者illumina/454 Pair-end测序数据来填充空白区域,但是这些方法费时费力,成本高,填充效率低,无法从根本上解决问题。

美国Baylor医学院的Richard Gibbs团队正在进行一项重要研究,利用单分子测序技术对模式生物的基因组草图进行升级。他们借助的正是Pacbio RS单分子测序的独特之处,这一技术无需PCR过程,能够轻松完成高GC含量片段和高度重复区域片段测序。该研究团队的目标是准确、自动化、快速且可重复的进行基因组升级,他们还专门开发了高度自动化的工具PBJelly,能够将Pacbio测序得到的长片段与基因组草图进行比对,填补或减少草图中的缺口,从而完善基因组草图。

Richard Gibbs的团队利用PacBio的长读长,对两个果蝇种(Drosophila pseudoobscura和Drosophila melanogaster,基因组缺口6.7M,占基因组大小5%)、虎皮鹦鹉(M. undulates,基因组缺口155M,占基因组大小11%)、黑子白眉猴(C.atys,基因组缺口198M,占基因组大小7%)的基因组进行了升级。他们首先利用PacBio单分子测序技术进行覆盖(深度从4.4×到24×不等),然后使用PBJelly流程进行分析。研究显示长读长数据可以大大降低基因组中的缺口数,其中D. melanogaster的基因组缺口数减少了15倍,虎皮鹦鹉和白眉猴的基因组缺口数减少了1.3至2.8倍,且这些基因组的缺口大小也减少了3-6倍。随后,研究人员对随机选择的96个缺口进行了Sanger测序,验证了这一方法的可靠性。

在这一研究中,单分子测序技术帮助研究者们获得了很好的结果,大大提高了基因组的完整性,也降低了后续实验和分析的难度,远远优于传统方法。

研究人员对于含有大基因组的脊椎动物(虎皮鹦鹉基因组大小1.2G、黑子白眉猴2.8G)只进行了低深度的测序(4.4-6.8×)就能较好的改善其基因组完整性,说明PacBio测序技术在大型基因组组装领域具有强大的功能和应用潜力。

该项目还在继续进行中,研究人员将会不断的改进组装方法,提高基因组缺口的填补效率。目前,他们正在用这一方法对灵长类动物的基因组进行升级。

;