GetOrganelle:细胞器基因组组装走向“自动化”

真核生物细胞器基因组主要包括线粒体和质体(包括叶绿体、白色体等)所包含的全部DNA分子,是细胞质遗传的主要载体。随着DNA测序技术出现和发展,细胞器基因序列成为了真核生物系统发育、谱系地理、杂交和物种鉴定等领域研究重要手段。测序技术的革新使得成本急剧下降,低覆盖度的全基因组测序数据可以准确地组装得到完整的细胞器基因组,保障了真核生物细胞器基因组演化研究,以及基于细胞器基因系统发育等下游研究的可靠性和可重复性。中科院西双版纳热带植物园综合保护中心生物多样性研究组郁文彬副研究员和宋钰副研究员与中科院昆植植物研究所和美国宾夕法尼亚州立大学科的合作者共同开发了一套全新的细胞器基因组组装工具GetOrganelle,实现了大规模细胞器基因组快速、准确地的“自动化”组装。相关的软件文章于2020年9月10日以题为“GetOrganelle: a fast and versatile toolkit for accurate de novo assembly of organelle genomes”正式发表在国际遗传学/生物技术权威期刊Genome Biology杂志上。金建军博士和郁文彬副研究员为该论文的并列第一作者,李德铢研究员和伊廷双研究员为该论文的通讯作者。

GetOrganelle工作流程:GetOrganelle组装细胞器基因组可以原数据reads(fastq/fq文件)开始的从头自动组装和输出基因组序列,也可以基于已组装的assembly graph (fastg/gfa文件)自动输出基因序列。从原始开始组装大致分为5个阶段(绿色箭头):(1)通过“种子”序列获得部分目标相关reads;(2)延伸reads获得所有目标相关reads;(3)对reads进行从头组装得到组装图形;(4)过滤组装图形;(5)识别细胞器组分并自动导出所有可能的细胞器基因组结构(图1)。如果从组装图形开始则直接从第四阶段开始(青色箭头)。

GetOrganelle创新点:(1)GetOrganelle采用了对reads预分群算法,比以往的“baiting and iterative mapping”策略显著加快了延伸获取目标reads的效率。(2)针对细胞器基因组的结构特性,提出了估算contigs拷贝数的算法,该算法综合了组装图信息和测序深度信息,进而实现自动输出完全的细胞器基因组序列(图2)。

GetOrganelle“自动化”组装成功率和准确性:基于50个植物物种的公开reads原数据集的测试显示,在计算资源消耗略高的情况下,GetOrganelle的默认参数的完整成环率(78%)远高于目前使用最广泛的工具NOVOPlasty的最好参数的结果(16%)。并且NOVOPlasty在K=23和K=31的情况下约20%~25%的假阳性率(错误结果谎称完整成环)(图3)。在不同参数的测试下,GetOrganelle的结果一致性优于NOVOPlasty。Read mapping进一步显示,GetOrganelle的结果准确性不仅高于NOVOPlasty,也高于基于相同reads原数据的已发表结果(图4),并发现了部分已发表质体基因组有明显组装错误。在56个动物数据和50个真菌数据测试中,GetOrganelle也获得了比NOVOPlasty更高的线粒体基因召回率。值得一提的是,在Freudenthal等 (2020) 针对主流叶绿体基因组组装工具(包括chloroExtractor、Fast-Plast、GetOrganelle、IOGA、NOVOPlasty、org.ASM等)的基准检测文章中,GetOrganelle也获得了远高于其他工具的成环率和准确性,并被推荐作为默认(组装工具)选项。

GetOrganelle相关的时间点:2016年4月,GetOrganelle的源代码于在GitHub第一次上线;2018年5月,报道GetOrganelle的第一版预印稿在bioRxiv上线;2019年1月、8月,2020年1月,GetOrganelle相关的三期培训班在中科院西双版纳热带植物园举办,全国30余所院校近100余人次参与;2020年3月,GetOrganelle快装版在Bioconda上线;2020年7月,GetOrganelle最新稳定版version 1.7.1在线,GetOrganelle动物meta-mitogenomics测试版已经上线;2020年9月,GetOrganelle的预印稿在谷歌学术搜索(Google Scholar)中已被引用超过230次(不包括GitHub链接引用)。

该研究得到中国科学院战略性先导科技专项(XDB31000000)、国家自然基金项目(31720103903,31870196)、中国科学院大科学装置开放研究项目(2017-LSFGBOWS-02),中国西南野生生物种质资源库“交叉合作团队”项目、中科院西双版纳热带植物园“一三五”突破三(2017XTBG-T03)的资助。

图1. GetOrganelle软件的工作流程图

图2. GetOrganelle的contigs拷贝数估算及基因组结构导出算法示例

图3. GetOrganelle和NOVOPlasty分别在50个公开植物数据上的四组不同参数的测试结果

图4. 基于Read mapping用50种植物的公开数据,评估并比较GetOrganelle组装质量、NOVOPlasty组装质量的和已发表的质体基因组的组装质量,统计三者在组装质量上最好(最多reads数、最高深度或者最低错误率)的样本个数

图5. 在中科院西双版纳热带植物园举办的GetOrganelle相关培训班

;