PeerJ:中美合作在三代基因测序软件领域再次取得重要突破

摘要 : 近日,国际期刊《PeerJ》在线发表了中国科学院昆明动物研究所马占山研究员与美国马里兰大学叶承曦博士在基因测序领域的合作再次取得重要突破。

近日,国际期刊《PeerJ》在线发表了中国科学院昆明动物研究所马占山研究员与美国马里兰大学叶承曦博士在基因测序领域的合作再次取得重要突破。研究团队近日正式发布了一款代号为 Sparc 的软件(软件试用下载网址: https://sourceforge.net/projects/sparc-consensus/ ,研究针对第三代基因测序仪硬件错误率高达15%-40%的现实,该团队研发出了一套“线性复杂度”(复杂性最低)的算法,Sparc软件即基于该新算法完成。综合测试显示:采用测序深度仅为30x的三代基因测序数据,Sparc取得组装共识(Consensus) 时错误率低于0.5%;同时与目前最优秀的同类软件相比,Sparc可节省计算时间和内存达80%。这一重要突破为推进基因测序技术迈向三代技术的产业升级提供了又一关键软件技术。

Sparc是马占山研究员2011年回国后该团队在基因测序领域所研发公布的第三款重要软件。2011-2012年发布的SparseAssembler-I 和II系为第二代测序技术所设计,软件公布后不久, 华大基因旗舰软件 SoapDenovo即采用SparseAssembler的核心算法Sparse k-mer 而公布了自身软件的升级版(SoapDenovo-II)。2014年发布的DBG2OLC为新兴的三代测序技术(单分子测序)设计。此两款软件目前在各自所处的二代和三代测序技术领域其性能仍处于国际先进水平。此次发布的Sparc软件旨在解决三代测序超高错误率的硬件技术难题。事实上,三代测序的错误率在15%-40%, 而已经占领测序市场主流近10年的二代测序技术其错误率则低于1%。正是由于这一测序错误率的巨大差异,以及二代测序仪制造商的市场份额优势,使得三代测序技术目前远未发挥出其独特的科学和技术优势。Sparc软件能够有效弥补三代测序技术硬件超高错误率这一“硬伤”,应该能够大幅度提高三代技术的市场竞争能力,为迎接基因测序产业升级奠定优良的技术基础。另外,Sparc 算法应用范围不止于基因组装技术;事实上,基因组学中诸多涉及纠错(Error-correction)和变异检测(Variant discovery)的技术都可受益于Sparc算法的线性复杂度优势。

基因测序技术使得人类在本世纪初完成了对自身遗传密码蓝本的解读,其划时代意义可能不亚于阿波罗登月计划。而测序技术在人类基因组计划中的地位,则类似于运载火箭技术在探月工程中所起的作用。测序技术在经过30余年的研发后目前处于第二代与第三代交替的前夜。Sparc 团队历经五年的努力,所研发的三款软件SparseAssembler, DBG2OLC, Sparc的性能目前均处于国际先进或领先行列。而DBG2OLC 和 Sparc所开发的算法解决了最新三代技术最为复杂的关键技术难题;在测序硬件技术出现更新一代技术之前,这一领域软件的发展已经超越了硬件技术的需求。特别是最新Sparc算法的“线性复杂度”意味着该问题最高效率级别的算法已经找到,未来要想取得类似DBG2OLC或SparseAssembler所取得的千倍、或数十倍计算效率的改进已经不太可能。为此,Sparc合作团队已经将软件研发转向人体微生物菌群(包括肠道菌群)分析、以及人工智能技术(特别是“深度神经网络学习”)。其中“菌群宏基因医学生态与网络大数据分析系统”包含了昆明动物研究所“计算生物与医学生态学实验室”自主研发的近20项分析技术,诸多技术的专利申请正在进行中;软件系统预计2017-2018年间能够正式对外公布。

原文链接:

Sparc: a sparsity-based consensus algorithm for long erroneous sequencing reads

原文摘要:

Motivation. The third generation sequencing (3GS) technology generates long sequences of thousands of bases. However, its current error rates are estimated in the range of 15–40%, significantly higher than those of the prevalent next generation sequencing (NGS) technologies (less than 1%). Fundamental BioInformatics tasks such as de novo genome assembly and variant calling require high-quality sequences that need to be extracted from these long but erroneous 3GS sequences.

Results. We describe a versatile and efficient linear complexity consensus algorithm Sparc to facilitate de novo genome assembly. Sparc builds a sparse k-mer graph using a collection of sequences from a targeted genomic region. The heaviest path which approximates the most likely genome sequence is searched through a sparsity-induced reweighted graph as the consensus sequence. Sparc supports using NGS and 3GS data together, which leads to significant improvements in both cost efficiency and computational efficiency. Experiments with Sparc show that our algorithm can efficiently provide high-quality consensus sequences using both PacBio and Oxford Nanopore sequencing technologies. With only 30× PacBio data, Sparc can reach a consensus with error rate <0.5%. With the more challenging Oxford Nanopore data, Sparc can also achieve similar error rate when combined with NGS data. Compared with the existing approaches, Sparc calculates the consensus with higher accuracy, and uses approximately 80% less memory and time.

doi:10.7717/peerj.2016

作者:马占山、叶承曦

;