昆明动物所等在三代基因测序软件研发中取得突破
中国科学院昆明动物研究所研究员马占山与美国马里兰大学博士叶承曦在基因测序领域的合作再次取得新的突破。合作团队近日正式发布了一款代号为 Sparc 的软件。针对第三代基因测序仪硬件错误率高达15%-40%的现实,该团队研发出了一套“线性复杂度”(复杂性最低)的算法,Sparc软件即基于该新算法完成。综合测试显示:采用测序深度仅为30x的三代基因测序数据,Sparc取得组装共识(Consensus) 时错误率低于0.5%;同时与目前最优秀的同类软件相比,Sparc可节省计算时间和内存达80%。这一突破为推进基因测序技术迈向三代技术的产业升级提供了又一关键软件技术。
Sparc是马占山2011年回国后该团队在基因测序领域所研发公布的第三款重要软件。2011-2012年发布的SparseAssembler-I 和II系为第二代测序技术所设计,软件公布后不久,华大基因旗舰软件SoapDenovo即采用SparseAssembler的核心算法Sparse k-mer 而公布了自身软件的升级版(SoapDenovo-II)。2014年发布的DBG2OLC为新兴的三代测序技术(单分子测序)设计。目前这两款软件的性能在各自所处的二代和三代测序技术领域仍处于国际先进水平。此次发布的Sparc软件旨在解决三代测序超高错误率的硬件技术难题。事实上,三代测序的错误率在15%-40%,而已经占领测序市场主流近10年的二代测序技术其错误率则低于1%。正是由于这一测序错误率的巨大差异,以及二代测序仪制造商的市场份额优势,使得三代测序技术目前远未发挥出其独特的科学和技术优势。Sparc软件能够有效弥补三代测序技术硬件超高错误率这一“硬伤”,大幅度提高三代技术的市场竞争能力,为迎接基因测序产业升级奠定优良的技术基础。另外,Sparc 算法应用范围不止于基因组装技术;事实上,基因组学中诸多涉及纠错(Error-correction)和变异检测(Variant discovery)的技术都可受益于Sparc算法的线性复杂度优势。
基因测序技术使得人类在本世纪初完成了对自身遗传密码蓝本的解读,其划时代意义可能不亚于阿波罗登月计划。测序技术在人类基因组计划中的地位,则类似于运载火箭技术在探月工程中所起的作用。测序技术在经过30余年的研发后目前处于第二代与第三代交替的前夜。Sparc 团队历经五年的努力,所研发的三款软件SparseAssembler,DBG2OLC,Sparc的性能目前均处于国际先进或领先行列。DBG2OLC 和 Sparc所开发的算法解决了最新三代技术最为复杂的关键技术难题;在测序硬件技术出现更新一代技术之前,这一领域软件的发展已经超越了硬件技术的需求。特别是最新Sparc算法的“线性复杂度”意味着该问题最高效率级别的算法已经找到,未来要想取得类似DBG2OLC或SparseAssembler所取得的千倍或数十倍计算效率的改进已经不太可能。为此,Sparc合作团队已经将软件研发转向人体微生物菌群(包括肠道菌群)分析以及人工智能技术(特别是“深度神经网络学习”)。其中“菌群宏基因医学生态与网络大数据分析系统”包含了昆明动物所“计算生物与医学生态学实验室”自主研发的近20项分析技术,诸多技术的专利申请正在进行中;软件系统预计2017-2018年间能够正式对外公布。
Sparc 研发获得了中科院、遗传资源与进化国家重点实验室、国家自然科学基金以及云南省高端科技人才、海外高层次人才、云岭产业领军人才以及创新团队等项目的支持。由于该研究属于计算机科学、数学和生物学的交叉领域,因此创新团队成员间的跨界合作自然起到了关键作用。
软件试用下载网址:https://sourceforge.net/projects/sparc-consensus/