昆明动物所在三代基因测序领域取得进展

近日,中国科学院昆明动物研究所研究员张亚平和马占山领导的团队发布了以“10x Genomics测序”辅助“三代测序”的混合组装策略和软件技术。研究人员采用美国加州大学Jain等人2018年发表在Nature Biotechnology上(doi: 10.1038/nbt.4060.)的人类基因组三代测序数据进行了示范测试,结果表明,新方法能够将测序深度从Jain等所用的35倍降低至7倍,降低幅度达80%;转换成测序成本,新技术成本大约是纯三代测序的1/4。该技术发明专利已正式受理,该研究成果在线发表在Genomics上。新技术由于能够大幅度降低三代测序所需成本,从而为进一步推进测序技术从目前主流的二代技术向三代技术的产业升级再次提供了良好契机。

基因测序技术系生命科学和生物科技的核心技术之一,目前正处在从主流的二代测序技术向三代技术进行产业升级的过渡阶段。三代技术以其超长读段(最新技术可达1兆),较之以短读段取胜的二代技术具备诸多技术优势,无疑是测序技术的未来。但三代技术在与二代技术竞争中,也存在两大劣势,其一是三代测序硬件(测序仪)的碱基水平(base-pair)错误率至今仍然高达15%(二代测序错误率不到1%),其二是目前测序成本仍然居高不下。

事实上,三代测序超高错误率也使得三代测序数据的组装分析遇到了极大挑战。例如,2014年,主流的三代基因测序软件在组装人类基因组时,仅“多重比对”一步就耗时400,000个CPU小时,而且是借助了谷歌公司超级计算机集群。2014年,马占山与美国马里兰大学博士叶承羲合作发布的三代测序组装软件(DBG2OLC)将这一计算步骤减少到了大约6小时,而且是在一台普通工作站完成的。DBG2OLC使得原本需要超级计算机集群才能完成的计算可以在普通工作站上完成,目前DBG2OLC仍然是三代测序软件中运行速度最快、内存需求最少的软件和算法。2016年他们合作发布了另一款用于三代测序纠错的软件SPARC,该软件将三代测序软件技术的组装错误率降低到0.5%以下;与当时最优秀的同类软件相比,可节省计算时间和内存达80%。DBG2OLC和SPARC软件不仅有效弥补了三代测序硬件技术超高错误率的缺陷,而且也为最新的“10x技术辅助的混合三代测序”奠定了高效、可靠的算法和软件基础。此次发布的技术仍然得到了叶承羲的支持和帮助。

马占山为文章的第一作者,马占山和张亚平为文章的共同通讯作者。相关工作得到国家自然科学基金、云岭产业技术领军人才、云南省国际合作基金等的资助。

文章链接

昆明动物所在三代基因测序领域取得进展




;