Nature Methods:中山大学中山眼科中心团队发表三代测序计算方法

9月18日,中山大学中山眼科中心谢志、肖传乐、谢尚潜,以及中山大学数据科学与计算机学院陈颖和克莱姆森大学罗峰等学者,在 Nature Methods 在线发表了三代基因组测序数据计算方法,文章题目为“MECAT: fast mapping, error correction, de novo assembly tool for single-molecule sequencing reads”。这项合作研究的计算方法解决了该领域的关键技术难题。

以 PacBio 和 Oxford Nanopore 公司为代表的三代测序技术能够产生远远长于二代测序技术的基因组序列读长,并且实现在单分子水平进行基因测序,在动植物的基因组组装、基因组结构变异,DNA 修饰检测、全长转录本测序中广泛应用。然而,三代测序数据高测序错误率 (12-15%) 给三代测序基因组数据分析带来了巨大的挑战,尤其在长序列局部序列比对和序列错误碱基校正过程中消耗大量的计算时间和资源,严重影响了三代测序技术的应用和发展。

针对三代测序基因组分析耗时的问题,项目负责人谢志和主要完成人肖传乐等研究人员提出了基于全局种子投票打分的候选匹配序列评估方法,该方法可以大幅降低三代测序序列比对,校正和组装的计算资源消耗,从而大幅提高计算效率;并将上述方法开发完成了三代测序组装系统 MECAT。

首先,为了减少局部序列比对的候选区域,MECAT 建立了快速测量两个序列编辑距离的序列差异因子和全局种子投票打分的计算模型。该模型中两个序列全局种子得分与重叠长度成线性相关的重要特征,使两序列重叠区域的长度可以通过种子全局得分进行评估。全局种子得分模型不仅能获得候选局部比对所需要两序列的准确起始比对位置,同时首次实现非局部序列比对的两两序列比对过程,从而大幅节约了三代测序两两比对的计算时间。目前,MECAT 在人类基因组上的两两比对时间比目前主流软件快17倍。

其次,在三代测序基因组组装另一耗时的序列校正步骤中,MECAT 通过优选一定最高得分的候选匹配序列进行局部序列比对,大幅降低进入局部序列比对过程的候选序列数量,从而大幅提高三代测序序列校正时间。MECAT 的序列校正速度是目前软件的7-8倍。

总的来说,集成三代测序序列比对,校正和组装为一体的 MECAT 系统,与目前的三代测序计算软件比具有明显的优势,尤其是人类基因组的组装速度是同类软件(Canu 和 FALCON)17-23倍,并首次在单个服务器上实现了人类基因组组装工作。MECAT 大幅降低了三代测序计算硬件平台要求,从而加速了三代测序的发展和应用。

MECAT 的研究和开发得到了中山大学中山眼科中心五个五计划以及中山大学精准医学培育项目的支持。

本文来源于:测序中国

欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ

;