Genome Biology:中科院北京生科院赵方庆研究组提出编码基因重建新

摘要 : 2016年11月,国际著名学术期刊《Genome Biology》在线发表了中国科学院北京生命科学研究院计算基因组学实验室研究员赵方庆团队题为A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes 的最新研究成果。

2016年11月,国际著名学术期刊《genome biology》在线发表了中国科学院北京生命科学研究院计算基因组学实验室研究员赵方庆团队题为A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes 的最新研究成果。该研究提出一种基于密码子de Bruijn图的新算法,使用非拼接策略直接对转录组测序数据进行编码基因识别和重建,解决了编码基因识别效率低且不完整的难题,该方法在非模式生物的进化基因组研究领域具有很大的应用前景。赵方庆课题组的博士研究生彭公信和冀培丰为论文共同第一作者,赵方庆研究员为论文通讯作者。

近年来,高性能计算技术和高通量测序技术的快速发展促进了大量基因组测序计划的实施完成,从而获得了海量的生物组学数据。面对转录组数据,科学家们的首要任务是获得它们的编码基因信息。传统的基因识别工具主要依赖于rna-seq组装软件得到的转录本进行基因鉴定。这些工具的缺点之一是组装软件对测序错误高度敏感并且不能有效处理重复序列区域,因此导致在此基础上进行基因识别会产生大量高度冗余和片段化的基因序列。此外,这些工具需要过度依赖同源基因数据库或参考基因组,不能有效地应用于非模式物种的转录组数据的基因识别。因此,一种基于转录组数据重建编码基因的新算法亟待开发。

赵方庆团队针对转录组数据分析中的编码基因识别问题,开发了一种基于密码子de Bruijn图的新算法inGAP-CDG。该方法不依赖于参考基因组,直接从未拼接的转录组测序数据中进行基因识别。通过使用模拟数据集和公共数据库的真实转录组测序数据,他们对预测基因的长度、灵敏度、冗余度、错误率和杂合度进行了系统性的评估。与其它方法相比,inGAP-CDG构建出的编码基因序列具有长度更长、冗余度更低和特异度更高的优势。该研究为基因识别提供了新的思路和方法,进而对此后的系统发育和功能基因组学研究具有重要的应用价值。inGAP-CDG已公开发布在免费的开源网站SourceForge上(https://sourceforge.net/projects/ingap-cdg/),以方便相关研究者下载使用。


基于转录组数据(左)和基因组数据(右)的de Bruijn图

原文链接:

A novel codon-based de Bruijn graph algorithm for GENE construction from unassembled transcriptomes

原文摘要:

Most gene prediction methods detect coding sequences from transcriptome asseMBLies in the absence of closely related reference genomes. Such methods are of limited application due to high transcript fragmentation and extensive assembly errors, which may lead to redundant or false coding sequence predictions. We present inGAP-CDG, which can construct full-length and non-redundant coding sequences from unassembled transcriptomes by using a codon-based de Bruijn graph to simplify the assembly process and a machine learning-based approach to filter false positives. Compared with other methods, inGAP-CDG exhibits a significant increase in predicted coding sequence length and robustness to sequencing errors and varied read length.

DOI:10.1186/s13059-016-1094-x

作者:赵方庆

;