纳米孔测序仪MinIon完成真菌基因组的组装


荷兰农业生物技术公司KeyGene仅仅利用Oxford Nanopore公司的纳米孔测序仪MinIon产生的reads,对真菌立枯丝核菌(Rhizoctonia solani)的基因组进行组装,得到大小为54 Mb的基因组序列。R. solani是一种农业害虫,许多重要的经济作物,例如玉米、水稻和大豆,都会感染该真菌并患病。

研究者利用read长度优化方法,确保能够产生高度连续的组装,组装长度长于之前使用短read测序方法得到的结果,但是这种基于纳米孔测序组装的结果具有更高的错误率。

具体来讲,他们通过长度筛选方法,去除R. solani样本中的小片段DNA,仅保留高分子量DNA ,来使read长度最大化。通过这种方法,得到了三个长片段的纳米孔测序文库:两个文库用随机剪切的DNA制备,平均片段长度分别为12.5 kb和18.8 kb,第三个文库为完整的基因组DNA。

接下来利用Oxford Nanopore公司的纳米孔测序仪MinIon对这三个文库进行测序,产生了近77,800个2D的reads,共计834 Mb的数据,平均read长度为10.7 kb。大部分的长read来自未剪切的文库。

然后利用canu组装软件,将这些reads组装成606个contig,大小为54 Mb,contig N50为199 kb。

这个新的组装序列是最连续的R. solani组装序列,也是仅由纳米孔测序reads组装完成的最大基因组。研究者指出,该纳米孔测序组装的contig N50是以前报道的基于短read组装的 R. solani 的28倍。

研究人员将该纳米孔测序reads的组装结果与Illumin的MiSeq双端测序(paired-end)的结果进行了比较。MiSeq测序产生了1390万个合并的read-pairs,平均片段长度为360 bp,组装得到123,016个contigs,总长度为71 Mb,contig N50为1029 bp。

如果假设MiSeq数据是完美的,以它为标准,那么纳米孔测序组装的错误率为:每2186个碱基中有1个碱基置换错误,每700个碱基中有1个插入错误,每297个碱基中有1个缺失错误。

虽然该纳米孔测序组装的错误率比预期的要高,但研究者期望纳米孔测序技术和试剂的升级优化会解决这个问题。他们计划利用高分子量DNA片段和PromethIon测序仪的通量,来处理具有高重复性的植物基因组。

参考文献:The megabase-sized fungal genome of Rhizoctonia solani assembled from nanopore reads only. doi: http://dx.doi.org/10.1101/084772

;