山东栒子全长转录组测序数据组装及功能注释

山东栒子是中国山东省的特有种,现已处于极度濒危状态。目前,山东栒子的分子生物学研究较少,基因数据库资源极度缺乏,急需探究其生物学遗传信息,以加快对山东栒子的保护遗传学工作。本研究以山东栒子叶片、花、成熟果实为实验材料,利用 PacBio Sequel 测序平台对其转录组进行全长转录组测序。共得到高质量去冗余的转录本 53 932 个,作为最终转录本序列。预测到的 CDS 区共 52 490 个;对其 SSR 位点进行分析,对测序得到 Unigenes 进行单核苷酸至六核苷酸重复的 SSR 位点搜索,共搜索到 26 796 个 SSR 位点。对非冗余转录本利用 BLAST 软件与 NR、Swissprot、GO、COG、KOG、KEGG 6 个数据库进行比对,一共成功注释了 53 319 个 Unigenes,其中与 NR 数据库进行比对中注释为苹果的的相关基因数量最多,其次是白梨和桃;在 GO 数据库中有 33 305 条山东栒子 Unigenes 被注释分类,由生物学过程、细胞成分和分子功能三部分组成;在与 COG 数据库比对中,共有 23 910 条比对到了同源序列,且一共被分为 25 类;在与 KEGG数据库的一系列比对中,可将 Unigenes 映射到 126 条代谢通路中。本研究在高通量全长转录组水平对山东栒子进行了系统研究,这为进一步开展山东栒子的分子标记开发和挖掘优良基因提供了科学依据,从而推动山东栒子的保护与利用。

;