CRISPRlnc数据库助力长非编码RNA相关CRISPR/Cas9研究

长非编码RNA ( long noncoding RNA, lncRNA ) 是一类长度大于200核苷酸却不编码蛋白质的非编码RNA。lncRNA含量巨大,来源广泛,种类繁多,功能复杂。近年来随着高通量基因组技术的发展,人们对lncRNA的研究兴趣急剧上升,这个领域的重要发现多次被Science杂志归入“年度十大科学发现”,在Science杂志评选的二十一世纪头十年十大科学突破中,RNA研究特别是非编码RNA研究更是被列在首位。尽管大量研究证实lncRNA在很多生物过程中发挥重要作用,但我们对lncRNA功能和机制了解得还不够深入。CRISPR/Cas9系统作为革命性的基因编辑工具在分子生物学领域得到了广泛的应用,也为深入研究lncRNA的功能和机制提供了必要的手段。使用CRISPR/Cas9进行基因编辑的第一步是设计针对靶标基因的sgRNA(single guide RNA),但是可能会有效率低或者脱靶效应等问题,而lncRNA相对于编码基因在基因组定位、行使功能方式等方面的特殊性让相应sgRNA的设计更为困难。因此收集和分析实验验证过的sgRNA对于lncRNA相关CRISPR/Cas9研究有着非常重要的意义。

通过计算机辅助的文献挖掘和人工确认,版纳植物园生物信息研究组整理收集了大量lncRNA相关CRISPR/Cas9实验数据及其相关文献,并在此基础上建立了国际上首个实验验证的lncRNA相关sgRNA数据库CRISPRlnc (http://crisprlnc.xtbg.ac.cn)。这一工作将为使用CRISPR/Cas9系统研究lncRNA的功能和机制提供有力的帮助,并为下一步针对lncRNA sgRNA探针设计的计算机辅助算法开发打下基础。在第一版CRISPRlnc数据库中共收集了包括哺乳动物、昆虫和植物多个物种在内的共计305条lncRNA基因及其对应的2102条sgRNA。对于每一条lncRNA收集了ID、序列、基因组中的位置、功能描述等信息和相应的sgRNA的ID、序列、基因组中的位置、PAM基序、CRISRP类型、活性等信息。CRISPRlnc数据库提供了浏览、搜索、下载、基因组浏览器、BLAST等功能,同时提供了详细的帮助文档。另外,通过对所收集数据的研究,CRISPRlnc数据库还对lncRNA相关sgRNA设计的位置偏好、CRISPR/Cas9功能类型等特征进行了统计分析。分析表明经实验验证的sgRNA设计位置更倾向于lncRNA基因的5′端(约占61.4%)或者上游转录调控区(约占12.6%),CRISPR/Cas9功能类型主要为CRISPR interference ( CRISPRi,约占52.1%)。

这一研究以CRISPRlnc: a manually curated database of validated sgRNAs for lncRNAs为题在线发表在国际著名学术期刊Nucleic Acids Research上(影响因子11.56,Rank 10/292)。该研究得到了国家自然科学基金面上项目和重大研究计划培育项目(31471220,91440113),云南省高端人才项目(2016HE008),中国科学院西双版纳热带植物园引进人才B类配套经费的支持。

CRISPRlnc数据库概览

;