Nature Genetics:破译长非编码RNA暗码


北卡罗莱纳大学的科学家们开发了一种强大的方法来研究神秘的长非编码RNA(long non-coding RNAs,lncRNAs),这些分子在癌症等其他严重疾病中扮演重要角色。

到目前为止,科学家们还没有合适的方法来鉴定人类细胞中数万种不同lncRNAs的功能和角色,而今天我们描述的几百个lncRNAs好比巨大冰山的一角。

北卡罗莱纳大学的科学家们在《Nature Genetics》发文,报道了一种隐藏的密码,这种密码将lncRNAs的分子组成与其实际作用联系起来,并为其他研究人员开发了一种算法,根据潜在功能对lncRNAs进行快速分类。

“长非编码RNA是基因组‘暗物质’的组成部分,我们开发这个工具的目的是帮助更好地理解它们在健康和疾病中的工作原理,”文章通讯作者药理学助理教授Mauro Calabrese博士说。

动植物的遗传信息储存在DNA中,细胞通过将DNA转录成紧密相关的分子(即RNA)来使用遗传信息。许多RNA被继续翻译成蛋白质,近几十年来,科学家们不得不思考这样一个事实:只有不到2%的基因组是如此使用的。大部分DNA被转录为不编码蛋白质的RNA,这些RNA被称为非编码RNA,长度超过200个核苷酸的被归类为长非编码RNA(lncRNAs)。

它们中的许多与蛋白或其他分子结合以打开或关闭基因,从而调节细胞进程。其中,最有名的是Xist,对女性正常发育有很重要的作用。另一种名为MALAT,关系到更具侵袭性和转移性的癌症。总的来说,生物学家确信,许多lncRNAs都具有重要的调节功能,受损可能会有助于疾病。然而,迄今为止,人们只表征了哺乳动物细胞中数千种不同lncRNAs中一小部分的功能。

挑战来自你无法透过它们的核苷酸组装序列来预测它们的功能,通常,具有相似功能的lncRNAs似乎具有非常不同的序列。

Calabrese和他的研究小组,包括第一作者Jessime Kirk和文理学院的数学和应用物理学教授Peter Mucha博士等人,试图破译lncRNAs序列和功能之间的黑暗密码。

他们从两个关键线索开始:首先,有证据表明,lncRNAs主要通过与蛋白质结合起作用;第二,RNAs利用短序列将其全部结构与蛋白质相连通。

“我们推断,在lncRNAs中,相比其他位点,蛋白质结合序列更为重要,”Calabrese说。“这一观点最终被证明是正确的。”

研究小组开发了一种基于计算机的方法(名为SEEKR)来发现和比较lncRNAs中被他们称为“k-mer”的蛋白结合序列,但是并不理会k-mer在整条lncRNAs中的精确定位。

研究小组发现,基于人类和小鼠lncRNAs的k-mer含量是相似的,大约一半的人类和小鼠lncRNAs可以被分类为五个不同群体。基于k-mer的分类方法还可预测lncRNAs在细胞中的常见位置,以及它们通常与哪种蛋白质相结合。

令人惊讶的是,研究小组发现,根据k-mer 含量划分的群体在物种间高度相似。人类和小鼠的lncRNAs群体彼此类似,许多哺乳动物lncRNAs群体即使在远亲动物中也有明显的对应物。一种哺乳动物lncRNA群体作为一类名为HOTTIP的lncRNA代表,在其他脊椎动物中,甚至海胆中也存在表亲lncRNA群体。

“就k-mer含量来说,人类lncRNAs子集可能类似于进化上更遥远的物种,而不是其他人类lncRNAs,”Calabrese说。“这支持了一个观点,即尽管缺乏明确的线性序列相似性,lncRNAs在不同生物体内具有相似的功能。”

最后,研究人员利用完全人工合成的lncRNAs(含有Xist的k-mer),并且分子整体序列不同于任何已知的lncRNAs,再将其置于SEEKR算法,并进行简单的体外试管测试,都表明这种人工lncRNAs的预期功能具有Xist样活性。

现在他们希望利用基于k-mer的方法来指导癌症lncRNAs研究,还期望改进这种方法更好地从序列信息预测lncRNAs功能。

“我们的基因组产生了如此多的lncRNAs,现在我们可以通过观察这些分子的序列来预测哪些分子在我们的细胞中起重要作用,”Calabrese说。

参考资料:

Functional classification of long non-coding RNAs by k-mer content


免责声明:基因测序产业网转载文章出于传递产业信息之目的,且明确注明来源,如有侵权请联系删除。本平台对转载文章保持中立,不对所包含内容的准确性、可靠性或完整性提供明示或暗示保证,仅作参考。

;