基因组其实是这样转录的
在人类基因组中大约储存着两万个基因和数千个调控元件。基因编码蛋白质合成的信息,其他基因组元件负责调节基因活性和执行其他功能。所有这些DNA编码信息都需要被复杂的分子机器读取,并转换为细胞能使用的信息。
人们一般认为,读取基因就和读一个语句差不多。读取机器被多种序列引导到基因的起始位置,然后从左到右依次读取DNA,直到遇到作为句号的那个序列。这些调控序列决定着细胞何时何地以怎样的方式读取基因。
不过科学家们近来发现,细胞不仅会读取基因,也会读取许多调控元件并将其转录为RNA。更令人惊讶的是,基因起始位置可以双向读取,正向和反向都能生成信息。
在这种情况下,细胞如何知道哪些RNA需要生成蛋白质呢?基因和调控元件的读取过程是否存在差异,避免细胞产生混淆呢?Nature Genetics杂志十一月十日发表的一项新研究显示,基因和调控元件的读取过程一开始非常相似,主要差异在于RNA产物的长度和稳定性。基因生成的RNA长而稳定,能够保证蛋白质合成。调控序列生成的RNA短而且不稳定,很快会被细胞清除。
CSHL Adam Siepel教授和康奈尔大学John Lis教授共同领导的这项研究,对基因和增强子的读取过程进行了比较。研究人员发现,增强子和基因的读取模式在许多方面高度类似。“数据表明,基因和这些非基因调控序列的基本读取过程相同,”Siepel解释道。“这说明,DNA的转录起始有一个统一的模型。”
研究人员还结合了NIH ENCODE计划(DNA元件百科全书)的数据集进行分析。“我们发现,基因和增强子的转录起始模式基本上是一样的,”Siepel说。“绝大多数RNA 信息被快速靶标和降解,只有源自于基因且读取方向正确的RNA不被降解,它们将能翻译成为蛋白质。”研究团队在此基础上建立了一个数学模型,来解释稳定转录本和不稳定转录本之间的差异。Siepel指出,“稳定性很大程度上编码在DNA序列之中。”
这项工作为理解新基因的起源带来了重要的启示。“DNA在起始位点是双向读取的,只需要稍加改变,这样的位点就能够生成两个蛋白编码基因。基因组生成新基因的潜力是很大的。”Siepel说。
原文检索:
Leighton J Core, André L Martins, Charles G Danko, Colin T Waters, Adam Siepel& John T Lis. Analysis of nascent RNA identifies a unified architecture of initiation regions at mammalian promoters and enhancers. Nature Genetics, 10 November 2014; doi:10.1038/ng.3142