ENCODE计划:10年遗传学(包括基因组学)实质性的突破
ENCODE计划(ENCyclopedia Of DNA Elements)又称人类基因组DNA元件百科全书计划,是2003年在人类基因组计划完成之后紧接着的又一个大型国际科研项目。我们可以认为ENCODE计划是人类基因组计划的后续。
ENCODE计划推出的背景是人类基因组计划耗时十几年唯一的成就就是得到了人类基因组99%左右的DNA序列,而已知的序列并没有帮助我们解决很多基因组学存在的问题。
从简单的ATCG序列出发,我们想要知道的还有很多很多,最直接的一个问题就是那些序列是怎么划分的成一个一个基因和调控序列的,它们分别有什么功能,基因组中是不是还有很多我们不知道的元件。这就是ENCODE计划要回答的问题,比基因组计划要难得多。
基于当时对人类基因组计划的认识以及研究手段和经费的有限,科学家们又提出了modENCODE计划,也就是模式生物基因组DNA元件百科全书计划。这里的模式生物主要包括了秀丽隐杆线虫、果蝇和小鼠。由于在遗传学等其他传统领域,人们对模式生物的了解更深,并且模式生物的基因组更小或者更简单,modENCODE计划使用更少的资源投入来给ENCODE”打头阵“。
整整10年之后,2012年下半年,ENCODE项目基本结题。《自然》杂志的9月6日出了ENCODE计划的专刊,刊登了具有代表性的多篇论文。后续刊登在各大国际期刊的ENCODE计划资助的科研论文不下百篇。
这十年的研究揭示了人类基因组的冰山一角,得出了很多令人吃惊的结论。
例如,我们早就知道人类基因组只有不到2%的序列编码蛋白质,10年以前我们认为基因组剩余的序列大多是进化过程中产生的”垃圾“。但是这解释不了为什么人类全部编码蛋白的基因和黑猩猩只有不到1%的差别却造就了两个截然不同的物种。
ENCODE计划的相关研究用事实证明人类基因组剩余的”垃圾“序列至少80%其实是有功能的,其中包括了大量的非编码rna和转座子,这在秀丽隐杆线虫和果蝇等低等生物中是不存在的现象。
大量的非编码RNA的发现提示我们这些不翻译成为蛋白质的RNA分子可能有着比翻译成蛋白质的小部分RNA更重要的地位,他们可能参与或主导了极其复杂的调控,最后决定人类大量表达这个蛋白而黑猩猩大量表达另一个蛋白。而大量转座子的发现提示其实我们身体的每一个细胞的基因组在我们一生中一直在变化,并不是固定的,细胞彼此之间可能就有着不同的动态基因组,而这有什么巨大的意义,谁都还不知道。
科学界普遍的认识是,ENCODE的这个”结题“只是项目经费层次的。而从科学角度,这只是阶段性甚至是初步成果。你可以理解为十年间,ENCODE计划只是差不多完成了这本百科全书封面、目录和提纲。
专刊链接:http://www.nature.com/nature/journal/v489/n7414/index.html
自然杂志的ENCODE专题网站:http://www.nature.com/encode/
作者:Snail