Nature | 基因组的黑暗面

15年前,在科学家庆祝人类基因组序列的第一稿完成时,他们预测人类将有25,000到40,000个基因是编码蛋白的。但事实上,仅有19,000这样的基因,占到总基因组的1—2%。解释人类复杂性的关键在于弄清楚这少数的基因是怎样被成为基因组暗物质的其他99%的基因所调控的。

通过类似ENCODE这样的大型项目,我们证实了大量的调控序列的存在,通过研究者猜测的方式影响基因的表达。而通过了解这类蛋白编码基因之外的调控基因组,科学家们希望能够给疾病的治疗提供新的方向。

The human genome is not packed with \&\#39\;junk\&\#39\; as previously thought, but with regulatory regions that modulate gene activity.

PICTURE From Mehau Kulyk/SPL

“毫不夸张地说,ENCODE计划的重要性与最初的基因组DNA测序一样重要。”来自加州大学圣地亚哥分校的Bing Ren教授说道。他的团队也是ENCODE项目的一员。同时他也是名为 Roadmap Epigenomics Project的另一项计划的参与者。这两项计划都是以破解调节元件为目标的由NIH资助的大型项目。目前为止,结果显示有成千上万的比编码蛋白的基因更多的序列负责调控。

尽管科学家们已经有了像CRISPR–Cas9这样方便的工具,但是这依然是一项艰苦卓绝的工作。3百万个调控区域,包含着150万的转录因子结合位点。大约有15万的位点在任意给定的细胞中被激活。这项工作关系着我们对疾病的了解,因为大多数的单个核苷酸的改变都发生在蛋白编码区以外。某些促使基因表达的调控元件被认为与肿瘤的发生有关。破坏一个基因的调控元件,带来的影响与破坏这个基因本身一样严重。

现今为止,科学家通过上述两个项目已经获得了大量的信息,但是最直接的证据依然来自功能测试。对于编码基因来说,只要简单地将其敲出并观察后果就行了。但是对于非编码的基因组来说却不那么容易,因为它们在基因组中总是含有大量的重复片段,仅仅删除一个拷贝,不足以产生明显的变化。CRISPR–Cas9技术正帮助科学家利用高通量的方式攻克这一难关,通过引导RNA库高通量地锁定基因组的不同区域从而观测结果。这一技术的优越性不仅是加快了速度,同时也因为它能够直接应用在人类细胞上。

Adapted from E. Khurana et al. Nature Rev. Genet.17, 93–108 (2016).

但CRISPR–Cas9也有它的局限性,如果把基因组誊写成书的话,它将有3套列夫托尔斯泰的名著《战争与和平》那么厚,而CRISPR–Cas9筛选的覆盖范围还不到一页。

“短期来说,CRISPR–Cas9仍将是研究这一领域的最重要手段,或许哪天我们获得了足够多的信息,能够将其变成有学习能力的机械操作,利用计算机手段,从而提高它的功能。”Bing Ren说道。借助计算机的技术手段正在被陆续开发应用到这一领域中来。

ENCODE预计将在2020年之前解码大多数的调控DNA。关于DNA是怎样装配进入细胞,以及他们的3D折叠是如何影响它们与调控元件相互作用的这类空间性的认知,将会是弄清楚这些调控元件怎么锁定基因的关键。展望未来,研究者们或许能够借助高分辨率的活细胞成像技术,利用特使标记实时观测基因组的变化。那么到那时,我们将不再需要任何测序了。

本文由生物360原创编译,欢迎转载。

原文链接:The dark side of the human genome

;