潜藏在沙鼠和鸟类中的暗 DNA,将挑战人们对自然选择机制的认知?

某些动物即使在基因组中隐藏了非常多的突变 DNA 的情况下仍能兴旺繁育的发现,迫使我们重新思考进化的一些基本原理。

体型肥硕的沙鼠是一种奇怪的生物。它生活在洞穴中,每天吃相当于其体重 80% 的树叶,并且不喝水。但是关于这种沙鼠更为奇异之处在于它似乎丢失了许多 DNA。

毫无疑问你一定已经听说过暗物质,一种被认为构成了宇宙的四分之一的物质。我们知道它就在那里,但我们就是无法探测到它们。在基因组中也有类似的情况。我和我的同事们把这种难以捉摸的遗传物质称为“暗 DNA” (Dark DNA )。我们对沙鼠的研究正在开始逐渐揭示它的本质。

暗 DNA 的发现是如此之新,以至于我们仍在试图弄清楚它到底有多么广泛存在,以及它是否有益于那些拥有它的物种。然而,它的特殊存在引发了一些关于遗传学和进化的基本问题。我们可能需要重新审视在分子水平上的,这样的适应是如何发生的。而更有争议的是,暗 DNA 甚至可能是进化的驱动力量。

沙鼠(Psammomy sobesus)是一种原产于北非和中东的沙漠物种,但把它放在实验室时,奇怪的事情发生了。当给予“正常”饮食——即实验室啮齿类动物的标准食物时——沙鼠往往会变得肥胖,并发展为 2 型糖尿病。这一现象于 20 世纪 60 年代被发现,并使沙鼠成为对人类营养性糖尿病有兴趣的生物学家的研究焦点。然而,在这么长时间中,为什么这些沙鼠对这种疾病如此易感的谜团仍然没有得到解答。

我的主要工作兴趣是毒蛇。不可否认,我的兴趣与沙鼠间的联系十分微弱——尽最大的努力,也只能说啮齿动物可以被看作蛇的晚餐——所以这个物种对我来说并不是一个显而易见的研究对象。但是我一直都很享受探究奥秘。我对沙鼠的了解的越多,我就越好奇。确凿的证据似乎是一种叫做 Pdx1 的基因。它编码的 Pdx1 蛋白有很多作用,包括促进胰腺发育和控制胰岛素基因的开关。

我们需要重新思考一个基因在承受多大的突变后仍能继续发挥作用

这一基因对正常生理机能至关重要,人们也已经在几乎所有脊椎动物中发现了它。然而,有趣的是,相关的遗传学研究未能在沙鼠身上发现它。但是它们有一个正常的胰腺并且能够分泌胰岛素。这没有道理。到底发生了什么?

幸运的是,我对这个悖论的痴迷恰巧与遗传学的一次变革的发生不谋而合,这使得我们有机会对其进行研究。我与华大基因在内的 9 个研究机构的 17 名研究人员进行了合作,并对整个沙鼠基因组进行了测序。更令人困惑的事情发生了,Pdx1 并不是唯一缺失的基因。事实上,在其他动物的同一条染色体上存在的一大块包含近 90 个基因的 DNA 片段,在沙鼠身上却不见了踪影。许多这样的基因,如 Pdx1,都是生存所必需的。而更重要的是,我们却发现了它们对应的 RNA 转录本(细胞作为模板制造蛋白质的基因片段的转录产物,见下图图)。但基因去哪里了?

当我们仔细检视这些 RNA 转录本时,一条重要线索逐渐显露出来。遗传密码由 4 个碱基编码组成,即 A,T,G 和 C,而令人匪夷所思的是,这些转录本序列中的 G 和 C 含量是如此之高。我们之中没有任何人见过这样的情况。但我们意识到这也许可以解释为什么对应的 DNA 片段似乎失踪了——标准测序技术并不擅长提取高 G 和 C 水平的 DNA 片段。所以我们提出用另一种不同的方法以揭示了难以捉摸的 DNA,即使用氯化铯超速离心法。这一方法将 DNA 片段在高盐浓度的溶液中快速离心(至少 4 万转每分钟)三天,以使富含 G C 碱基高密度碎片沉到管底。把这部分分离出来之后,我们尝试着对其进行单独测序。

大约 15% 的鸟类基因似乎都被忽视了

尝试最终成功了。我们发现了一个突变热点区域——一个存在大量突变的 DNA 区域,其中很多是由 A 或 T 突变为 G 或 C 碱基。例如,沙鼠 Pdx1 基因比我们所知的动物王国里的任何其他版本都含有更多的突变——这使得其编码的 Pdx1 蛋白质仅仅在一个与 DNA 结合的关键区域就有至少 15 个氨基酸不同于正常的版本。

脊椎动物在这一区域发生突变是极其罕见的。突变通常会破坏一个基因的功能,而这部分我们难以探测到的暗 DNA 中所携带的基因对于生存来说是如此重要,以至于在进化过程中它们几乎没有发生改变。然而,沙鼠的 Pdx1 基因,连同一些其他基因,在如此剧烈的突变的水平上仍能发挥作用。这一发现迫使我们重新审视我们的基因究竟能承受多大程度的改变并仍然能正常工作的观点。

Pdx1 的极端差异可能有助于解释为什么沙鼠会患上糖尿病,如果它们的 Pdx1 蛋白质没有其他动物的那么有效。这也解释了为什么 Pdx1 最初看起来似乎缺失了。但在解开 DNA 缺失之谜的过程中,我们提出了一个有趣的可能性。我们知道,标准的基因组测序在测序包含大量 G 和 C 碱基的 DNA 片段时遇到了麻烦,所以沙鼠也许不是唯一一个携带这种突变热点的物种。暗 DNA 可能暗藏在基其它基因组中。

事实上,其他 12 种的沙鼠也明显缺乏 Pdx1,这提示它们也可能拥有暗 DNA。我们现在正在进一步深入研究这个问题。更重要的是,鸟类似乎和沙鼠基因组有惊人的相似之处。迄今为止,已经测得的许多鸟类的基因组中似乎都有超过 270 个基因序列的缺失,这些基因存在于大多数其他脊椎动物的基因组中,包括一些如编码瘦素(一种调节饥饿感的激素)这样重要的基因。

然而,来自德国慕尼黑大学的 Fidel Botero Castro 和他的同事们的最新研究表明,鸟类确实会制造这些“缺失”基因的 RNA 转录本。更重要的是,这些序列的 G 和 C 碱基水平非常高。这听起来是不是很熟悉?事实上,研究人员估计,在以前的研究中,大约 15% 的鸟类基因都被忽略了。

这暗示着暗 DNA 的存在可能相当普遍。如果是这样的话,我们可能不得不重新思考一些关于基因组如何进化的观点。通过比较过去十年中被测序的成千上万个基因组(参见“破译生命密码”),生物学家正试图找出哪些基因在某些谱系中丢失了,哪些新基因已经诞生了。这有助于他们了解是什么造就了不同的生物种群间的差异,以及基因在分子水平上的适应是如何发生的。

如果暗 DNA 是普遍存在的,这就会给我们的工作带来麻烦,因为我们从前认为缺失的基因可能实际上是存在的。现在也许是时候重新审视一下已经被测序的基因组了,以确定我们是否已经得到了完整的图景。至少在进行新基因组测序时,我们也应该警惕可能存在的暗 DNA。

或者,有些人可能会提出,如果暗 DNA 是广泛存在的,我们早就应该发现它了。也许沙鼠和鸟类只是极端的例子,暗 DNA 的分布在其他生物中远没有那么广泛。这样的争论也很有趣,因为它提出了一个问题,是什么使得沙鼠和鸟类如此与众不同。而对这个问题的解答可能是理解暗 DNA 是如何形成的关键。两组动物的染色体数目在种内都存在巨大的差异——例如,在不同沙鼠中,染色体数量在 22 到 68 之间。这也许能够成为一个线索,因为这表明,他们的染色体在进化过程中倾向于断裂。而在生殖细胞的形成过程中,染色体通常会通过断裂和重新组合来促进后代的遗传多样性。当这种情况发生时,会发生一种被称为 GC 倾向的基因转换的过程,导致基因相比 A 和 T 发生更多的 G 和 C 突变。这可能导致 G 和 C 碱基在特定的 DNA 区域聚集。而这是否会是导致那些存在易断裂基因的物种中存在暗 DNA 的原因呢?我们不知道,但这是可能的。

暗 DNA 可能会影响进化的方向

而更令人感兴趣的是暗 DNA 是如何影响进化的呢?大多数教科书将进化描述为一个两步过程。首先,一连串的稳定基因随机突变创造了生物体 DNA 中的变异。然后,自然选择就像一个过滤器,决定哪些突变被传递。这通常取决于它们是否具有某种优势,尽管不是在进化过程中产生的所有东西都是具有适应性的 - 因此,自然选择是推动生物体进化的唯一动力。

但是当把暗 DNA 一起考虑时,事实就不一定是这样了。如果这些突变热点中的基因比其他区域的基因突变的机率更高,它们就会朝自然选择的作用方向发生更多的变异,因此它们被赋予的特性将会进化得更快。换句话说,暗 DNA 可能会影响进化的方向,并对突变起驱动作用。事实上,我和我的同事们已经提出,暗 DNA 的变异率是如此之快,以致于自然选择的作用速度可能不足以快到以通常的方式去淘汰有害变异体。如果一个物种面临新的环境挑战,这些基因甚至可能在以后存在下去并变得适应。

双重控制?

突变驱动的进化理论是存在争议的,但并非没有先例。自上世纪 70 年代中期之后,著名分子生物学家根井正利(Masatoshi Nei)已经提出,进化行为背后最重要的推动力量发生在分子水平,即由 DNA 突变所产生的变异。如果没有这种自发的变化,自然选择也将无所作为,这使得变异在进化中重要性仅次于自然选择。暗 DNA 的发现为这种思维方式添加了证据。当然,这并不是要在突变和自然选择之间做出直接选择。例如,在沙鼠中,大量的暗 DNA 基因的高突变率,可能对物种的进化轨迹产生巨大影响。然而,一些选择行为也必须作用于这些基因,否则突变的泛滥成灾会形成一个没有功能基因的无意义区域,这样物种也无法存活下来。

事实上,很难确定沙鼠是否已经从它的突变热点区域中受益。你可能会认为它的极端突变是一个问题,否则为什么像 Pdx1 这样的蛋白质在其他动物中会完全相同呢?但是,沙鼠的暗 DNA 可能会导致一些在正常情况下不会出现的适应行为。也许这些突变使得它能够在几乎无法获得饮用水的情况下依赖如此营养匮乏的食物生存下来,并因此得以在恶劣的沙漠环境中茁壮成长,并鲜有竞争者。另一方面,如果沙鼠吃营养丰富的食物,就会患上糖尿病并死亡的话,就可能意味着它们只能被迫在沙漠里生存了。因此,暗 DNA 对沙鼠而言,可能即扮演着解放者又扮演着囚禁者的角色。

总之,目前暗 DNA 的作用仍然成谜。不过有一件事是肯定的,在基因组是如何在分子水平上进化的和该过程是如何在地球上产生如此令人惊叹的生物多样性的问题上,我们仍有很多东西需要去了解。

破译生命密码

人类全基因组测序在各方高度协作的基础上用时 10 年时间,并花费了大约 27 亿美元。自从该工程于 2003 年完工以来,巨大的技术上的进步使得测序速度更快,成本也更低。迄今为止,大约 15000 个物种的全基因组已经被破译。而这仅仅是开始,全基因组测序的商业化的竞争是如此激烈,以至于我们可能很快就会对包括身在子宫内的胎儿在内的所有个体的基因蓝图进行例行的基因解码。

基因测序包括对沿着 DNA 链配对的被称为 A、T、G 和 C 的四种核苷酸或碱基的精确顺序进行推断。先驱性的测序技术如弗雷德里克·桑格(Frederick Sanger)在上世纪 70 年代设计的那样,大多是手工操作的。Sanger 测序需要使用单一 DNA 链作为模板,以一次添加一个带有特殊的标记碱基的速率在试管中合成出一条互补链,从而读出序列。这种方法是准确的,但却非常耗时; 一个熟练的工人可能最多也就能在一天内破译 10,000 个碱基对。而人类基因组约有 32 亿个碱基对。

而现在,排序已基本上实现自动化,所以过程要快得多。DNA 链的多份拷贝首先被随机地分割成小片段(长度通常在 100 到 150 个碱基之间),在匹配重叠片段的计算机程序将测序结果重新拼凑起来之前,分别对它们进行排序。但存在一个问题,这种“下一代”测序技术并不擅长破解一段高 GC 含量的 DNA 片段,因为这使得对重叠的碎片进行重组变得困难。因此,我们可能忽略了迄今为止已经测得的基因组中的大量 DNA 片段。我和我的同事们把这样的 DNA 称为“暗 DNA”。

新一代的测序方法更为准确。可以将 DNA 的片段的可读长度扩展到数千个碱基,从而减少了破译重叠区域遇到的问题。随着技术的快速改进,暗 DNA 将会逐渐进入人们的视野。我们甚至可能在我们已经认为被破译的基因组中发现新的惊喜。

本文来源于:科研圈

欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ

;