基因序列是怎么巧妙测出来的
生命的奥秘,或者说遗传的信息,就隐藏在DNA的序列中。DNA是一种很长很大的分子,它是由四种脱氧核苷酸链接而成的,这四种脱氧核苷酸分别简称A、T、G、C。这四种脱氧核苷酸的排列组合,就构成了DNA序列,所谓测序,就是要知道某一段DNA上的核苷酸是怎么排列的。
■方舟子
11月19日,英国著名生物化学家弗雷德里克·桑格在睡梦中去世,享年95岁。在学生物出身的人当中,桑格是一个尽人皆知的传奇式人物。他一个人解决了现代生物学的两大实际难题:怎么测定蛋白质的序列和怎么测定DNA(脱氧核糖核酸)的序列。因此他两次获得诺贝尔奖。1955年,桑格测定了第一种蛋白质(牛胰岛素)的序列和结构,3年后因此获得诺贝尔化学奖。1977年,桑格发明了一种快速测定DNA序列的巧妙方法,3年后再次获得诺贝尔化学奖。桑格发明的DNA测序方法很快成为各个分子生物学实验室的常规方法,成为最常用的测序方法达20多年之久(人类基因组序列就是用这种方法测定的),一直到现在,在小规模的DNA测序中还在使用。
我这一代的研究生,是要自己动手测序,掌握手工测序技术是基本功,跑出一个漂亮的“测序胶”,是一项技术活。测序也是分子生物学实验中最有意思的部分,所以现在的学生不再自己测序,真是失去了不少乐趣。实验第二天,取出测序胶辐射感光的底片,对着灯光依次读出底片上一条条黑带,一一记录下来:A、T、G、C……就仿佛又亲手破译了一小段生命的奥秘。
生命的奥秘,或者说遗传的信息,就隐藏在DNA的序列中。DNA是一种很长很大的分子,它是由四种脱氧核苷酸链接而成的,这四种脱氧核苷酸分别简称A、T、G、C。这四种脱氧核苷酸的排列组合,就构成了DNA序列,所谓测序,就是要知道某一段DNA上的核苷酸是怎么排列的。然后分别以这两条单链为模板,根据互补的原则,合成出另一条链。这个复制过程,需要三样的东西,一样是三种脱氧核苷酸作为原料,一样是能把脱氧核苷酸链接起来的DNA聚合酶,但这种酶不能从头开始复制,需要前面已经有了一小段和模板结合的DNA作为复制的起点(叫做引物),然后才能往上加新的脱氧核苷酸,所以最后一样需要的东西是引物(在细胞中,引物是由不需要引物的另一种DNA聚合酶合成的)。
桑格就是巧妙地利用了DNA复制机理来测定序列的。桑格的巧妙之处在于,除了上述三样东西,他给增添了一样东西:四种双脱氧核苷酸,它们在脱氧核苷酸A、T、G、C的基础上又少了一个氧原子(分别标记为ddA、ddT、ddG、ddC),它们能够根据互补的原则加到DNA链上,但是由于少了一个氧原子,没法再加核苷酸了,所以复制就到此为止。
好了,现在可以开始测序了。把要测序的DNA样品分成四份,每一份都加上A、T、G、C、DNA聚合酶和引物(实验用的引物是用化学方法合成的一小段DNA作为复制的起点,要合成它需要知道它有什么样的序列。你可能会奇怪,还没测序呢,怎么知道引物的序列?这是因为要测序的DNA是用分子克隆技术插进载体DNA中的,载体DNA的序列是已知的,可以根据载体DNA序列设计引物,最后测序的结果实际上是前面有一段载体DNA序列,后面才是我们要的DNA序列)。再给每一份样品分别加上一种双脱氧核苷酸,例如第一份加ddA,第二份加ddT,第三份加ddG,第四份加ddC。然后在一定条件下让它们开始复制DNA。我们假定DNA模板的第一个核苷酸是T,复制时与它互补的应该是A,在第一份样品中有ddA,如果跟T互补的是ddA,那么这条链的复制就终止,得到的是最小的一个片段;如果结合上去的是A,复制就继续下去,直到又碰到一个T,再次出现是ddA还是A的选择……依次类推,在第一份样品中,复制的结果得到的是一条条以ddA为终端的不同长度的DNA链,第二份以ddT为终端,第三份以ddG为终端,第四份以ddC为终端。把四份样品中的新DNA链综合起来看,就是一条条长短不一的DNA片段,每个不同片段的长度只差一个核苷酸,那么,如果能把这些DNA片段从短到长依次排列,看它们最后一个核苷酸是什么样的,依次记下来,不就是我们想要的DNA序列了吗?
这时候就需要跑“测序胶”了。把四份样品并排加到凝胶中,通上电。DNA分子带负电,在电场的作用下,在凝胶中DNA片段向正极方向跑,短的DNA片段跑得快,长的DNA片段跑得慢,这样,不同长度的DNA片段就可以在凝胶中一一分开,处于不同的位置上。然后把凝胶烘干,覆盖上底片。为了能看出DNA片段所在的位置,实验用的核苷酸是用放射性同位素做了标记的,它们能够发出射线让底片感光。第二天,取出底片冲洗,可以看到上面有一条条小小的黑带表示不同DNA片段所在的位置……这就是我们想知道的DNA序列。