Nature:绘制人类“白金”基因组图谱
遗传学家们有一个不可告人的小秘密。尽管曾多次发布最新的资料,在正式完成人类基因组计划(Human Genome Project)的十多年之后,这一序列仍然存在成百上千的缺口——许多缺口存在于与疾病相关的一些区域。现在,一些研究工作正在向着真正完整的人类基因组序列——白金基因组靠近。
欧洲生物信息研究所计算机生物学家Ewan Birney曾参与人类基因组计划。“这就像绘制欧洲地图,有人说‘哦,那是挪威。我真的不想去绘制峡湾’。而现在有人在那,正在绘制这些峡湾的地图,”Birney说。
这些研究工作正在揭示不存在于官方人类基因组序列中,但有可能与一些健康状况如自闭症和神经退行性疾病肌萎缩侧索硬化症(ALS)等相关的DNA序列。
2000年,当时的美国总统比尔克林顿联合一些权威科学家来揭示人类基因组草图。3年后,该项目宣布结束。有一些人谨慎地告诫:尽管这一人类“参考”基因组覆盖了99%以上的人类基因组序列,但由于方法的局限研究人员无法做到100%。
测序仪不能够处理整条染色体,因此科学家们必须首先大量复制DNA,然后将它们切割成在不同位点断裂的短DNA片段。完成测序后,用计算机程序来查找重叠模式,将生成的片段重新“缝合”到一起。
这种方法适用于基因组的大多数序列,因为在整个基因组的30亿个“碱基”(As, Cs,
Ts和Gs)中一些DNA序列几乎完全相同。但在某些区域,个体遗传自父母的染色体版本之间存在着巨大的差异。当这些相异的序列给出不一致的答案时,试图连接这些区域来测序DNA的研究工作就导致了一些缺口。
这一问题可以比作是,用混杂的、相似但却不完全相同的一些拼图碎片来组装智力拼图。如果一个拼图碎片在数套碎片里都是完全相同的,那它的任何一个副本都可以用来组装。但如果一套拼图碎片中包含了比匹配碎片大得多的版本,或是如果缺失一块,那拼图将无法组装在一起。尤其是,一些靠近基因的长重复DNA片段会困扰用来分析数据的计算机算法。而利用来自多人的DNA增加了基因组间的差异,则会让问题变得更为严重。
因此,在对个体基因组测序以寻找一种疾病的病因时,由于在发布的基因组中缺乏配对物,一些至关重要的DNA片段有可能就被忽略了。白金基因组研究的主要倡导者、华盛顿大学的基因组科学家Evan
Eichler说:“我们错漏了整体水平的遗传变异。”为了填补这些缺口,研究人员需要获得只包含每条染色体的一个拷贝的人类细胞,以消除生成不一致答案的可能性——换句话说,只要一套拼图碎片。
精子和卵细胞都只包含每条染色体的一个拷贝,但这些细胞不能分裂并生成自身的副本。因此近年来,遗传学家们转向了来自葡萄胎(hydatidiform
mole)的细胞。葡萄胎是由精子与缺乏母源DNA的卵子受精所导致的一种异常生长物。这种受精细胞能够复制自身的基因组,并启动细胞分裂,就像正常受精卵中的细胞一样。生成的细胞球包含每条人类染色体的相同副本。
在上世纪90年代早期就有人从葡萄胎中取得扩增的细胞来构建出称作为CHM1的细胞系。在11月10日发表的一篇Nature论文中Eichler和同事们描述了,他们利用这一CHM1基因组的一些区域填补了官方人类基因组序列中大约50个特别麻烦的缺口。他们还缩小了更多的缺口,其中包括与ALS和脆性X综合征(Fragile X
Syndrome)相关的一些基因。这一研究小组总共绘制出了最初的参考基因组中缺失的大约100万个DNA碱基的图谱。
只能从一个基因组来组装出一条真正的白金序列,因为只有这样科学家们才能确定没有剩余的缺口。为此,由华盛顿大学Richard
Wilson领导的一个研究小组在这个月的早些时候报告了完整CHM1基因组的序列草图(延伸阅读:新发现上万基因变异填补人类基因图谱空洞PacBio帮助找回错失的变异)。Pacific
Biosciences公司的研究人员也在对完整CHM1基因组展开研究工作,但他们采用的是能够适用于较长的连续DNA片段的测序仪。在今年二月这家公司发布了一个基因组草图。这种方法将有望加速白金基因组的到来。
Personalis公司基因组科学家Deanna Church说:“不只是完成它,人类参考序列更多地是要‘不断地改善’。毫无疑问,在10-20年的时间里有人将会去摆弄它。”
参考文献:
Ewen Callaway. "Platinum" genome takes on disease. Nature,20 November 2014; doi:10.1038/515323a
欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ