计算生物学所科研人员发现藏族人群高原适应性进化关键遗传因素
6月11日,《美国人类遗传学杂志》在线发表了上海生科院计算生物学研究所徐书华研究组的研究成果“A 3.4-kb Copy-Number Deletion near EPAS1 Is Significantly Enriched in High-Altitude Tibetans but Absent from the Denisovan Sequence”。该项工作发展了一种搜寻人群特异拷贝数变异的新方法,检测到一段藏族特异的拷贝数缺失区域,并通过群体遗传学和生物信息学分析,推测该缺失区域可能是藏族适应高原低氧环境的关键遗传因素。
高原是人类进化历程中所面临过的最极端的环境,2500米以上的低氧环境,对于上千年前甚至上万年前的人类来讲,没有任何技术手段可以辅助克服,只能依赖于生物学的适应。而青藏高原上世居人群所处的地区平均海拔在3000米以上,使得高原藏族成为探索人类适应性进化机制的最理想的研究对象。近年来,借助于新一代基因组测序和基因分型技术,国内外众多科研团队在全基因组范围寻找藏族适应高原的相关基因和遗传变异。几乎所有研究都将最显著的发现指向一个编码低氧诱导因子(HIF)的基因——HIF2(亦称EPAS1)。然而,发现这个藏族高原适应关键候选基因的随后近5年中,诸多研究一直没有找到这个基因可能与人类高原适应相关的功能变异。这导致进一步的功能机制研究无从谈起。
在此之前的研究都着重考察单核苷酸多态性(SNP)这一类变异,徐书华的研究组从几年前就开始关注其他类型的遗传变异是否可能影响到EPAS1的功能,进而促进藏族的高原适应。其研究组发展了一种搜寻人群特异拷贝数变异的新方法(WinXPCNVer),在DNA微阵列芯片的原始荧光信号中检测出一段藏族特异性缺失的约3400个核苷酸对的区域,同时通过多种实验技术和生物信息学分析技术,在2000多例世界范围的人群样本中确认了该段拷贝数缺失的发生几率。他们发现该段拷贝数缺失的频率在藏族中高达90%,其中纯合缺失(两个拷贝都丢失)个体的频率达到了50%;而在2000多个世界其他人群的样本中,其频率则只有3%,并且未发现携带纯合缺失的个体。通过参考现有的数据库和文献进行功能注释分析,研究组发现该缺失的序列上有组蛋白增强子的记号,并且与之前报道的血红蛋白浓度相关联的单核苷酸位点也具有很强的连锁效应。此外,研究组通过对拷贝数缺失区域实施长程PCR和Sanger测序法进一步验证了这一缺失在藏族群体中的高频存在,并确定了该缺失区域的断点在基因组的精确位置。随后,研究组还对七个藏族个体进行了全基因组深度测序,并未发现除此之外的其它藏族特异的拷贝数变异——从而给予针对这个拷贝数变异进一步研究的最大优先权重。该研究提供的一系列发现和证据,都提示了该拷贝数缺失在藏族低氧适应中可能的重要功能意义。尽管在功能上尚未得到实验验证,该缺失的发现为研究藏族的高原适应性机制拓开了新的视野。
有趣的是,这个拷贝数变异与之前研究认为来自于非现代人——丹尼索瓦人(Denisovan)的一个基因片段处于完全连锁不平衡。这意味着,如果藏族人群中与丹尼索瓦人高度相似的基因片段果真来自丹尼索瓦人的贡献,那么这个藏族特异的拷贝数缺失可能也来自于丹尼索瓦人的贡献。但是这个藏族特异的拷贝数变异并不存在于丹尼索瓦人的基因组中。这个发现对之前研究的结论提出了疑问,也使得目前所理解的现代人祖先与非现代人祖先之间的基因交流格局和适应性进化机制变得更加复杂。
该工作由计算生物学所楼海一博士、陆艳博士,以及博士研究生鲁东胜、付睿卿、王晓骥(上海科技大学)、冯启迪等在徐书华研究员的指导下,与昆明动物所、复旦大学、西藏民院、新疆医科大学、马来西亚UCSI大学、韩国加图立大学等多家单位的研究人员合作完成。该项工作得到了中国科学院B类战略性先导科技专项,国家自然科学基金委和上海市科学技术委员会等多项基金的资助,同时得到国家遗传与发育协同创新中心支持。(计算生物学所)
文章下载链接:http://www.cell.com/ajhg/abstract/S0002-9297%2815%2900191-3
相关附件