鸟类基因组“大爆炸”
鸟类基因组“大爆炸”
—— 国际团队全面解码鸟类起源过程,揭秘羽毛、飞行、鸣叫等演化机
现代鸟类的祖先是如何逃过6600万年前白垩纪的那场大浩劫,摆脱了恐龙和当时地球上绝大多数生物灭绝的命运而存活下来?在一国际团队历经4年的努力下,生物演化史上这一重要的篇章得以重新还原。
国际鸟类基因组研究联盟于今日(12月12日)在science和其他杂志上以专刊形式集中公布了28篇首期研究成果。这些成果中,其中有8篇刊登在Science鸟类专刊上,其余的20篇将陆续刊登在Genome Biology, GigaScience等其它杂志上。全部文章都可以在avian.genomics.cn上在线获得。
众所周知,鸟类是白垩纪物种大灭绝事件中的幸存者,其后它们在短期内经历了一次超级物种大爆发。然而,现代鸟类的演化历史和亲缘关系这一最基本的问题却是困扰了学界数世纪的未解之谜。另外,鸟类快速演化形成了超过10,000个不同物种,产生这些鸟类生物多样性背后的分子机制也知之甚少。
为了回答这些问题,由来自华大基因和中国国家基因库的张国捷,美国杜克大学和霍华德休斯医学研究所的Erich D. Jarvis,丹麦自然历史博物馆的M. Thomas P. Gilbert领导的国际鸟类基因组联盟完成了48只鸟类物种的基因组测序、组装和全基因组比较分析。这48只鸟包括乌鸦,鸭,隼,鹦鹉,企鹅,朱鹮,啄木鸟,鹰等,囊括了现代鸟类的主要分枝。
“物种从何而来,如何演化,如何发展,是生物演化研究中最基础的问题。基因组的应用使我们得以重现历史,回答这些最根本的科学问题。”张国捷表示,“这是迄今为止对同一类群物种最大规模的基因组演化历程分析,也是我们利用比较基因组学揭示生物宏观演化历史的重要一步。”
“虽然不断的有许多脊椎动物基因组发布,但目前还没有一项研究对某一大类的脊椎物种的生物多样性开展如此详细的专项分析。”Tom Gilbert补充道,“揭示生物多样性的分子基础正是我们组织这一联盟的初衷。只有足够大的一个样本量的前提下我们才能完整地呈现一个大生物类群的基因组多样性。”
“这是历史性的一刻。”神经生物学家Erich Jarvis说道,“随着样本量的扩大,基因组数据的增多,越来越多的关键问题可以被回答。我参与到这个项目中,是因为我长期以来一直利用鸟类研究人类发声和语言学习。这些鸟类的起源为我们在大脑方面的研究打开了许多全新的视角。”
这些新发布的成果在许多鸟类演化相关问题上提出了新观点。在其中一篇发表在Science上的综合性文章上,研究者基于全基因组数据构建了有史以来最高可信度鸟类分子演化树,前所未有的解决了对早期鸟类演化关系历史争论。另一篇综合性文章则描述了鸟类基因组演化的历程,从基因组的角度阐述了鸟类宏观演化的重要特征。在Science专刊上发表的还有其它6篇文章。分别阐述了控制声音学习的分子通路如何在一些鸟类和人类的大脑语言控制区域中独立演化出来;鸟类的性染色体复杂的演化历程;在早期演化过程中,鸟类是如何一步步丢失牙齿;鸟类近亲鳄鱼的基因组是怎样演化的;鸟类歌唱行为在大脑内的基因调控机制;以及一种利用大规模基因组数据构建演化树的新方法。
来自世界上20多个国家,80多家机构的200多名科学家参与了这一研究项目,包括华大基因,哥本哈根大学,杜克大学,德克萨斯大学奥斯汀分校,史密森尼博物院,中国科学院,路易斯安那州立大学等众多学校和机构。
对鸟类家谱的追本溯源
之前所有试图重建鸟类演化树的努力,无论是用部分DNA测序,还是使用解剖学、行为学的特征都遇到很多的困难,所得到的演化树之间充满矛盾。研究人员表示,现代鸟类在早期发生了快速的物种形成大爆发,因为这一快速扩张的时间很短,没有演化出足够多的序列差异,因此很难区分早期分支的亲缘关系。为了估计鸟类之间的关系图谱和分化时间,研究人员们决定采用全基因组的信息来构建鸟类的物种演化树。
“在过去,人们只是利用10到20个基因试图推断出物种的演化关系。”Jarvis说道,“我们通过全基因组数据得到的鸟类物种树,与之前得到的结果差异不小。我们发现单纯使用编码蛋白的基因来构建演化树会引入不少问题。因此我们还需要利用非编码区域的序列,包括基因间区。另外,我们发现编码蛋白序列在一些具有相似生活史的物种之间存在趋同演化现象。”
这棵新的鸟类演化树彻底解决了鸟类的早期分支问题,还对一些旷日持久的相关争议给出了确切的答案。比如说,这个新发现确认了水生鸟类有3次独立的起源。另外还发现,主要的陆生鸟类如鸣鸟,鹦鹉,啄木鸟,猫头鹰,鹰,隼等都来自同一祖先,这种祖先的鸟类是顶级的捕食者,它同时也是一种在美洲已灭绝的巨型恐鸟的祖先。
全基因组分析结果提示现代鸟类的扩张发生在6600万年前的大灭绝事件前后。这次物种大灭绝事件杀死了地球上的所有其他恐龙,只有部分鸟类存活了下来。之前的一些研究推测现代鸟类的扩张应该发生在大灭绝事件之前的1000-8000万年,而全基因组分析的结果推翻了之前的结论。
基于这些基因组数据,研究者认为仅有很少的鸟类从大灭绝事件中存活了下来。后来这些鸟类逐渐演化出了10,000多种新鸟纲(Neoaves)鸟类,95%的现存鸟类来自这一新鸟纲鸟类。大灭绝事件释放的生境也许为鸟类新物种的形成创造了良好条件,导致它们在不到1500万年的时间里快速产生了很多新物种,在很大程度上也解释了为何现代鸟类具有如此丰富的多样性。
研究人员表示,基因组测序技术的日渐成熟和成本下降,以及构建演化树计算方法和比较基因组学等领域的发展,使得研究人员能比过去更好地解决这些科研难题。
由于每个物种有约14,000个同源基因,这一数据巨大,数千倍于之前相同研究所用到任何数据,需要研究人员采用全新方法来构建鸟类的演化树。伊利诺斯大学香槟分校和德克萨斯大学奥斯汀分校的计算机科学家Tandy Warnow和她的学生Siavash Mirarab,以及在海德堡大学做理论研究的Alexis Stamatakis团队在计算方法上提供了重要的支持。同时如此庞大的计算任务也使硬件要求面临巨大挑战,需要在华大基因,慕尼黑超级计算中心,德克萨斯高级计算中心和圣地亚哥高级计算中心的几个超级计算中心进行并行计算才得以完成。
“构建鸟类物种树大约花费了300年左右的CPU时间,这是一个巨大的计算挑战。其中一些分析甚至至少要求1TB内存的超级计算机。”Warnow说。
鸟类基因组项目还得到了万种脊椎动物基因组项目(G10K)的科学家们的大力支持。万种脊椎动物基因组计划拟绘制万种脊椎动物基因组图谱,建立10,000种脊椎动物的遗传信息数据库。
“这是万种脊椎动物基因组委员会自成立以来参与的最成功和规模最大的项目。”万种脊椎动物基因组委员会的联合领导人Stephen O’Brien说道。他同时也在GigaScience杂志上为该项目撰写了一篇精彩评论。
鸟类基因组演化和物种多样性
虽然鸟类有非常复杂的各种生物学特征,但它们的基因组却非常小,而且很稳定,约只有哺乳动物的1/3大。由张国捷,李彩等联盟成员开展的一项研究发现,与其它爬行动物相比,鸟类基因组中重复序列的含量比较少,并且鸟类的祖先从爬行动物中分化出来后丢失了成百上千的基因。
“很多鸟类丢失的基因在人类中都有很重要的功能,比如在维持生殖系统,骨骼生成和肺部系统等方面不可或缺。”张国捷表示,“这些关键基因的丢失对于鸟类一些特有表型的形成和发育可能有着举足轻重的影响。这是个非常有趣的发现,因为这人们通常认为,演化过程中,新的遗传物质是生物演化出新表型必不可少的条件。但鸟类的演化过程提供了很特殊的证据说明基因的丢失有时却能引发新表型的出现。简单即是美。”
研究人员还发现,不管是从染色体水平还是从基因水平看,鸟类的基因组结构在过去1亿年的时间内都非常稳定,与哺乳动物相比,很少发生大的结构性变化。此外,鸟类的基因演化速率也比哺乳动物要慢。这也是鸟类在超长时间跨度下基因组水平上展示出的特有宏观演化特征。
然而,一些具有相似生活习性或表型的鸟类,比如具有鸣唱学习能力的鸣禽,它们的部分基因组区域同时表现出极其快速的演化速率。这种情况称为趋同演化,它可能是一些亲缘关系很远的鸟类独立演化出相同表型的分子机制。这项研究中对一些特定基因家族的分析结果,也部分解释了鸟类如何演化出独特的骨骼和肺部系统以适应飞行生活,鸟类产生各自迥异的饮食习惯、视觉系统、羽毛颜色等相关特性的相关分子机制。
鸟类学研究史上重要的一课
这个项目的其它研究成果也回答了关于鸟类的其他一些重要问题,其中包括:
鸟类的鸣唱学习是如何演化形成的? 在这次发表的文章中有8项是关于鸣禽鸣唱学习的研究。两篇综合性文章发现的新证据表明鸣唱学习在鸟类中至少独立演化产生了两次,并且与很多基因的趋同演化相关。来自杜克大学的Andreas Pfenning、Alexander Hartemink、Erich Jarvis,西雅图艾伦脑科学研究所,以及日本RIKEN脑科学研究所的研究人员们在一篇发表于Science的研究文章中发现,具有鸣唱学习能力的鸟类(包括鸣禽,鹦鹉和蜂鸟),它们大脑中与鸣唱学习相关的脑基因调控回路,跟人类大脑中语言相关的区域呈现出趋同表达和演化的特征。他们发现,有50多个相关基因在上述区域表现出了相似的变化模式,而且这些基因很多与神经联结的形成有关。在另一篇Science文章中,Osceola Whitney,Pfenning和Anne West这几位同样来自杜克大学的研究人员发现,鸟类的鸣唱涉及到了全基因组10%的参与。这些基因在大脑中与鸣唱学习相关的不同的区域会有着不同的激活方式,而且这些基因的激活还通过表观遗传进行调节。杜克大学的Mukta Chakraborty和其他的研究人员在PLoS ONE上发表的一项研究发现,鹦鹉具有一套独特的鸣唱学习系统,它们在一套鸣唱学习系统中还会嵌套着另一套鸣唱学习系统。这也许也是它们具有模仿人类语言的强大能力的原因。在一篇发表在 BMC Genomics上的研究中,来自俄勒冈健康与科学大学的Morgan Wirthlin,Peter Lovell和Claudio Mello还报道了鸣鸟大脑中与鸣唱控制相关的物种特异性基因。
关于性染色体的一二三事 人类的性别由X染色体和Y染色体控制,而鸟类的性别则由Z染色体和W染色体来控制。W染色体是雌鸟特有的染色体,就好比Y染色体是男人特有的。大多数的哺乳动物的Y染色体都经历了相同的演化史,这些Y染色体中只有很少一部分与雄性性状相关的功能基因存活,其它绝大多数基因都已经退化而且失去功能。来自加州大学伯克利分校的周琦和Doris Bachtrog和张国捷课题组在一项合作发表于Science的研究中发现,半数以上的鸟类的W染色体仍然包含大量的功能基因。这项研究极大的颠覆了之前人们认为的鸟类的W染色体和人类的Y染色体一样都是“基因坟墓”的传统观点。
这项研究还发现不同鸟类的性染色体处于不同的演化阶段中。例如,鸵鸟和鸸鹋,它们都属于鸟类家族中相对古老的一支,它们的性染色体跟祖先状态非常相似,大部分基因都是有功能的。然而,一些现代鸟类,如家鸡和斑马雀,它们的性染色体则只包含少数的功能基因。这一全新发现也引出了其它问题,如鸟类性染色体的多样性与不同鸟类的两性差异有何等关系。比如,雄孔雀和雌孔雀外表差异非常大,而雌雄乌鸦则很难辨别。
鸟类是怎样丢失它们的牙齿的? 在一篇发表在Science的文章中,由蒙特克莱尔州立大学的Robert Meredith和加州大学河滨分校的Mark Springer领导的研究团队发现,与其它一些有牙的脊椎动物不同,牙釉质、牙本质相关的关键基因在现存鸟类中发生了关键突变,导致现存所有鸟类都没有牙齿。研究结果表明,有5个牙齿相关的基因在大约1亿年以前的鸟类共同祖先中就已经失活,从此使得鸟类丧失了生成牙齿的功能。
鸟类和恐龙有何等关联? 与哺乳动物不同,鸟类具有大量的小染色体(在爬行类,鱼类和两栖类中也有发现),这些小且富含基因的染色体被认为存在于它们的恐龙祖先中(鸟类的共同祖先被认为是一只长满羽毛的恐龙)。在一项发表在 BMC Genomics的关于基因核型结构的研究中,研究人员分析了家鸡、火鸡、北京鸭、斑马雀和虎皮鹦鹉的全基因组。结果发现,家鸡具有和鸟类共同祖先最相似的染色体结构。这项研究由来自肯特大学的Darren Griffin 和Michael Romanov,皇家兽医学院和伦敦大学的Dennis Larkin和Marta Farré领导。
另一篇发表在Science的研究对与鸟类关系最近的近亲鳄鱼,进行了研究。这项研究由来自加州大学桑塔克鲁斯分校的Ed Green和Benedict Paton,德克萨斯理工大学的Santa Cruz,David Ray以有佛罗里达大学的Ed Braun领导完成。研究发现,鳄鱼基因组是演化速率最慢的基因组之一。根据鸟类和鳄鱼的基因组,研究人员还推断出了鸟类和鳄鱼的共同祖先的基因组序列。鸟类和鳄鱼的共同祖先也是鸟类和其它恐龙的共同祖先,包括那些在6600万年前就已经灭绝了的恐龙。
基因树和物种树的差异重要吗? 在由Jarvis和其他科学家领衔的关于鸟类演化树的综合性研究中,研究人员发现没有任何单个基因构建出来的演化树与跟全基因组物种树完全一样。这种情况可能是由于一种叫做不完全谱系分选的演化过程造成的。来自德克萨斯大学和伊利诺伊大学的Tandy Warnow和她的学生Siavash Mirarab发明了一种新的计算方法,叫做“统计划分”(statistical binning)。使用这种方法的话,因为他们依然可以利用综合的基因树推断出基于溯祖理论的、全基因组水平的物种树。
和其它物种相比,鸟类基因组携带的病毒序列更少吗? 哺乳动物携带大量的,由于过去病毒感染后插入宿主基因组中留下的 DNA“化石”,这些“化石”被称作“内源性病毒元件”(EVEs)。在一项发表在Genome Biology上的研究中,由来自杜克-新加坡国立大学医学研究院的崔杰,悉尼大学的Edward Holmes和华大基因张国捷领导的研究团队发现,鸟类的内源性病毒元件数量比哺乳动物少6~13倍。这个研究结果也与鸟类基因组比较小的事实相符合。这个结果也暗示着,鸟类基因组要么更不容易被病毒入侵,要么能够更好地清除病毒序列。
颜色鲜艳的羽毛是怎样演化出来的? 鸟类精致鲜艳的羽毛在鸟类演化上的具有重要意义,羽毛漂亮的雄鸟在求偶过程中会比竞争对手更具有优势。在前面提到的一篇Science综合性文章中,研究人员发现有8个鸟类物种,它们的与羽毛颜色相关的基因角蛋白等都比其它的基因演化显著地要快。在一项发表在BMC Evolutionary Biology的研究中,来自南卡罗来纳大学的Matthew Greenwold和Roger Sawyer分析发现,水鸟具有最少的β角蛋白基因,相比水鸟,该基因在陆地鸟类则多出2倍以上,而在被人工驯化的鸟类中数量更多,高达8倍以上。
当物种面临灭绝,或者从濒临灭绝中恢复过来时会发生什么? 鸟类,如同在煤矿中的金丝雀,它们对于环境变化极为敏感,有时甚至会导致灭绝。在一项发表在Genome Biology的研究中,由来自西安交通大学的李生斌、成诚,基因组研究所的于军,华大基因的杨焕明,以及杜克大学的Jarvis等人领导的研究团队分析了多个濒危鸟类的基因组,其中包括亚洲的朱鹮和美洲的白头海雕。他们发现在这些濒危鸟类中,降解环境毒素的基因有着更高的突变率,同时与免疫系统相关的基因具有更少的多样性。在一个近年来才逐渐恢复多态性的朱鹮种群中,与大脑功能和新陈代谢相关基因具有更快的演化速率。研究人员还发现,这一恢复的朱鹮种群中的基因多样性比预期的要多,这为后续的朱鹮种群保护带来了更多希望。
企鹅是如何适应南极的恶劣环境?
相比其它鸟类,企鹅具有许多异于其他鸟类的特殊形态结构,比如它们不能飞翔,具有独特的翅膀结构和光滑皮肤等。在一项发表GigaScience的文章中,华大基因的张国捷与格里菲斯大学的David Lambert领导的研究团队比较了两种南极企鹅(阿德利企鹅和帝企鹅)的基因组。研究人员通过对这两种企鹅基因组与其他鸟类的比较分析,发现了与企鹅羽毛、翅膀、视觉以及脂肪代谢相关的基因发生的变化。此外,他们还研究了两种企鹅的群体大小演化历史以及与气候变化的关系,并推断出最早的企鹅出现在约6000万年前。
继往开来的重要一课
这一跨越了整个鸟纲的庞大基因组项目能得以进行,离不开世界各地的博物馆和其它机构的支持。他们在过去30年中收集的冻存鸟类组织样本,为获取DNA样品提供了极大的便利。同时,鸟类基因组联盟建立了各种数据库,以便其他科学家们对鸟类各种复杂性状的遗传基础进行进一步的深入研究。
建立一套大规模基因组研究的流程——包括收集和整理组织样本,提取DNA,分析样品质量,测序及管理大量的新数据——是一项庞大的工作。研究人员相信,这些工作将对其他在做脊椎动物大规模测序的研究团队提供重要借鉴。为了鼓励其他研究人员从这些“大数据”中挖掘出更多的信息,以及发现以往小规模数据很难观察到的数据特征,鸟类基因组联盟已将整个项目得到的全部数据公布在GigaScience,NCBI,ENSEMBL和CoGe这些数据库上,允许对外开放。
为了更好地利用这个项目产生的数据,研究团队在项目早期(四年前)就已经将未发表的数据开放给研究社群以开展相关研究,而不是等所有文章发表后再开放数据。此外,在今年年初就已经把课题所有基因组数据公布在GigaScience上并通过Twitter进行推广,引起了社交媒体上的巨大反响和热烈讨论,在短时间内使得GigaScience数据库的用户量增加了一倍。
另外,在Dave Burt的领导下,罗斯林研究所和英国爱丁堡大学的国家鸟类研究所也为48只鸟创建了一个基于ENSEMBL基因集的基因组浏览数据库。
这个项目得到了华大基因,中国国家基因库,以及美国国立卫生研究院,美国国家科学基金会,霍华德休斯医学研究所,Lundbeck基金会,丹麦国家研究基金会提供的经费支持。此外,项目还得到了针对联盟中其他研究人员的研究经费支持。
鸟类基因组联盟的核心成员还包括(但不限于),美国伊利诺伊大学的Tandy Warnow,万种脊椎动物基因组项目创始人的Stephen O’Brien,David Haussler和Oliver Ryder,新墨西哥州立大学的Peter Houde,佛罗里达大学的Edward Braun,美国自然历史博物馆的Joel Cracraft,加州大学旧金山分校的David Mindell,海德堡理论研究所和德国卡尔斯鲁厄理工学院的Alexandros Stamatakis,哥本哈根大学的Jon Fjeldså和Carsten Rahbek,哈佛大学的Scott Edwards,爱丁堡大学罗斯林研究所的David Burt,史密森尼博物院的Gary Graves,路易斯安那州立大学的Robb Brumfield,波尔图大学的Agostinho Atunes,肯特大学的Darren Griffin,皇家兽医学院和伦敦大学的Dennis Larkin,加州大学伯克利分校的周琦和华大基因的王俊。当然还有更多的科学家们未在此一一列举。
作者:华大基因