小麦D 基因组框架图绘制


小麦D 基因组与大麦、短柄草的比较作图。图中最内测的是D 基因组,中间是大麦的H 基因组,最外侧的两个环是短柄草的Bd 基因组。每条染色体下面的彩色线表示鉴定出来的粗山羊草、大麦和短柄草物种之间假定的直向同源基因。

(中国农业科技导报,贾继增,孔秀英,赵光耀,高丽锋,有删减)普通小麦是异源六倍体作物(AABBDD, 2n = 42),大约1 万年左右在西亚的“ 新月沃” 地区由四倍体小麦(AABB, 2n = 28) 与粗山羊草(DD, 2n = 14)天然杂交而成,之后逐步“冲出亚洲,走向世界”,成为世界第一大粮食作物,提供全人类20% 的热量。小麦的适应性强,是世界上分布最广的作物,蕴藏着丰富的抗病和抗逆基因;小麦的抗寒性极强,是北半球冬季唯一能够在大田越冬的农作物;能够防止土壤风蚀,保护环境。在细胞遗传学时代,小麦细胞遗传研究走在各主要农作物的前列。由于小麦矮秆基因、光周期不敏感基因与抗病基因的发掘与利用,促成了全球范围的第一次“绿色革命” 。普通小麦是异源多倍体,可作为多倍体的模式物种,在基础研究上具有重要意义。

据对国际权威网站美国国立生物技术信息中心(NCBIpubmed)收集论文的统计,在20 世纪90 年代中期之前,国际上小麦论文的发表数量远高于水稻等其他作物(图1)。但在进入基因组时代之后,由于水稻的基因组很小(430 Mb),因而很快完成了全基因组测序,有关水稻的研究论文数量也遥遥领先于其他作物。而小麦由于基因组巨大而复杂(16 Gb,大约是水稻的40 倍)致使其研究严重滞后。


基因组时代前后小麦与水稻发表论文数量对比

二代测序仪的研发与推广大大加快了小麦基因组测序的进展。目前国际上进行小麦基因组测序主要有两条技术路线:一是以国际小麦测序协作组织(IWGSC) 为代表的分染色体测序策略。其核心内容是以小麦中国春双端体为材料,利用流式细胞仪分离单条染色体臂,建立单条染色体的BAC文库,进而构建其物理图谱,然后进行测序。小麦的21 条染色体已被18 个国家“认领”,我国的西北农林科技大学也参与其中。染色体1A、1B、3A、3B、3D、4A、6B 和7D 等8条染色体的物理图谱构建已完成,其他染色体的物理图谱构建尚在进行中,但目前仅完成了3B染色体的测序,要完成全部染色体的BAC 测序尚有很长的路要走 。在建立单条染色体物理图谱的同时,上述研究者还利用分离的染色体通过PCR 扩增,利用二代测序仪进行探查测序,现已完成了全部21 条染色体探查测序。

小麦基因组测序的另一策略是全基因组鸟枪法测序。其要点是建立不同片段大小的测序文库,利用二代测序仪进行深度测序,然后进行组装与分析。利用鸟枪法测序策略,英国的Brenchley 等利用二代测序仪454 对我国小麦地方品种中国春进行了测序与分析;中国科学院遗传与发育生物学研究所与深圳华大基因研究院合作完成了小麦A 基因组框架图的绘制;本课题组与深圳华大基因研究院等单位合作,完成了小麦D 基因组框架图的绘制。


国际小麦测序协作组中国春小麦单条染色体物理图谱构建承担的国家


国际小麦测序协作组中国春小麦单条染色体物理图谱构建及其测序进展。绿色代表完成情况。

小麦D 基因组框架图的绘制

选用粗山羊草Y2282(即AL8/78)为材料进行测序,因为美国的Dvorak 实验室已利用该材料绘制了D 基因组的物理图谱。本课题组共构建了由200 bp ~ 20 Kb 不同插入片段长度的文库,用Illumina 的GA2 与Hiseq2000 进行测序,测序深度为92 倍覆盖。此外,还用Roche 454 进行了5 倍覆盖的测序,用于填补组装的间隙。为了有效地进行基因注释,还进行了8 个组织的转录组测序。对所测序列用SOAPdenovo 软件进行了组装,组装的跨叠群长度的N50(即占基因组1/2 的序列)长度为4 512 bp, 能够连接起来的跨叠群N50 长度为57. 6 Kb。分析发现D 基因组的大小应为4. 36 Gb,框架图中包含有34 498个高可信度基因,8 652 个低可信度基因,基因总数为43 150个;基因的平均长度为2 931 bp,有4. 9 个外显子,多于水稻(3. 8 个)与玉米(4. 1 个);小麦的重复序列占基因组的绝大部分, 利用GBS技术;构建了高密度遗传图谱,并最终将占基因总数的71%的30 697 个基因绘制于染色体上;抗病、抗逆与品质相关基因扩增及重复序列的扩增与小麦的特性关系密切。

D 基因组框架图的应用途径

在新基因发掘中的应用。新基因发掘有正向遗传学与反向遗传学两条途径。基因组测序是新基因发掘的基础。此前由于没有基因组序列,因而小麦的新基因发掘进展异常缓慢。克隆一个基因需花费几年、十几年甚至二十几年的时间(如控制染色体配对的Ph 基因的克隆)。小麦D 基因组框架图将从以下几个方面促进小麦基因克隆:①提供了数以万计的分子标记。此前小麦上的全部分子标记主要为SSR 标记,总数约2 000 个左右,远不能满足基因克隆的需要。D 基因组测序共发现了711 907 个SNP 标记,860 126 个SSR标记,这些标记分布遍及全基因组,能基本满足基因图位克隆与关联分析基因克隆的需求;②构建了一个包含151 083 个SNP 标记与30 303 个scaffold 的具有序列信息的高密度遗传图,其中具有30 697 个基因的位置和序列信息(图4)。该遗传图可为基因克隆提供标记与序列信息;③提供了43 150 个基因信息,包括基因的结构、功能注释与表达信息,这些信息将有助于正向遗传学的基因预测及反向遗传学的基因功能研究。

在小麦基因资源多样性与单倍型作图中的应用。多样性是作物育种的基础。基因组学研究发现多样性应包括基因结构多样性、拷贝数变异(CNV)多样性与甲基化多样性。由D 基因组测序所开发的基因分子标记及基因信息,可用于揭示基因结构变异多样性;测序发现有大量的基因发生了复制,拷贝数发生了变异。利用这些拷贝数变异的基因作为候选基因,通过TaqMan®等技术,可检测拷贝数变异。D基因组的全基因组测序则为全基因组甲基化测序提供了参照序列,用于分析全基因组甲基化变异。

单倍型作图是作物育种取得突破的理论基础。单倍型区段是指基因组中不易发生重组的一个区段。单倍型作图即确定基因组中的单倍型区段的大小、分布与功能。利用开发的高通量分子标记,可以进行D 基因组的单倍型作图。单倍型图谱因材料而异。通过比较野生种、地方种与现代育成种的单倍型差异,可以明确驯化与现代品种改良过程中的基因组区段及其功能;通过比较主栽品种与普通品种、普通亲本与骨干亲本、不同年代与不同生态区育成品种、亲本与后代的单倍型作图差异,将能够将几百年积累的丰富而宝贵的育种经验上升到基因组理论的水平,从而完成育种这门古老的学科由“艺术”到科学的升华。

在小麦品种改良上的应用。当前小麦常规育种进展缓慢;虽历经几代人的努力,小麦杂种优势迄今仍未能取得实质性的突破。造成目前这种现状既有上述所说的理论上的原因,也有材料与方法技术上的原因。

在理论上,如前所述,单倍型作图将促进小麦育种由经验到理论的升华;在技术上,具有基因组序列的高密度遗传图是当前世界上唯一的能提供如此丰富信息的小麦遗传图。该遗传图可以作为参照遗传图对以往的作图信息进行整合。例如,我们利用该遗传图对小麦染色体2D 上的重要农艺性状的作图信息进行了整合,结果发现重要农艺性状基因/ QTLs 大部分都绘制在染色体长臂与短臂的中部(图4)。利用本研究提供的大规模SNP 信息可进一步研发高密度SNP 芯片,进而开发全基因组选择育种芯片,这将大大提高育种的选择效率;在材料上,大量的研究已经证明普通小麦D 基因组的多样性极为贫乏,已成为普通小麦改良与杂种优势利用的瓶颈。小麦D 基因组供体种粗山羊草的多样性极为丰富,D 基因组的测序为粗山羊草的进一步开发与利用奠定了基础。通过培育人工合成小麦,并利用其作为供体种与现代育成品种杂交和回交,是开发利用粗山羊草多样性的有效途径。在这个过程中,高密度遗传标记是鉴定粗山羊草导入片段的有效工具。利用人工合成小麦导入系聚合杂种优势位点,可能是杂交小麦取得突破的一条重要途径。

还需特别提出的是,由于未来小麦新基因发掘的加快,对小麦分子育种也必将产生巨大的推动作用。

在比较基因组研究上的应用。D 基因组测序结果可用于禾本科植物的比较基因组学研究。D 基因组测序首次在全基因组水平上揭示了小麦与其他禾本科物种的微共线关系(图5),揭示了不同物种在进化过程中的基因组的保守区与易变区段。通过与水稻、玉米、高粱、大麦、短柄草等物种的基因比较,发现了各物种各类基因的数量及其特有的基因。例如研究揭示D基因组中抗病相关的R 基因的数量高达1 219个,大约是玉米(216 个)的6 倍,水稻(623 个)的2 倍。D 基因组中的抗逆相关的细胞色素基因P450 有485 个,远高于水稻(333 个)与玉米(261个)。比较还发现小麦D 基因组特有的与加工品质相关的基因,如高分子量谷蛋白基因(HMWGS)、低分子量谷蛋白基因(LMW-GS)与硬度基因(Ha 等)。正是这些基因使得小麦与其他物种相比具有更强的适应性及多样化的加工品质(制作面包、馒头、面条等)。也正是这些基因,使得小麦成为世界上适应性最强的粮食作物。此外,还可进行重复序列的比较。研究发现小麦的基因组膨胀主要是由于其重复序列在大约300 万年前迅速扩增造成的,而这一时期正是北半球气候变冷、干旱及草原化的时期。基因组扩增是否与当时的气候变化有关,是一个值得深入研究的课题。

在小麦进化与多倍体研究上的应用。世界上有80% 左右的作物为多倍体。因此研究多倍体的进化与基因表达在理论上与应用上均具有十分重要的意义。小麦属的二倍体、四倍体与六倍体等不同倍性的种完备,又是重要的粮食作物,是理想的研究多倍体进化的物种。研究发现在多倍化的过程中,基因的数量会发生显著的变化。在多倍体形成过程中二倍体祖先种中的大量基因在形成多倍体的过程中发生了丢失、基因的功能会发生分化或表达量发生了显著变异。但此前的研究都是仅限于部分基因。

D 基因组测序为在全基因组水平研究多倍体的进化与基因表达成为可能。通过比较普通小麦、人工合成小麦及其二倍体与四倍体亲本中的基因组结构变异与基因表达变异,将能够在全基因组水平上揭示基因组变异情况。例如,小麦的染色体4A、5 A与7B在小麦的进化过程发生过多次重排。由于D 基因组没有在这些位点发生重排,因此可以利用D 基因组作为参照,寻找上述染色体的重组位点,研究发生重排的原因及其意义。

但是,目前还仅仅是完成了D 基因组的一个框架图,小麦二倍体B 基因组、四倍体AB 基因组与六倍体ABD 基因组的基因组测序还没有完成;高效的功能基因组研究平台与单倍型图谱尚在构建之中;设计育种还仅仅是个设想,尚未付诸实践。当前是我国发展小麦基因组学前所未有的大好时机,加大小麦基因组研究的投入,做好顶层设计,集中精力做好上述几件在小麦科学发展史上具有重大影响的大事,我国将对世界小麦科学的发展做出前所未有的巨大贡献。

;