Cell Res 重点论文:单细胞表观多组学测序技术最新突破

2017 年 6 月 16 日,北京大学生命科学学院生物动态光学成像中心汤富酬课题组在《Cell Research》杂志在线发表了题为 “Single-cell multi-omics sequencing of mouse early embryos and embryonic stem cells” 的研究论文。在国际上率先发展了对一个单细胞同时进行染色质状态、DNA 甲基化、基因组拷贝数变异、以及染色体倍性的全基因组测序技术(single-cell COOL-seq),并采用这一技术在单细胞分辨率上系统、深入地解析了小鼠着床前胚胎发育过程中表观基因组重编程的关键特征,以及染色质状态与 DNA 甲基化之间的互动关系。

现有的基于高通量测序来分析全基因组染色质状态的研究方法通常需要大量细胞(例如 ATAC-seq、DNase-seq、FAIRE-seq、MNase-seq 等)。即使这些方法可以做到单细胞分辨率,也无法对同一个单细胞的各个表观基因组层面同时进行分析,因而无法在单细胞分辨率上对多种组学之间的互动关系进行研究。而汤富酬课题组将 NOMe-seq(全基因组核小体定位及 DNA 甲基化组测序)技术和 PBAT-seq 技术(全基因组重亚硫酸盐测序)巧妙地结合起来(图 1),并进行了系统的优化和提高,实现了对同一个单细胞进行多达 5 个层面(染色质状态、核小体定位、DNA 甲基化、基因组拷贝数变异和染色体倍性)的基因组和表观基因组特征的分析。

图 1: single-cell COOL-seq 原理图

除了可以在单细胞水平上同时对多种组学进行分析,与现有的分析染色质状态的单细胞测序技术相比,scCOOL-seq 技术还具有如下优点:

(1)对于基因组中核心的功能元件区域具有很高的灵敏度和覆盖度。例如,对于小鼠胚胎干细胞系的一个单细胞,可以同时检测到 18,000 多个基因(所有已知基因的 75%)的启动子区域的染色质状态以及 DNA 甲基化水平, 也可以同时检测到 11,000 多个 CpG 岛(所有已知 CpG 岛的 70%)的染色质状态以及 DNA 甲基化水平;这为分析干细胞分化发育过程中染色质状态的异质性以及 DNA 甲基化水平的异质性提供了强大的工具。

(2)可以精准地鉴定出染色质的开放状态和关闭状态,准确地把染色质关闭状态与由于技术原因未检测到的情况(假阴性)区分开来。现有的其他单细胞染色质状态测序技术(例如 scATAC-seq 和 scDNase-seq 技术)无法将染色质关闭状态和未检测到的情况(假阴性)区分开,这一缺点在现有技术的灵敏度比较低的情况下尤为严重。而 scCOOL-seq 技术可以准确地区分染色质关闭状态(检测到了该基因组 DNA 片段,但是其中的 GpC 位点没有被甲基化)和由于技术原因未检测到的情况(没有检测到该基因组 DNA 片段)。这样对一种细胞类型中不同的单个细胞之间同一个基因组区域的染色质开放状态和关闭状态之间的比例可以给出精确的测量结果,而不受检测灵敏度波动的影响。

(3)可以对同一个 DNA 单分子同时获得其染色质状态和 DNA 甲基化的信息,使得这一技术不但具有单细胞分辨率,甚至达到了单分子分辨率,可以对同一个二倍体细胞的两个等位基因分别进行染色质状态和 DNA 甲基化的分析。

(4)由于该方法同时扩增和测序开放的和关闭的染色质区域,因而不受细胞中线粒体 DNA 含量波动的影响。在细胞中线粒体 DNA 通常是环形裸露的 DNA,一般处于开放状态。现有的其他单细胞染色质状态测序技术(例如 scATAC-seq 和 scDNase-seq 技术)由于只扩增和测序开放的染色质区域,因而极大地受细胞中线粒体 DNA 含量的影响,特别是在着床前的早期胚胎细胞中线粒体 DNA 的含量是普通细胞的数十倍甚至数百倍,因而对于 scATAC-seq 和 scDNase-seq 等技术造成严重影响。而 scCOOL-seq 技术由于同时扩增和测序开放的和关闭的染色质区域而不受这一问题的影响。

(5)由于掺入了 10% - 20% 的外源 lambda DNA,所以可以准确判断所分析单个细胞所处的细胞周期阶段以及染色体倍性。这对于准确分析染色质状态和 DNA 甲基化与细胞周期以及染色体倍性的关系非常有帮助。

考虑到多组学的信息量、有效数据量带来的高昂测序成本等问题,对于细胞数量少,异质性强的着床前胚胎发育过程的研究,scCOOL-seq 方法非常适合。该方法可以更好地覆盖全基因组,有效地解决了目前 scATAC-seq 研究中线粒体片段过度富集导致的有效数据量过少的问题。同时,该方法可以同时分析单个细胞中染色质开放程度、核小体定位、DNA 甲基化、基因组拷贝数变异、以及染色体倍性这 5 个组学层面,对于难以大量获得的哺乳动物早期胚胎的发育、以及复杂的癌症等疾病研究,都将提供全面有效的解决方案。

在此基础上,该课题组利用这一新建立的 scCOOL-seq 方法,在单细胞分辨率系统地描绘了小鼠着床前胚胎发育过程中表观基因组多个层面的动态变化。高度特化的精子和卵细胞结合后,会进行一系列复杂、精确的染色质重塑过程,从而建立起早期胚胎发育的全能性和多能性。对该过程的解析将有利于人们理解细胞多能性建立过程中的表观遗传调控机制以及胚胎发育异常的分子机理,该项研究发现:

(1)受精后 12 小时以内,来自高度特化的卵细胞和精子的雌雄原核就经历了大规模的基因组去甲基化,父源基因组 DNA 甲基化程度从精子中的 80%(平均数)降低到雄原核中的 38%(p=1.4×10-11);同时母源基因组 DNA 甲基化程度从卵细胞中的 32% 降低到雌原核中的 28%(p=6.3×10-5)。在此过程中,父母源基因组的染色体状态迅速打开,在受精卵的原核期就已经达到高度开放的状态,随后在受精卵晚期染色质开放程度大幅度回落,并在 2 - 细胞阶段之后开放程度再次逐步增加,到囊胚期时达到最高点(图 2)。

图 2:小鼠着床前胚胎发育过程中基因组内源 DNA 甲基化(A)与染色质状态(B)以及染色质状态异质性(基因启动子区域;Homogeneously open、Divergent、Homogeneously closed 三种异质性状态)(C)(D)的动态变化

(2)首次在单细胞分辨率系统分析了小鼠着床前胚胎发育过程中染色质状态的异质性。根据每个基因启动子区域在同一个发育阶段不同单细胞之间染色质状态的异质性,将小鼠的基因划分成均匀开放(Homogeneously open)、开放 / 关闭混合态(Divergent)、均匀关闭(Homogeneously closed)这三种状态。该研究发现在受精后 12 个小时以内受精卵中大部分基因的启动子区域就由均匀关闭状态迅速重编程为均匀开放状态,为合子基因在随后的转录做好准备(图 2)。

(3)通过 RNA 聚合酶抑制剂抑制转录的实验,首次在单细胞分辨率证明持续转录对于维持基因启动子区域的染色质开放状态具有重要作用。从受精前的卵细胞到受精后的晚期受精卵时期,启动子区大片段染色质开放区域(长度大于 300bp)的数量大幅度增加。该研究发现,使用 RNA 聚合酶抑制剂α-Amanitin 处理受精卵、抑制其转录活动,会导致数千个(56%)基因的启动子区大片段染色质开放区域重新关闭,说明持续的转录对于维持早期胚胎中大部分基因的启动子处于开放状态是必需的,染色质状态开放和转录活动互相促进,共同维持合子基因的稳定表达(图 3)。

(4)发现多能性核心因子 Oct4 的靶基因结合位点在 4 - 细胞阶段就已经打开并处于开放状态,远早于真正建立多能性的囊胚期,暗示这些位点作为潜在的顺式调控元件可能参与了早期胚胎细胞的命运决定过程。

(5)首次在单个细胞内对父母源基因组的染色质状态以及 DNA 甲基化进行了深入分析。从受精卵晚期到 4 细胞胚胎时期,在基因间区(intergenic region)父源基因组甲基化要明显高于母源基因组;而在基因区(gene body),父源基因组甲基化要显著低于母源基因组。这是由于在基因间区,父源基因组的去甲基化速度较慢;而在基因区,父源基因组的去甲基化速度要远快于母源基因组的去甲基化速度。更重要的是,对于基因区,胚胎期表达水平越高的基因其父母源基因组 DNA 甲基化的不对称性越强烈(表达水平越高,母源基因组甲基化就比父源基因组高越多)。与此相反,受精后父母源基因组的染色质状态就迅速同步打开,到受精后 12 小时,父母源基因组的染色质状态在每个单细胞中就已经达到相同的开放状态,并在整个植入前时期维持这一父母源基因组之间染色质状态的精确平衡。这说明受精后,染色质状态和 DNA 甲基化进行了不同步的重编程过程,由于染色质状态对于合子基因的激活可能更重要,所以受精后父母源基因组的染色质状态快速重编程、在每个单细胞中迅速达到精确平衡并一直维持。而 DNA 甲基化的重编程要慢一些并在父母源基因组之间维持不对称分布:在基因间区,父源基因组甲基化高于母源基因组;而在基因区,父源基因组甲基化低于母源基因组,并且与胚胎期基因表达水平相关(图 4)。

图 4:小鼠着床前胚胎发育过程中父母源基因组 DNA 甲基化的不对称分布

(6)首次在单细胞分辨率解析了雌性胚胎细胞中父母源 X 染色体的 DNA 甲基化和染色质状态重编程过程的异同。从配子到原核期受精卵,父源 X 染色体的 DNA 去甲基化速度明显比常染色体慢,而母源 X 染色体的 DNA 去甲基化速度和常染色体相当。从受精卵晚期到 4 细胞胚胎时期,父源 X 染色体的 DNA 甲基化明显高于母源 X 染色体,直到囊胚期,父母源 X 染色体的 DNA 甲基化水平才达到一致。这说明受精之后,在雌性胚胎中失活的父源 X 染色体其 DNA 甲基化重编程速度要明显慢于活跃的母源 X 染色体。二者之间 DNA 甲基化的差异一直到囊胚晚期才逐渐消除。受精后,雌性胚胎中父母源 X 染色体同步进行快速的染色质状态重编程,并在整个植入前时期维持这一父母源 X 染色体之间染色质状态的精确平衡。(图 5)。

图 5:小鼠着床前雌性胚胎单个细胞中父母源 X 染色体的 DNA 甲基化和染色质状态的动态变化

(7)首次在单细胞分辨率揭示了小鼠植入前胚胎发育过程中表观基因组的异质性。受精后,基因组中大部分基因的启动子区域在同一种细胞的不同单个细胞之间维持着均匀的 DNA 甲基化和均匀的染色质开放状态。部分基因启动子区域的 DNA 甲基化或染色质状态在同一个阶段胚胎内不同单个细胞之间具有强烈的异质性。然而,启动子区域 DNA 甲基化异质性强烈的基因和染色质状态异质性强烈的基因分别是两类不同的基因。这暗示在小鼠着床前胚胎发育的过程中,染色质状态异质性和 DNA 甲基化异质性可能分别受不同机制的调控。

(8)首次在单细胞分辨率将细胞周期与染色质状态联系了起来。研究人员在每个单细胞文库中加入了等量的 lambda DNA,通过基因组测序读数和 lambda DNA 测序读数之间的比例准确推断出每个单细胞的倍性和细胞周期阶段。该研究利用小鼠胚胎干细胞研究中已有的染色质优先复制和后续复制区域作为参照,发现这些区域在小鼠着床前胚胎发育过程中复制先后顺序和胚胎干细胞中一致,说明小鼠着床前胚胎在体内发育过程中和胚胎干细胞使用了基本相同的一组 DNA 复制起始位点。

图 6: 小鼠着床前胚胎 DNA 甲基化和染色质重塑特征示意图

该研究在国际上率先开发了对同一个单细胞可以同时研究其染色质状态、核小体定位、DNA 甲基化、基因组拷贝数变异、以及染色体倍性 5 个层面的单细胞多组学测序技术,并首次利用该技术对小鼠着床前胚胎发育的 7 个关键阶段进行了全基因组水平、单细胞分辨率、单碱基精度的表观基因组研究,并深度解析了父母源基因组在着床前胚胎发育中 DNA 甲基化和染色质状态的重编程过程。该研究系统地描绘了高度特化的配子在受精后重编程到具有发育全能性的受精卵、以及进一步发育成多能性胚胎的过程中, DNA 甲基化和染色质状态发生的精准、有序的变化,以及各个组学层面之间的互动关系(图 6)。该工作为今后人们继续研究哺乳动物早期胚胎细胞全能性和多能性的开启奠定了基础,同时为体细胞克隆效率的提高以及早期胚胎发育异常的诊断与治疗提供了新思路。

北京大学生命科学学院 BIOPIC 中心的博士后郭帆博士(现为四川大学研究员)、博士生李琳、李静云为该论文的并列第一作者;北京大学生命科学学院汤富酬研究员和四川大学郭帆研究员为这篇文章的共同通讯作者。该研究工作由北京大学和四川大学共同合作完成,并且得到了国家自然科学基金委员会、北京未来基因诊断高精尖创新中心,以及北大 - 清华联合中心的资助。

;