单细胞测序技术概览(3)
4.4 单细胞测序对于医学的意义
转录组学技术对于医学的意义主要集中在对病变组织和相应健康组织的比较工作上,或者可以对大量的病变组织进行分析,找出其间的差异,即进行亚型鉴定。我们主要是通过细胞组成情况(比如浸润的免疫细胞),以及和转化细胞和周围间质细胞里的基因表达情况来确定肿瘤组织的。因此,在组织层面进行观察时需要同时对几种不同的基因表达谱进行研究。高通量的病变组织单细胞分析能够同时检测细胞的组成变化(通过细胞聚类分析手段)和相应的基因表达变化。我们可以对健康组织和病变组织里特定的细胞进行比较,发现与疾病相关的特异性基因表达改变情况。不过要了解细胞组成成分方面的局部变动信息就一定得在同一块肿瘤组织的不同部位进行多点取样研究。
无法用传统技术开展研究的、比较难获得的、珍贵的临床细胞样品也是能够从单细胞转录组学研究技术中获得好处的一个研究方向。比如数量非常少的循环肿瘤细胞(circulating tumor cell, CTC)就是一个非常好的单细胞研究方向,在一毫升血液中往往也就只有几个 CTC细胞,所以用常规的方法对这些细胞进行全基因组研究几乎是不可能的。两项开创性的研究工作已经证实,可以用单细胞RNA测序技术来判断CTC细胞是黑色素瘤细胞还是前列腺癌细胞。转录谱也已经证实细胞分离步骤没有问题,而且也发现了特异性的基因表达谱变异情况。对CTC细胞的全长转录产物进行单细胞RNA测序在成功检测基因表达情况的同时,可以检测突变情况。对单个CTC细胞进行转录组学分析还是一种无创检测手段,可以帮助临床医生们选择合适的抗癌药物和治疗方案,还可以随时监测病情的进展情况和疗效。现在是时候判断CTC转录组学研究手段对于癌症诊疗工作的指导意义了,也可以根据 CTC细胞上的分子标志物确定将来的靶向治疗方案。
4.5 单细胞测序技术未来的发展前景
由于我们刚刚进入单细胞转录组学研究时代,所以在不久的将来一定会有很多新的发现。RNA丰度与细胞表型(比如细胞大小、核大小等)之间是否存在某种对应关系,这也是一个很有意思的研究课题。比如为了维持不同大小细胞胞膜或者细胞器质膜上的蛋白质浓度,是否需要不同丰度的RNA?基因表达的种类可能与胞膜或核膜的特定区域相关,也可能与胞质体积的大小或核大小相关。只有了解了这些信息之后,我们才可以开始研究细胞的异质性问题,以及组织层面的细胞组成情况等。比如,对由大小不同的细胞组成的两个组织进行比较可能就会发现与细胞大小相关的基因表达特征。对单细胞表达谱进行更深入的研究还可能会为将来的试验设计打下更科学的基础,比如是应该从组织层面、同种细胞,还是单细胞层面,或者综合这三个层面来开展下一步研究。
随着单细胞转录组学研究技术的不断成熟,估计在未来几年内单细胞基因表达及调控研究一定会成为一个新的大热门,科研界很快也会获得足够多(成百上千、甚至是数百万个细胞)的转录子定量研究数据。这些信息可以帮助我们回答很多重要的科学问题,也可以为将来定量研究细胞种类和异质性问题打下基础。根据这些信息,几乎还可以确定复杂的多细胞器官内所有种类细胞的转录组情况。而且单细胞转录组学信息还可以帮助我们提高对基因表达调控网络的人工操纵能力,因为大量的单细胞数据都真实地反映了细胞面临的生物扰动情况,这些信息都能够帮助我们加深对基因表达调控网络的了解。
5. 单细胞测序技术的前景
通常来说,我们会将具有同一表型的细胞看作是一个具有特定功能的整体,并将其称作组织或者器官。不过对单个细胞进行深度DNA和RNA测序会发现,各种各样的细胞状态构成了一个复杂的生态系统,这样一个复杂的系统才形成了组织和器官的整体功能。继续发展高信息度、实时的、多模单细胞检测技术将帮助我们真正认识处于微环境系统下单个细胞的功能。
自从Robert Hooke在1665年时第一次使用“细胞(cell)”这个词来描述他用他自己发明的显微镜观察软木塞时看到的镜下结构之后,细胞就一直是科学家们关注的重点对象。虽然早期的形态学研究(morphological study)已经清楚地确定了各种各样的细胞形态,但是最近的研究还是出乎意料地发现了很多新的、不同的细胞状态(cellstate)。一个标准的人体细胞大约含有60亿个DNA碱基对,以及6亿个碱基的mRNA(这个规模的mRNA已经足以提供超大的编码能力)。对单细胞的DNA和RNA进行深度测序就能够以前所未有的更高的分辨率,更全面地掌握细胞的功能。科学家们对细胞状态的这种特异性识别能力有助于我们更好地了解细胞的正常功能和异常情况。
单细胞测序能够以更高的分辨率发现细胞之间的差异,这也引出了一系列的新问题。其中最根本的问题可能就是发现并衡量出这种细胞间的差异并不一定有意义,也就是说,我们并不知道哪种细胞状态才是真正有功能的细胞状态。由于在一个典型的人体细胞里,每一种mRNA平均大约只存在几十个拷贝,这么少的mRNA分子能够像我们在发育初期看到的那样,对细胞进行精细的调控吗?单个细胞彼此之间又是通过何种相互作用,实现组织层面的功能,这种对细胞生态学(cellularecology)的本质研究是一个非常值得深入挖掘的崭新领域。另外,如果我们认定细胞的表型就是多个细胞所形成的一个局部生态系统的功能,那么,在一个多细胞组成的组织里,那么多的局部生态系统是如何共存在一起的,它们彼此之间有相互交换作用吗(图1)?
虽然单细胞测序技术(single-cell sequencing)给我们带来了很多惊喜,我们对该技术也寄予了厚望,但是该技术目前还不是实验室里一项常规的检测技术。因为基础技术以及数据分析和解读技术的不断进步是提高单细胞测序技术精确度的关键,而要在系统层面了解单细胞的作用,则必须要对大批量的细胞进行单细胞测序研究。我们接下来会对这些问题进行评述,同时也会重点介绍单细胞测序技术未来的发展方向,以及新近出现的单细胞测序补充技术,还将介绍单细胞在整个生态大环境下的具体功能。
5.1 关于单细胞研究的几个重要问题
有多个重要的问题会影响单细胞测序研究所获得的数据质量。其中尤其需要注意的、不可避免的问题就是,转录组(transcriptome)会根据各种刺激做出改变,而且这种改变在单细胞层面上表现得更加突出。考虑到这一点,我们应该慎重对待单细胞转录组数据,(至少在一定程度上)将其看作是干扰试验(perturbationexperiment)的结果,除非能够开发出破坏性较低的RNA分离技术。
5.1.1 细胞分离问题
单细胞分离技术几乎算是最需要开发,也最需要建立一套标准化体系的技术。使用膜片钳(patch pipette)或纳米管(nanotube)获取单个细胞的胞质内容物是目前分离细胞RNA的常规方法,但是这种操作容易遗漏细胞器成分。使用微流体设备(microfluidic device)可以分离得到一个个单独反应室里的细胞,但是需要将细胞与其它底物分离开,而这些底物有可能会干扰细胞的转录状态。细胞在解离、分类富集的过程中,细胞的转录状态是否发生改变,就是要特别注意的一个问题。分散培养的细胞非常容易分离,但是用这种细胞做实验需要非常好的试验设计,以免因为缺乏微环境的影响而造成实验结果解读问题。最理想的情况是在组织、或者天然的微环境状态下,对单细胞进行内容物分离操作。只有这样,进行单细胞mRNA检测才能够反映出细胞在整体条件下最真实的状态,也只有这样,才能尽可能地减少人为操作给细胞带来的影响。
5.1.2 核酸扩增问题
在缺乏成熟的、强大的单分子测序技术的情况下,开展单细胞研究最大的问题就是底物(核酸)的扩增问题,因为扩增失误往往会导致最终的测序结果发生偏差,让我们无法得到目标核酸的序列。进行DNA测序时这个问题显得尤为突出,因为只有一个DNA分子可供测序。DNA测序的最大问题就是测序的覆盖度(coverage)问题。以PCR技术为基础的扩增技术能够获得很高的覆盖度,但是会带来扩增不均一(uneven)和错误扩增的问题。如果要进行错误修正(error correction),并发现单碱基突变(single nucleotide variant),这又需要额外的统计学方法。对于单细胞测序而言,错误修正更加困难,因为缺乏好的对照,而且我们根本不知道单个细胞之间究竟会有多少个变异。
图:经过单细胞测序发现的多种不同的单细胞状态。图中“核”表示DNA,“折线”表示RNA,每一种不同的颜色代表这些核酸拥有不同的序列。从图中可以看出,这些看起来一样,或者彼此相近的细胞其实在核酸序列水平上是不一样的。
对于RNA分子而言,最大的问题是如何在扩增的过程中保证这些分子之间最初的(丰度)比例关系。RNA扩增的第一步就是利用逆转录酶(reverse transcriptase, RT)获得互补DNA(complementary DNA, cDNA)。 在单细胞转录组测序工作中,这是最关键的一个步骤,RT反应的效率直接决定了细胞里最终有多少RNA能够被测序。RT酶最初来自感染了小核糖核酸病毒(picornavirus)的哺乳动物细胞,这种酶的效率非常高,细胞里哪怕只有一个病毒RNA拷贝,也能够合成出全长病毒核酸。虽然这种RT酶在体外实验中没有表现出太强的持续合成能力(合成出全长产物的几率还不到10%),但是经过优化之后,其持续合成能力也能够达到90%。突变之后的RT能够合成出更长的cDNA产物,在RNA浓度不佳时这种突变RT酶更加适用。
单细胞PCR技术(single-cell PCR)能够让这些源自RNA的cDNA分子以指数形式扩增。虽然在很多研究中都会使用PCR技术来构建测序文库,但是我们也应该清楚,PCR针对某些特定序列(比如高GC含量或茎环结构等)的低反应效率也会呈指数形式扩增。所以大部分科研人员都会尽量减少PCR的反应循环数,就是为了减少这方面造成的误差。不过由于这种扩增误差主要源自特定的序列,而且基因的表达水平本来就千变万化,所以我们很难估计误差究竟有多大。虽然某些序列的转录效率也不是太高,而且会生成较短的扩增产物或者缺失某些序列,但是以cDNA体外转录技术(in vitro transcription of cDNA into amplified RNA, aRNA)为基础的线性扩增技术(Linear amplification)还是能够在一定程度上解决这种因为扩增而带来的误差问题。如果我们的研究目的只是对RNA进行定量,而不是研究间接突变体,那么生成较短的RNA转录产物问题还不算太大。对经过系列稀释的对照转录RNA进行测序,同时对测序结果进行泊松分布(Poisson distribution)分析,结果证明,这种aRNA扩增方法的分辨率能够达到对2至4个分子进行定量分析,不过试验结果也会受扩增和回收效率的影响。
有一种解决这种扩增偏差的策略是在 cDNA第一链合成时掺入特定的分子信标(sequence tag)。由于我们有大量的分子标签可供选择,所以源自每一个RNA分子的每一个cDNA分子都可以带上独特的标签。在 PCR扩增时,其偏差不会影响这些标签分子(除非标签分子失落),所以就不会造成扩增偏差问题,标签分子的数量就可以准确地反映出细胞里原始RNA分子的数量。不过这种标记技术还非常复杂,目前仍在优化当中。
5.1.3 动态范围和细胞数问题
目前估计,在一个典型的哺乳动物细胞内,大约有5000至15000个不同的基因在转录和表达。如果我们认为每一个基因的情况都是不同的,那么要确定转录组的协方差(covariance),理想状态应该是比自由度(degrees of freedom)多检测10至30倍。如果这些基因之间的变化情况是非线性的,而且更加复杂,那么检测的次数还应该更多。目前没人知道单细胞转录组的自由度究竟有多大,但是至少会有数千个,这说明至少需要对数万个细胞进行测序。现在已经有这样规模的研究工作正在进行当中,不过只针对少数几个特定的靶分子,而且测序的覆盖度也很低。因此,在研究单细胞转录组时,如果要获得足够的转录组覆盖度,需要对多少个细胞进行测序研究,这也是一个非常重要的课题。
多个研究认为,细胞表达量最高的基因平均大约有3000至5000个转录产物。但是通过查阅文献,以及我们实验室自己的经验,我们发现在细胞内,大约90%的转录组产物都不到50个分子。这就产生了一个问题,这么低的表达量能够决定细胞的表型和功能吗?我们都知道,很多基因都存在“开”和“关”这两种状态,而且这些基因的开关状态在一群细胞里是不一样的,另外还有很多表达水平很低的基因,在组织学研究工作中是根本发现不了的。在这些一个细胞里转录子含量还不到50个分子的基因的补体中有很多非常重要的因子,比如转录因子和信号转导分子等。所以我们不能忽视敏感性(sensitivity)问题,而且充分覆盖每一个转录组的动态范围(dynamic range)与对足够数量的细胞进行测序具有同等重要的意义。
5.2 空间问题
荧光原位杂交技术(fluorescence in situ hybridization, FISH)也是研究细胞内RNA分子的一项技术。目前FISH技术通常都会使用多种短片段荧光标记探针,这些小分子探针能够自如地进入组织和细胞内部,与目标RNA片段结合。由于FISH技术在敏感性方面有非常大的改进,所以很难像芯片那样进行选择性杂交,我们也不知道在细胞交联之后,有多少 RNA可用于杂交试验。更重要的是,不能同时对这些发射广谱各异的、数量有限的荧光分子进行“转录组式”的检测(即同时对各种 RNA分子进行检测)。据报道,现在可以同时对细胞内大约30种不同的mRNA(荧光探针)分子进行检测,这和以往的FISH技术相比已经是相当大的进步了,不过这还不够。
多个研究小组都在开发原位测序技术(in situ sequencing),以及组合式标记技术,但是即便细胞内所有的RNA分子在空间上都是等距的,我们现有的显微分辨率(一个标准的 20 × 20微米的哺乳动物细胞组织切片在250纳米分辨率的光学显微镜下)最多也只能分辨大约13000个色点(像素,每一个像素代表一个RNA),而一个细胞内至少有10万至30万个mRNA分子。不过这种对细胞内RNA分子空间分布情况的研究也有助于我们认识细胞的功能和表型。
5.3 单细胞蛋白质组学研究
科学家们往往借助对转录组的研究来了解细胞内的蛋白质组学情况。目前也不是十分清楚细胞内mRNA与蛋白质丰度之间的关系,因此急需一种能够直接评价转录组与功能蛋白质组之间关系的技术。蛋白质复杂的化学特性让我们很难像对RNA进行定量研究那样对蛋白质进行精确的定量研究,不过随着质谱技术(mass spectrometry)的灵敏度变得越来越高,蛋白质挥发技术(volatize)越来越成熟,我们也看到了进行单细胞蛋白质研究的希望。另外,由于高亲和力抗体、纳米体(nanobody)、抗体单链可变区片段(single-chain variable fragment)等抗体衍生物,以及配体(aptamer)的不断发展,这些高亲和力技术也能够给我们提供灵敏性更高的技术手段,让单细胞蛋白质组学研究早日变成现实。
除了测序之外,我们还需要进行其它方面的单细胞研究,比如单细胞 DNA结构研究和单细胞表观基因组学(epigenome)研究等。染色体构象( Chromosomal conformation)、 DNA甲基化( DNA methylation)、染色质结构打开以及小分子代谢组学(small-molecule metabolome)等技术也都在朝着单细胞层面迈进。不论是何种细胞,对组织里的活细胞进行实时的、多变量、多维度的检测才是我们最需要的理想检测手段,因为只有这样才能获得最真实的、最系统的细胞状态和数据。对于RNA分子而言,这可能就意味着活细胞单个转录子分子的检测。这种检测不仅能够发现都有哪些分子参与每一个生物学进程,而且也能帮助我们对每一个生物学进程有更深入的了解和认识。
除了检测和分析之外,我们还需要在单细胞水平进行一些干扰实验,以便对细胞的功能有一个动态的了解。比如使用 RNA分子来调节细胞的功能,甚至还能够起到治疗的效果。用定量稀释的 RNA转染细胞是第一个被报道的转录组诱导的表型重构技术(transcriptome induced phenotype remodeling, TIPeR)。全转录组,或者部分 RNA分子被转染进细胞之后,能够让细胞的表型朝着既定的目标发生变化。TIPeR技术的目标就是利用细胞的“RNA记忆”来实现特定的细胞功能,这是一种能够调节细胞功能和表型的功能基因组学技术。转录组分析和定量调控技术让我们能够操纵细胞的表型和功能,这不论是对于基础科学研究还是临床治疗都有非常重要的意义。
5.4 单细胞生物学研究的前景
在单细胞层面,所有的疾病在病理学上都是不一样的。单细胞研究能够帮助我们更好地认识为什么有些细胞生病了,而另外一些细胞却还是正常的;也能够告诉我们为什么有些细胞对药物的敏感性非常高,可是另外一些细胞对药物却“无动于衷”。科学家们已经发现了很多受疾病影响最明显的细胞或组织特点,以及与疾病发病或严重程度有关的细胞或组织特点。找出这些与疾病相关的特异性分子状态有助于我们发现,并很好地利用药物作用靶点,但是能否发现这些靶点却取决于我们能否很好地认识“生病的”细胞。
比如,我们都知道多巴胺能的神经元细胞(dopaminergic neuron)在患者患上帕金森氏病之后会逐渐失去合成并分泌多巴胺(dopamine)的能力,而且这些细胞最终都会随着病情的进展逐渐死亡。在这些神经元细胞上发现的每一个受体、离子通道蛋白或者转运体蛋白都可以是药物作用的靶点,可以延缓病情的进展或者改善患者的病情。现在用来治疗帕金森氏病的药物主要针对这些神经元细胞上的四种蛋白,它们分别是多巴胺转运体蛋白(Dopa transporter)、毒蕈碱性受体M1(muscarinic receptor M1)、单胺氧化酶(monoamine oxidase, MAO)以及腺苷A2A受体(adenosine A2A receptor)。之前的组织学研究已经发现了药物作用靶点,可是其中有很多靶点都不在目标细胞上。单细胞研究特有的敏感性和特异性告诉我们,在多种细胞上至少存在300至400种不同的药物作用基因。如果帕金森氏病患者也是如此,那么在漫长的疾病进展期内,我们至少可以选择30至40种药物作用靶点进行有针对性的治疗。
除了转化研究作用之外,单细胞研究还能够从根本上改变我们对多细胞组织(器官)工作方式的看法,让我们提出很多新的科学问题。比如在人体数千亿个细胞当中,究竟有多少种不同的细胞?体细胞DNA变异对于细胞的鉴定和细胞的多样性究竟意味着什么?如果体细胞突变非常常见,那么它们是随机发生的,还是属于基因组有计划变异的一部分?细胞的表型是由其自身基因组决定的,还是周围环境动态影响的结果?换句话来说就是,DNA是执行程序的执行者还是只是一个信息的载体而已?
微生物组测序数据不断表明,单细胞微生物就是一个多细胞宿主的组成部分。另外一方面,对一个多细胞组织里的单个细胞进行DNA和RNA测序研究也发现,这些细胞具有极大的异质性。这说明多细胞生物里的细胞并不像每一个生物体内的组织那样没有明显的差异,这些组织的功能是由这些细胞组成的生态系统决定的,而这些细胞彼此之间的相互作用决定了整个组织的表型,这种情况与微生物组非常类似。如果这是所有生物的共同准则,那么确定单细胞的多样性,以及细胞之间的生态系统将是我们认识每一个生物的必然途径。
原文检索:
Kelly Rae Chi. Singled out for sequencing. Nature Methods, 30 December 2013; doi:10.1038/nmeth.2768
Tal Nawy. Single-cell sequencing. Nature Methods, 30 December 2013; doi:10.1038/nmeth.2771
Paul C Blainey & Stephen R Quake. Dissecting genomic diversity, one cell at a time. Nature Methods, 30 December 2013; doi:10.1038/nmeth.2783
Rickard Sandberg. Entering the era of single-cell transcriptomics in biology and medicine. Nature Methods, 30 December 2013; doi:10.1038/nmeth.2764
James Eberwine, Jai-Yoon Sul, Tamas Bartfai & Junhyong Kim. The promise of single-cell sequencing. Nature Methods, 30 December 2013; doi:10.1038/nmeth.2769