刘耀光院士中文综述CRISPR/Cas 植物基因组编辑技术研究进展!
摘要: 基因编辑技术的发展与应用为植物功能基因研究和作物遗传改良提供了重要的技术支撑。近年诞生的CRISPR/Cas 基因编辑系统 (主要包括 CRISPR/Cas9 和 CRISPR/Cas12a) 与其他的基因编辑技术相比,具有操作简 单、效率高等优势,因此在动植物中均得到广泛应用。本文结合 CRISPR/Cas 基因编辑技术体系的发展历史及最新 研究进展,着重介绍了该技术在植物领域中的应用范围和发展方向,以及基因编辑植物的靶点分析方法;对目前 CRISPR/Cas 基因编辑技术体系存在的问题进行了分析并提出了改进策略。
基因功能的鉴定和作物新品种的选育离不开 突变体的获得,之前突变体的获得主要依靠自然突 变、物理或化学诱变以及T-DNA 随机插入等手段[1]。这些方法存在突变效率低、突变位点随机等缺陷,且后续还需要通过图位克隆等耗时耗力的技术手段才能最终确定突变基因。因此,在特定的位点引入核苷酸变异,实现基因的定点编辑能高效地获得目标突变体,从而加快基础研究和遗传育种的进程。基因编辑技术主要是利用序列特异性核酸酶 (Sequence specific nucleases, SSNs) 在特定基因位点产生 DNA 双链断裂,借助编辑受体自身的 DNA 修复系统在非同源末端连接 (Non-homologous end joining, NHEJ) 过程中产生随机的 Indels(Small insertions and deletions) 或在同源重组修复过程中 插入或替换相应的基因片段,最终实现基因组序列 的突变。现有的基因编辑系统主要包括锌指核酸酶 (Zinc finger nucleases, ZFNs) 系统、类转录激活因子效应物核酸酶 (Transcription activator-like effector nucleases, TALENs) 系统以及 CRISPR/Cas (Clustered regularly interspaced short palindromic repeat-associated protein) 系统[2] ,其中,CRISPR/ Cas 系统由于载体构建过程简单、编辑效率高等优 点,成为当前广泛应用的主流基因编辑系统。本文回顾了CRISPR/Cas系统的发现和编辑技术体系建 立的历程,介绍了CRISPR/Cas 编辑技术在植物中的应用以及编辑结果的分析方法,并展望了 CRISPR/ Cas 基因编辑技术以及编辑靶点分析技术的发展趋势。
1 CRISPR/Cas 免疫系统的作用机制和分类
科学家们对 CRISPR/Cas 免疫系统的研究早在 30 年前就已经开始。1987 年,日本研究团队在研究大肠埃希菌 Escherichia coli 碱性磷酸酶的同工酶基因 iap 的时候发现,在该基因的 3'端存在特殊的侧翼结构,即 29 bp 的高度相似序列分别被 32 bp 序列间隔,形成了 5 个拷贝的串联重复序列[3]。但该团队并未对此现象进行更深入的研究。Mojica 等[4-5] 对此产生了浓厚的兴趣,他们利用生物信息学检索探究,在 20 多种微生物中都发现了类似的短 序列重复结构,并将这种短序列重复结构命名为规则的短间隔重复 (Short regularly spaced repeats, SRSRs);提出 SRSRs 可能存在于原核生物基因组, 包括所有嗜热细菌和古细菌中以及部分的蓝藻和变形菌门生物;总结了 SRSRs 的基本特征:24~ 40 bp 的短回文序列 (回文区可达 11 bp) 成簇存在, 并被非重复的 20~58 bp 序列间隔开来。2002 年,为了更贴切地表示 SRSRs 的特征以及避免命名的混乱,Jansen 与 Mojica 商定将 SRSRs 更名为成簇有规律的间隔短回文重复序列 (Clustered regularly interspaced short palindromic repeats,CRISPR)。Jansen 等[6] 发现大部分种类的原核生物具有 2 个或 2 个以上的 CRISPR 基因座前导序列,而这些 CRISPR 基因座前端共享一个 300~500 bp 的种间 保守前导序列,并通过比较 CRISPR 基因座侧翼的基因组信息,鉴定出不同原核生物中高度相似的 4 个 CRISPR 关联基因:Cas1~Cas4。2005 年,Mojica 等[7] 再次发表了对 CRISPR/Cas 系统研究的最新结 果,他发现 CRISPR 中的间隔序列大部分来自噬菌 体或接合质粒,并且携带某一噬菌体片段的细菌具 有对相应噬菌体的抵抗力;CRISPR 基因座存储了病原菌的基因信息,可能是微生物适应性免疫系统 的一部分。随后,另有 2 个科研团队也发表了相近 结果的论文[8-9]。2007 年,Barrangou 等[10] 证明了在 噬菌体攻击后,筛选到的抗性细菌的 CRISPR 区整 合了新的间隔序列,而间隔序列正是来源于噬菌体 DNA,也就是说,细菌通过识别与噬菌体序列相同 的 CRISPR 间隔区对应的特定序列,获得对噬菌体 的抗性,产生适应性免疫能力;还确认了 CRISPR 关联基因 Cas7 帮助细菌获得新的间隔序列和重 复,Cas9 则发挥了核酸切割酶的作用,为细菌免疫 系统所必需。随后的几年,CRISPR 细菌免疫系统 的必要条件和作用机制相继被发现和证实,如 CRISPR 中依靠重复序列形成的 crRNA 是 CRISPR 产生抵抗力的关键[11] ,Cas9 切割的对象是 DNA[12] , 且对 DNA 的精准切割的位点与 crRNA 特定序列 和 PAM(Proto-spacer adjacent motif) 序列有关[13-14] , Ⅱ型系统中 tracrRNA 也参与了 Cas9 的切割[15] 等等。
CRISPR/Cas 系统广泛分布于 90% 的古细菌 及 50% 的细菌基因组或质粒上[16]。它由 CRISPR 基因座和 Cas 基因 2 部分组成,其中,CRISPR 基因 座又包括位于 CRISPR 基因座上游富含 AT 碱基的 前导序列 (Leader)、涵盖回文序列的 20~50 bp 的重 复序列 (Repeat) 和从外源捕获的间隔序列 (Spacer)。CRISPR/Cas 系统的免疫过程分为 3 个阶段[17] :1) 外 源 DNA 首次入侵时,细菌进入适应阶段,来源于噬 菌体或质粒上的前间隔序列 (Protospacer) 的 DNA 同源短片段被整合到 CRISPR 基因座前导序列下游 中,形成新的间隔序列;2) 外源 DNA 再次入侵时, 细菌激活了表达阶段,CRISPR 基因座转录出前体 crRNA,由内切核糖核酸酶催化加工成成熟的 crRNA;3) 在干扰阶段,成熟的 crRNA 引导 Cas 蛋 白复合物靶向噬菌体前间隔序列位置,识别噬菌体 基因组内的 PAM 序列,对外源靶标位置精准切割 从而避免细菌切割自身 CRISPR 基因座。
2012 年,Jinek 等[15] 在《Science》上发表研究成 果,证明了crRNAs(CRISPR RNAs) 与反式作用 crRNA(Trans-activating crRNA,tracrRNA) 配对结合后形成双分子的 RNA 结构,可以介导 Cas9 蛋白定 向切割 DNA 序列。2013 年,张峰团队率先利用 CRISPR/Cas9 技术在人类和小鼠细胞内实现了精准 的基因编辑,并构建了可同时靶向多个位点的基因 编辑系统[18]。此后,CRISPR/Cas 基因编辑技术蓬勃发展。
Makarov 等[17, 19] 根据 Cas 基因的数目和功能 将 CRISPR/Cas 系统分为了 2 大类 5 种类型 (Ⅰ~Ⅴ)16 种亚型,其中,Ⅰ、Ⅲ和Ⅳ型属于第 1 类,它们在 干扰靶基因时需要多个 Cas 蛋白形成复合物协同 工作;Ⅱ和Ⅴ型属于第 2 类,它们利用单一 Cas 蛋白就能够干扰靶基因。第 2 类Ⅱ型系统较为简单,研究也更加透彻,目前应用较广的 CRISPR/Cas9 系统为Ⅱ型 CRISPR 系统,而新兴的 CRISPR/Cas12a (Cpf1) 系统属于Ⅴ型 CRISPR 系统。Shmakov 等[20] 2015 年又发现了Ⅵ和Ⅴ型的 2 种亚型。
2 CRISPR 基因编辑系统的建立
在对细菌的 CRISPR/Cas 免疫系统及作用机理有了较深的认识后,科学家们开始对该系统进行改 造并应用于动植物的基因组编辑。目前应用最广泛 的 CRISPR 基因编辑系统主要包括 CRISPR/Cas9 系统和 CRISPR/Cas12a 系统。
2.1 CRISPR/Cas9 系统的建立
CRISPR/Cas9 是目前报道的唯一被优先应用于基因编辑的Ⅱ型系统。与Ⅰ和Ⅲ型 CRISPR 系统需 要多个 Cas 蛋白形成复合物共同发挥功能的机制不同,Ⅱ型 CRISPR 系统仅需 1 个 Cas 蛋白和 2 个 RNA 元件即可实现对靶 DNA 的切割[15]。为了进一 步简化 CRISPR/Cas9 系统,研究者通过保留必需元件 tracrRNA 和 crRNA 的核心序列并引入连接区, 将两者合并为一个 sgRNA(Single guide RNA),并通过体外试验证实 Cas9 蛋白能在 sgRNA 的引导下切割双链 DNA,这一系列成果为 CRISPR/Cas9 在基因编辑中的广泛应用奠定了坚实基础。自 2013 年起,利用 CRISPR/Cas9 技术相继实现了对人类细 胞、小鼠细胞、斑马鱼、果蝇、水稻、拟南芥等真核系统中的内源基因组编辑[21-30]。
CRISPR/Cas9 基因编辑技术主要包括两大核心内容:1) 构建 Cas9/sgRNA 表达载体,将载体导入受 体细胞表达发挥编辑作用;2) 将表达纯化的 Cas9 蛋白与合成的 sgRNA 导入受体细胞发挥编辑作用。来源于链球菌 Streptococcus pyogenes 的 Cas9 蛋白 SpCas9 最先被应用于基因编辑,该蛋白含有一个 RuvC-like 结构域和一个 HNH 核酸酶结构域,两者分别在靶 DNA 的 PAM 序列“NGG” 上游 3 nt 处对 DNA 双链进行切割,形成平末端。在真核系统中,需要在 Cas9 蛋白中添加一段核定位信号以保证该蛋白进入细胞核正常发挥功能。sgRNA 是一段具有特定结构的单链 RNA,其 5'端 约 2 0 个碱基与靶 D N A 互补配对结合,引导 Cas9/sgRNA 复合物对相应位点进行切割,决定编辑位点特异性。因此,在构建 Cas9/sgRNA 表达载体编辑受体基因组中不同的位点时,只须改变 sgRNA 中 5'端的特异位点识别序列,而其他元件可保持不变,极大地降低了载体构建的技术门槛。此外,通过构建多个 sgRNA 表达盒的串联载体,可 实现同时对多个靶位点的有效编辑,显著地提高了该系统的编辑效率。在 Cas9/sgRNA 表达载体构建完成后,需要通过多种转化手段将表达元件或 Cas9/sgRNA 产物导入到编辑受体中发挥功能。在植物系统中,将 Cas9/sgRNA表达载体导入植物细胞的有效方法包括原生质体PEG 转染、农杆菌叶片注射法、基因枪轰击、农杆菌介导转化等,不同方法在不同植物中的编辑效率各异[31-33]。在此基础上, 不同实验室针对植物系统影响编辑效率的关键因素如 sgRNA 序列、启动子选择、Cas9 变体或同源蛋白的选择等进行了一系列探索和优化[31, 33-35]。
2.2 CRISPR/Cas12a 系统的建立
虽然 CRISPR/Cas9 被广泛应用,但该系统仍存 在编辑位点受限、脱靶情况较多等缺陷,因此开发 与建立新的 CRISPR 基因编辑系统是科学家们研究 的热点之一。CRISPR/Cas12a 属于Ⅴ型 CRISPR/ Cas 系统,它同样只需一个 Cas 蛋白即可对双链 DNA 进行切割,但其作用元件和作用模式与 CRISPR/ Cas9 截然不同[36]。首先,仅携带 RuvC-like 结构域的 Cas12a 在 crRNA 引导下即可切割双链 DNA,不 需要 tracrRNA 的参与;其次,C12a 特异识别富含 T 的 PAM 序列;最后,Cas12a 在靶 DNA 的 PAM 序列下游 18 nt 处 (正链) 和 23 nt 处 (负链) 对 DNA 双链进行切割,形成黏性末端。与 CRISPR/Cas9 相 比,该系统具有如下独特优势[ 3 7 - 3 8 ] :1)CRISPR/ Cas12a 系统的 crRNA 比 sgRNA 更短,且 Cas12a 蛋白也比 Cas9 蛋白更小,因此,CRISPR/Cas12a 适用于更多装载量小的载体系统,特别是多靶点编辑 的情况;2)Cas12a 切割 DNA 后形成黏性末端,增 加了HDR 修复途径发生的概率,有利于 DNA 片段 的定点插入和替换;3) 在多个物种的基因编辑中, CRISPR/Cas12a 表现出更低的脱靶率。
目前,CRISPR/Cas12a 在基因编辑中的应用仍局限于少数物种,植物的研究大部分集中在水稻系 统[39-46] 以及少数烟草、拟南芥、大豆和玉米等系统 的报道[39, 42, 46-47]。这可能是因为 CRISPR/Cas12a 在 低温条件下编辑效率低[46] ,且较严格的 PAM 序列 “TTTV”降低了该系统的编辑范围。基于其自身的 优点及局限性,CRISPR/Cas12a 成为了继 CRISPR/Cas9 后第 2 个被广泛关注的基因编辑系统,两者互为补 充,进一步丰富了基因组编辑系统选择的多样性。
3 CRISPR/Cas9 在植物基因组编辑中的应用
目前 CRISPR/Cas9 在植物基因组编辑中的应用主要包括基因功能研究和作物遗传改良,编辑形 式可分为功能基因的敲除、基因 (片段) 的定点插入或替换、单碱基编辑和基因表达调控 4 个方面。
3.1 功能基因的敲除
利用 CRISPR/Cas9 对功能基因进行特异敲除是目前该系统在植物中应用最广泛的方向。这是由 于 Cas9 蛋白切割目标 DNA 形成双链断裂后,往往会优先启动编辑受体中的 NHEJ 易错修复途径,大 多数情况下可以在切割位点附近产生碱基并插入缺失 (Indel),且大部分是 1 bp 的插入、小部分为短 片段缺失[48-49]。当产生的 Indel 位于基因外显子且 碱基数不是 3 的倍数时,便会造成密码子的移码突 变。对于二倍体植物如水稻,由 CRISPR/Cas9 产生 、突变的效率能达到 80% 以上[50]。当 2 个等位基因 同时被编辑产生双等位突变或纯合突变时,便能实现基因的敲除。对于多倍体植物,所有等位基因同 、时被编辑的概率偏低,因此多倍体植物特别是小麦、土豆等农作物的高效编辑体系构建仍是当前研 究的难点[51-52]。
基于 CRISPR/Cas9 系统介导基因敲除的高效性,多基因编辑技术随即诞生。多基因编辑主要有 2 条途径:1) 对多个同源基因同时进行敲除,此时只需以它们的保守序列作为靶点,设计一条 sgRNA 即可敲除多个基因,但该方法使用范围受限;2) 对不 同基因设计针对不同靶点的 sgRNA,将多个 sgRNA 表达盒连接到表达载体并导入编辑受体,如在水稻 中能实现 7 个基因的同时敲除[49]。这种多靶点编辑 技术特别适用于功能冗余基因、基因家族和同一生 化途径中多个基因的功能研究,以及农作物中多个 农艺性状的改良。此外,多靶点编辑技术还能通过在 基因片段两侧各设计一个靶点,实现片段的删除。目 前利用该方法可成功删除大于 100 kb 的染色体片段,而对于 1 kb 以内 (特别是<100 bp)的小片段则拥 有较高的删除效率[53-55]。片段删除法可以对基因进 行更彻底的敲除,特别是针对非编码基因,也可用于特定结构域的功能分析。已有大量研究通过对水稻的已知基因进行 CRISPR 编辑敲除从而快速获得具有高抗、高产、高品质等优良性状的植株 (表 1)。
3.2 基因 (片段) 的定点插入或替换
当利用 CRISPR/Cas9 引入 DNA 双链断裂的同 时引入一个供体片段,且该片段的两端携带与 DNA 断裂处相似的序列,此时编辑受体有一定的概率会 启动 HR 修复途径,通过同源重组实现供体片段的 精确插入或替换。与 NHEJ 途径造成的随机插入或 缺失相比,该编辑方式更加精准灵活,可实现多个 控制优良性状基因的稳定聚合,解决传统育种中优 良性状无法连锁遗传的问题,因此具有更广泛的应 用前景。虽然自 CRISPR/Cas9 技术诞生以来,已在 烟草、拟南芥、水稻、大豆、玉米等植物中实现基因 片段的精准插入或替换,但这些案例的编辑目标基 因往往就是抗性基因,依赖于使用筛选剂富集编辑 细胞,编辑效率低[75]。
为了提高编辑效率,科学家们采取不同的方式 对该技术进行改良。鉴于 HR 修复途径的低效性, 有研究通过在相邻的内含子中分别设计一个靶位点,利用相对高效的 NHEJ 途径实现基因的定点插 入和替换,而内含子中插入连接点的碱基变异不会影响所在基因的功能[72]。另外,由于供体片段向编 辑受体的传递不到位是影响 HR 途径编辑效率的主 要原因之一,有研究利用双生病毒系统作为供体片段的载体,通过复制出大量供体片段拷贝,从而提 高插入编辑效率[76]。然而,这些系统大多数仍需要 使用额外的抗性标记提高编辑效率。为了寻求更理 想的技术体系,有研究者提出一种不依赖抗性标记 的连续转化方法,该方法通过在母细胞系中利用卵 细胞来源的早期胚胎特异启动子驱动 Cas9 的表 达,提高拟南芥中同源重组介导的基因插入和替换 的概率[77]。
3.3 单碱基编辑
目前的单碱基编辑技术是指对目标基因片段 中的特定位点的单个碱基进行转换。该技术的建立 最早依赖于胞嘧啶脱氨酶的使用[7 8] ,其作用机理 是将胞嘧啶脱氨酶和人工突变后的 DNA 切口酶 nCas9 进行融合,融合蛋白在 sgRNA 的引导下将靶 点 PAM 序列上游约 5~12 碱基范围内非靶标链上 的胞嘧啶 (C) 转换为尿嘧啶 (U),同时切割靶标链 产生单链断裂,此时编辑受体启动修复机制,以非 靶标链为模板将互补链中的鸟嘌呤 (G) 替换为腺嘌 呤 (A),最终实现 C/G 到 T/A 的转换,该系统因而 被称为胞嘧啶编辑器 (CBE)。此外,尿嘧啶糖基化 酶抑制蛋白 (UGI) 的使用可提高 DNA 中尿嘧啶的 稳定性,从而使编辑效率高达 75%[78]。另一项研究 通过定向进化法在大肠埃希菌中获得一个突变型的腺苷脱氨酶,可将 DNA 中的腺嘌呤转化为次黄嘌呤 (I),后者在 DNA 复制过程中可被识别为鸟嘌呤[79]。将腺苷脱氨酶与 nCas9 进行融合,即可通过类似于 CBE 的机制实现靶序列中 A/T 到 G/C 的转换,该系统被称为腺嘌呤编辑器 (ABE)。CBE 和 ABE 系统的建立使单碱基编辑能实现 4 种形式的碱基转换,该系统不依赖于 DNA 双链断裂的产生, 既规避了 NHEJ 修复途径的随机性,也摆脱了 HR 修复途径效率低的限制。
目前,已有多篇报道分别将 CBE 和 ABE 系统 加以改造并应用在水稻、小麦、玉米、番茄、拟南芥等植物中[73-74, 80-86] ,且以水稻的研究居多。这些研究表明,同一编辑系统对不同靶点的编辑效率差异较大[73-74] ,而造成这种差异的具体原因仍需进一步研究。此外,利用基于胞嘧啶脱氨酶 APOBEC1 的 CBE 系统进行基因编辑时,该酶对编辑位点具有偏好性,仅对序列为 TC 中的 C 有较强的编辑效率[74,87]。因此,有研究者提出用 hAID 替代 APOBEC1[87] , 前者偏向于对 GC 或 AC 中的 C 进行编辑,该系统与 APOBEC1 系统互为补充,提高了 CBE 编辑的适用性。
3.4 基因的表达调控
对于生长发育必需基因,彻底敲除往往会造成 植株死亡从而无法获得敲除体,因此需要通过调控 表达量进行相关的功能研究。目前提高基因在植物 中的表达主要依赖于外源基因的插入,但该技术无 法控制基因插入位点和拷贝数,从而导致表达水平 不稳定,且进行多基因插入时载体构建过程繁琐。在农业生产中,重要农艺性状往往由数量性状基因 座 (QTL) 控制,而传统育种常需要耗费大量精力对 启动子中携带有利变异的 QTL 进行筛选与利用。因此,通过 CRISPR/Cas 等技术实现植物体内源基 因精确、高效的表达调控是理论研究和生产实践的迫切需求。
目前,利用 CRISPR/Cas9 调控植物基因表达主要有 2 种途径。一种途径是用 Cas9 蛋白对目标基 因的启动子区的顺式调控元件 (CRE) 进行编辑或 直接删除,改变基因的表达水平或模式[88]。该方法 的代表性研究为 Rodriguez-Leal 等[89] 通过对番茄中 多个基因 CRE 的编辑获得了人工的 QTL 变异,实 现了果实大小等重要农艺性状的精准调控。该方法 可通过后代分离获得不带转基因的编辑个体,但也 存在随机性高、未必能获得理想性状等缺陷。另一 种途径是将人工突变后失去核酸酶活性、却仍保留 DNA 结合能力的 dCas9 蛋白与特定的转录调控结构域融合,通过 sgRNA 将融合蛋白带到目标基因 的启动子区,抑制或激活该基因的表达[90]。目前该 方法已成功应用在拟南芥、烟草和水稻中[91-93]。此 外,dCas9 还能通过融合乙酰转移酶等蛋白实现表 观遗传编辑,从而调控基因表达[90] ,但植物中相关 研究鲜见报道。
4 CRISPR 基因编辑靶点的分析技术
CRISPR/Cas 系统对植物基因组的编辑简单易行、成本低、突变率高,能实现多个基因同时编辑, 是生物技术的重大突破,它的应用使得基因功能研究和作物遗传改良等领域飞速发展。利用 CRISPR/ Cas 系统在植物中进行基因编辑后,植株将产生不同类型的突变。为了更好地解析编辑后植株的突变类型,科研工作者开发了以下 3 种基于不同原理的 靶点分析技术。
4.1 基于 Sanger 测序的靶点分析技术
利用 CRISPR/Cas 系统对二倍体植物基因编辑后,植株多产生简单突变,如纯合突变、双等位突变和杂合突变[49]。基于 Sanger 测序的靶点分析技术主要适合于简单突变的样品。Ma 等[49] 利用植物密 码子优化 Cas9 基因,构建了一个高效、强大的多靶 点 CRISPR/Cas9 基因编辑载体系统,可以方便快捷地实现对单子叶植物和双子叶植物的多重基因组编辑,编辑效率高达 85.4%。为了获知靶点的突变情况,经典的解码方法是利用特异引物将包含靶点序列的 DNA 片段扩增下来,构建克隆,并挑取多个克隆进行 Sanger 测序。但这种方法花费高、耗时长,在编辑植株较多时工作强度大。如果直接将 PCR 产物测序,纯合突变株在基因组内发生的具体突变 (缺失、插入或替换) 可以通过野生型序列和突变株序列比对获知;但当突变类型为双等位突变和杂合突变时,测序峰图便会从突变位点起延续杂乱的双峰[94]。
Ma 等[94] 开发了一种高效、简单且能快速解码 来自于杂合突变或双等位突变的 PCR 产物测序双峰信息的方法,叫简并序列解码 DSD(Degenerate sequence decoding)。其工作原理是:1) 测序峰图中, 以第 1 个双峰处为起点,标注 10~12 bp 的简并序 列 DS(Degenerate sequence),双峰上游 8~10 bp 为 锚定序列 AS(Anchor sequence);2) 将 DS 与野生型序列进行比对搜索,获得匹配;3) 将简并匹配得到的序列与 AS 链接,获得等位链 1 的突变情况,利用简并减法获得等位链 2 的突变情况[94-95]。
DSD 方法简单可靠,但若需要解码数量更多的突变序列,手动解码还是较费时。为了更高效率、更人性化地解决这个问题,Liu 等[95] 以 DSD 方法为原理编写程序,开发了一个基于网页的、多功能的对 包含靶位点 PCR 扩增产物的测序文件直接解码,输出突变类型的网页版解码工具 DSDecode,可解码纯合突变、双等位突变、杂合突变等。为了更快地同时处理大量测序文件,Xie 等[9 6] 将该软件升级至 DSDecodeM (http://skl.scau.edu.cn/dsdecode/),可以同时解码多个测序文件;更方便的是,该团队开发的一站式基因编辑软件工具包 CRISPR-GE (http:// skl.scau.edu.cn),可将 CRISPR/Cas9/Cas12a 的靶点 选择、脱靶预测、载体构建引物设计和对突变靶点 测序分析解码一体化,使植物基因组编辑的工作更 加自动化、人性化和高效可靠。
4.2 基于高通量测序的靶点分析技术
当植株的突变类型复杂,包括简单突变和嵌合 突变 (一个靶点产生的突变多于 2 种)、或者需要解 析多倍体物种的基因组编辑、或者一次性测大量的靶点突变事件时,基于 Sanger 测序的靶点分析技术便不太适用了,此时基于高通量二代测序 NGS (Next generation sequencing) 的靶点分析技术应运而生。已开发的高通量测序分析靶点技术包括 AGEseq、Cas-analyzer、CRISPR-GA、CRISPResso 和 Hi-TOM 等。
Xue 等[97] 开发的 AGEseq 是第一个支持高通量测序数据的基因编辑分析平台,它同时也支持 Sanger 测序数据,是基于 Galaxy 的网页工具,若需处理大量数据,可以下载独立的软件程序。Park 等[98] 开发的 Cas-Analyzer 是一个基于 JavaScript 的 NGS 数据分析平台,支持各种可编程核酸酶诱 导的突变频率分析,包括单核酸酶和配对核酸酶, 如 ZEN、TALENs、CRISPR/Cas9 以及 CRISPR/ Cpf1 系统等。由于 Cas-Analyzer 是完全在客户端 Web 浏览器中即时使用,无需将庞大的 NGS 数据 集上传到服务器,支持上传压缩文件,节省了时 间[98]。Güell 等[99] 开发的 CRISPR-GA 是简易评估 基因编辑质量的平台,评估过程只需要点击 3 次鼠 标。它用于评估二代测序数据并量化编辑效果,如 对在编辑位置发生插入、删除或同源重组的数量、 比例以及对不同突变类型的检测分析,并能够生成 一个报告。Pinello 等[100] 开发的 CRISPResso 可以 准确定量和可视化 CRISPR-Cas9 结果,并对编码序 列、非编码元件和选定脱靶位点的影响进行综合评 估,可用于定性和定量评估基因组编辑结果,以及 标准化和简化目前需要开发自定义内部算法的分析。Liu 等[101] 开发的 Hi-TOM 可用于多个样品和多 个靶位点的突变鉴定,可获得精确的百分比数据。搭桥序列和 Barcode 引物的引入大大提升了 HiTOM 可同时检测的样品通量,简化的 NGS 文库构 建和综合结果输出使 Hi-TOM 特别适用于由 CRISPR/Cas 系统诱导的所有类型突变的高通量鉴 定,尤其是复杂基因组编辑或复杂嵌合突变,具有 高可靠性和灵敏度。
4.3 基于非测序手段的靶点分析方法
上述 2 种基于测序数据的靶点分析方法的优 势在于可以直观地获取突变的具体信息,包括突变 位点、类型及等位链上变化的碱基数。
基于非测序手段的靶点分析方法包括 PCRRE(PCR/restriction enzyme) 法、T7E1(T7 endonuclease I) 法和 HRM(High-resolution melting assay) 法等,这 些方法无需获知具体的碱基变异序列就能简易地 辨别基因编辑是否成功。如果设计得当,可以使限 制性内切酶切割位点落在靶点位置上,若 CRISPR/ Cas 系统功能产生了突变,限制性酶切位点也遭到 了破坏,酶切基因组 DNA 后可用 PCR 扩增确认, 这就是 PCR-RE 法[102-103]。PCR-RE 法要求靶点处有 酶切位点,这大大限制了靶位点的选择。利用特异 切割错配分子的 T7EI 或 SURVEYOR 酶也可以检 测突变情况,将来源于打靶样品与野生型样品的包 含靶序列区段的 PCR 扩增产物混合后,变性再复 性,使突变序列与野生型序列产生错配分子,用 T7E1 切割后电泳检测[104]。此方法同样可以用于检 测突变的靶位点及计算突变效率,检测灵敏度较 PCR-RE 法低,但没有靶序列的限制[103]。HRM 法是 利用突变后序列与野生型序列的熔解曲线不同筛 选突变株,同时利用单链突变片段的构象改变、以 及在非变形 PAGE 胶上随之改变的迁移率来鉴定 突变分子的方法[105]。
5 基因编辑技术的脱靶风险评估
脱靶效应是指在基因编辑过程中,CRISPR 系 统对非靶标位点进行非特异编辑从而导致不可控 的基因组变异。由于编辑特异性是决定 CRISPR 系 统应用前景的重要因素,自该技术诞生以来已有大 量的研究对其脱靶效应进行了分析,并发现编辑细 胞中确实存在脱靶现象,且脱靶情况的出现与靶序 列的特异性有关[29, 106]。为了更全面地分析 CRISPR 基因编辑个体的脱靶情况,多项研究利用全基因组 测序分别检测了小鼠和大鼠[107] 、水稻[108-109] 、番茄[110] 、 棉花[111] 等 CRISPR 编辑动植物的全基因组脱靶情 况,发现由 Cas 蛋白/sgRNA 复合物引起的脱靶仅 在一些具有相似性的靶点中低概率发生,说明 Cas 蛋白介导的基于 NHEJ 途径的编辑具有较高的特异 性。此外,单碱基编辑系统的特异性也是近年的研 究热点。基于胞嘧啶脱氨酶活性的 CBE 系统在编 辑位点处容易产生 Indel 或其他非特异编辑[74, 80] ,而 类似情况并未出现在 ABE 编辑植物中[73, 84-85]。通过 全基因组测序分析发现,CBE 编辑小鼠和水稻均存 在大范围的脱靶效应,且该脱靶现象与 Cas 蛋白的 活性及 sgRNA 的特异性无关[112-113]。表明 ABE 相 比于 CBE 具有较高的编辑特异性,同时也进一步 证实了基于 Cas 蛋白和 sgRNA 复合物的基因编辑 具有较低的脱靶风险。
为了降低由 Cas 蛋白/sgRNA 复合体造成的脱 靶风险,研究者提出了多种解决途径:1) 通过截短或优化 sgRNA 结构提高编辑特异性[114-116] ,但也有研究表明靶位点识别序列不完整的截短 型 sgRNA 会严重降低该系统在植物中的编辑效率[117] ;2) 在设计靶点时使用软件 (如 CRISPR-GE[96] ) 分析 脱靶风险,挑选特异性高的靶点进行编辑,并在编 辑后对潜在脱靶位点进行测序分析;3) 降低编辑受 体内 Cas 蛋白/sgRNA 复合物的含量[116] 或直接将预 先合成的 Cas9/sgRNA 核酸蛋白复合体导入编辑受 体中[118-119] ;4) 将 Cas9 蛋白点突变为核酸切口酶,使 用成对的切口酶分别在靶标链和互补链中产生单 链断裂[114-115] ;5) 通过结构改造获得特异性高且不影 响编辑效率的 Cas9 蛋白变体,如 eSpCas9[ 120 ] 、 SpCas9-HF1[121] 等。针对单碱基编辑系统 CBE,其 大范围脱靶的产生应该是由胞嘧啶脱氨酶的活性 造成,因此该类脱靶情况无法通过提高 sgRNA 特 异性来避免,也许能通过人工改造降低脱氨酶活 性、降低胞嘧啶脱氨酶−UGI 复合物在编辑受体中 的积累量、或寻找特异性高的新型胞嘧啶编辑器 3 种途径解决[122]。
虽然已有大量工作对 CRISPR 进行优化并提高 其特异性,但目前仍无法完全避免编辑个体脱靶的 情况。因此,在利用 CRISPR 技术 (特别是 CBE 系 统) 进行基因编辑时,不能忽略潜在的脱靶风险。对 于基因功能研究,为了排除脱靶现象造成的结果误判,应对多个独立编辑个体进行基因型和表型的关联分析,确定表型的变化是由目标基因的突变引起 的。对于医学治疗领域,由于涉及到人类的健康和 伦理问题,CRISPR 技术的应用须实现“零风险”,因此开发精准高效的体内全基因组脱靶检测技术如 VIVO[123] 、DISCOVER-Seq[124] 等是推动 CRISPR 在该领域稳健发展的重要手段。对于农作物育种,尽 管脱靶也同样会对农作物造成正面或负面的影响, 但育种过程就是一个人工选择性状的过程,若脱靶造成了农艺性状的劣化,可通过对后代进行分离性状筛选去除脱靶个体;若脱靶产生了性状的优化, 则可将该脱靶位点保留并做进一步研究。可见,脱 靶情况的存在基本不会阻碍 CRISPR 技术在基因功 能研究和农作物育种中的应用,而该技术在医学治 疗中的普及则有待脱靶检测体系的进一步优化和 基因编辑特异性的进一步提高。
6 展望
CRISPR 基因编辑技术由于操作过程简便、编 辑效率高、支持多靶点编辑、编辑形式多样等优势, 在短短几年内飞速发展,并在多种植物中得到广泛 应用,为基因功能研究及作物性状改良做出了重要 贡献。随着越来越多的功能基因被克隆,该技术在 生产实践上的应用范围将越来越广。然而,该技术 仍存在一些不足之处:1) 脱靶效应的存在,其潜在 的风险以及相应解决手段已在前文详细阐述。2) 由 于 Cas 蛋白的 PAM 序列相对固定,会出现部分基 因难以寻找合适编辑位点的情况。研究者们主要通 过 2 种途径解决这一问题,其一是通过人工改造 Cas9 蛋白序列使其识别不同的 PAM 位点,其二是 在不同物种中寻找并鉴定更多的 Cas9 同源蛋白, 甚至是来源于不同免疫系统的其他 Cas 蛋白 (如 Cas12a),从而扩大 CRISPR 技术的应用范围[125]。3) 依赖 HR 同源修复的基因精准编辑相比于其他编 辑形式具有更广泛的应用前景,虽然已有多项研究 致力于在植物中建立相应编辑系统,但这些系统的 编辑效率仍远不及由 NHEJ 修复介导的易错编辑系 统,且尚未能在植物中推广应用。因此,仍需通过优 化已有的系统或建立新的技术体系从而突破目前 的技术瓶颈。
随着二代测序的发展,基因编辑技术基于高通 量测序手段的靶点分析技术有了坚固的技术基石, 高通量大数据的获取变得更平常、更方便,价格也 更亲民。基因编辑技术的飞跃也使得植物基因功能 探究如虎添翼,科学家们也倾向于寻找更复杂物种 基因组内隐藏的秘密。在接下来的数年间,CRISPR/ Cas 仍会作为主流基因编辑系统应用于各物种的基 因功能探究以及植物遗传性状改良等领域。靶点分 析技术需向更高通量、更深层次、更快捷、更智能方 向发展,如果能搭上信号传输通路和人工智能发展 的快车,将会大大助力基础科学研究。目前,基于二 代测序的基因编辑数据分析平台的功能还不够强 大,易用性不够友好。刘耀光团队开发了基于二代 测序的更高通量、更加灵活易用的检测软 件 HiDecode,一次可以鉴定多达 96×96 个靶点的突变 样品,每个突变体可以同时检测多个不同靶点 (未 发表),大大省去了看样本峰图分辨突变情况的时间 和精力,让研究更高效。
总之,基于 CRISPR 的植物基因组编辑技术体 系仍有诸多技术难点尚未攻克,发展更高效精准的 基因编辑系统,优化突变检测技术仍是今后的努力 方向。
参考文献:省略