未来40年基因测序展望
研究人员对基因测序数据的需求越来越大。
Eric Green、Edward Rubin和Maynard Olson三位科学家对未来40年基因测序技术的应用进行了展望。
四十年前,也就是1997年前,两篇论文首次报道了确定DNA片段中化学碱基顺序的简易方法。在此之前,分子生物学家们只能检测DNA片段,而不能检测碱基。
此后,DNA测序技术的发展一日千里——从最开始的简单检测逐渐演变到今天的高通量测序。过去30年,数据生成呈指数增长,而过去10年里,由于高通量测序,数据产生量呈超指数增长。并且,基因测序产生的数据已经在基础生物学等诸多领域产生了革命性的影响,应用范围渗透到考古学、刑事调查和产前诊断等多个行业。
那么,未来40年基因测序会取得哪些发展?
对于哪些技术(或更重要的是哪些应用)将是最具革命性的,预言者往往错得离谱。在互联网发展初期,很少有人预测到电子邮件会全球普及。同样地,华尔街的交易员和硅谷的投资者都没有预见到,游戏、在线视频和社交媒体会成为现今网络的“三驾马车”。
虽然我们对DNA测序的未来的预测也没有做的更好,但是,还好我们提供了一个思考性的框架。我们的核心观点是,DNA测序的发展将由杀手级应用驱动,而非由杀手级技术驱动。
需求
技术的改进可以增加或减少需求。正如Bill Gates曾经举过一个例子:随着轮胎设计越来越耐用,市场对轮胎的需求反而会减小,最后导致轮胎行业萎缩。
不过我们认为DNA测序的发展将遵循计算机和照相机的模式,而不是轮胎的发展模式。随着成本的降低、速度的加快,DNA测序的应用将会增加,需求将会上升(图“更好、更快、更便宜”)。随着DNA测序从实验室进入临床、消费者和其它领域,DNA测序的发展将遵循“更多供应意味着更多需求”的规则。
目前研究者对于基因测序数据的需求不断扩大。在20世纪90年代,对人类基因组进行测序似乎是不可能的任务。现在,遗传学家希望对地球上每个人每个组织中的每个细胞的每个发育阶段(包括表观遗传修饰)都进行测序。他们还希望通过测序信使RNA分子的互补DNA拷贝来获得全面的基因表达谱。与此同时,考古学家们开始使用DNA测序重建人类祖先的基因漂流,正如以前推断语言、文化风俗和物质的演变一样。生态学家、微生物学家和进化生物学家也希望使用DNA测序技术分析所有生物(包括已灭绝的物种)物种,乃至整个生态系统的基因组。
显然,对数据的持续需求将需要大规模的数据解读。目前,DNA测序的瓶颈在于分析和解读数据。但是,正如新的信息学方法和大量数据集大幅改善了语言翻译和图像识别一样,我们预测大量DNA序列数据集与表型信息相结合将使研究人员推断出各个基因组序列对应的生物功能。
更重要的是,解读数据所需的大部分基础科学已经适用于实际应用(例如细菌基因组的高质量参考序列,或某些基因网络在健康人群中运行的规则)。例如,识别环境或临床样品中的微生物DNA序列,或鉴定与已知生物学表型相关的基因突变。
杀手级应用
多年来,DNA测序的平台发生了巨大变化(文末“测序平台的进展——多种DNA测序方法”)。然而,从类似的、需求似乎永远无法满足的技术(如智能手机、电脑和相机)的发展轨迹来看,真正推动DNA测序发展的,将会是应用,而非技术本身。
我们确信DNA测序在医学领域会产生革命性的影响。
在临床应用方面,DNA测序最具突破的是——单单针对使用频率——检测染色体数量异常的产前检测,例如导致唐氏综合症的21三体。这种基因筛查依赖于检测母体血液中循环的少量无细胞胎儿DNA。人类基因组计划的参与者们可没有想到,唐氏筛查会成为“医学史上发展最快的基因测试”。事实上,该领域的专家估计,全世界每年大约有400万到600万孕妇接受这一测试,十年之内这个数字将超过1500万。鉴于这类测试是非侵入性的、易于执行的,并且对核苷酸级精确度的要求较低(染色体数目评估可以不需要评估基因突变),所以这类测试在未来初级医疗中可能大有所为。
在高收入国家,基因组测序已经常用于检测患有研究不充分的先天疾病的儿童。30%的的情况下,基因检测可以发现这类疾病的致病突变,这一数字将会随着DNA测序解读数据的能力的成熟而上升。在某些情况下,DNA测序得到的诊断结果显著改善了治疗效果。更重要的是,基因检测得到的诊断较为准确,从而免除了患者和医生一一排除可能疾病的麻烦。
在肿瘤学方面,大量投资正在流入液体活检开发领域。液体活检技术将会发展成癌症筛查的常规工具,就像目前常用的Pap涂片和结肠镜检查一样。随着针对特定突变,而不是肿瘤类型的癌症治疗的出现,即使找不到肿瘤的具体位置,仅能通过血液样本DNA分析确定肿瘤的存在,液体活检检查也能最终指导治疗干预。
事实上,除了临床以外,DNA测序还有很多用武之地,例如手持DNA测序仪。流行病学家可以使用手持测序仪对空气、水、食物、动物和昆虫进行检测,更不用说人类咽拭子和体液了。事实上,在低收入和中等收入国家,这种简易DNA测序仪已推动了全球病毒组学项目(Global Virome Project)的开展。这样做的目的是要对许多野生动物DNA样本进行测序,以确定可以传播给人类,并导致疾病的病毒。
同时,公共卫生专家也开始讨论如何通过对城市垃圾中微生物进行测序,以加强对疾病疫情的监控。海洋生物学家正在探索如何通过系统的宏基因组学研究来监测海洋的生态环境。
在司法领域,便携式DNA测序仪可以将DNA分析带出实验室,使DNA测序成为一线警务工具。警方可能会“读取”人的DNA,就像他们现在检查车牌或身份证件一样。事实上,便宜和容易的DNA测序可能导致大规模监控情况的出现,这一点最近已经引起了人权团体的关注。
在家中,DNA测序设备可能可以成为继烟雾报警和恒温器之后,下一个“智能”或“连接”设备。一位评论员甚至认为,卫生间是通过实时DNA测序监测家人健康的理想场所。
碰到天花板
什么是DNA测序发展的绊脚石?
在仅仅40年里,细胞分子数据实际应用的核心目标从得到信息本身,变成了元信息化(meta-informational)。
以基因测序的临床应用为例。可能在不久的将来,DNA测序会成为体液分析的常规工具。但是,问题在于,百万人的多年医疗史的数据必须精心组织,才能提供解读元信息的框架,才能明确哪些数据应该保留,哪些应该深挖。
关于医学,我们同意美国国家研究委员会精密医学委员会(US National Research Council's Precision Medicine Committee)等咨询小组的建议——全球需要创造一个广泛的“信息共享体”。这将覆盖数百万人生殖细胞基因组测序的分子和临床数据。目前有一些项目正在开展这样的大规模人口工作,这些项目包括英国生物银行(UK Biobank resource)和美国全美研究计划(US All of Us Research Program)。
这里我们给出了最好的猜测。惊喜是确定的。事实上,从现在开始的几十年里,世界上大部分的数据(现在存储在硬盘或云端上)都可以存储在DNA中,而DNA测序的主要驱动力也不是疾病的诊断和治疗,而是我们对数据存储的迫切需求。
测序平台的进展——多种DNA测序方法
上图:彩色的DNA条带
过去40年,DNA测序技术曾多次更新换代。到1985年,几乎所有的DNA测序都用Sanger法或双脱氧链终止法进行:反应产物用放射性核苷酸标 记,在丙烯酰胺板凝胶上分离,并用放射自显影(使用X射线或照相胶片检测样品中的放射性标记) 进行检测。到了2000年,四色荧光法成为主流:使用终止链式反应的核苷酸类似物标记反应产物, 在填充有果冻样培养基的毛细管中电泳分离,并用能量转移荧光染料检测。到了2010年,测序技术 就更加多元化了。主要的手段是基于大规模平行分析DNA克隆(单个DNA分子的克隆扩增)和边合成 边测序的化学方法(这些方法依赖于可逆链终止子)。
从现在开始,每个DNA测序平台的性能将取决于它的用途。在肿瘤学和医学遗传学中,目标通常是正确识别每个基因,并定义存在于多个拷贝中的每个突变。相比之下,在一些只要求知道是否与特定序列匹配的应用——例如物种识别——中,便携快速成为了第一要务,此时准确性就没有那么重要了。
此外, DNA测序集中化和分散化的相对需求也可能发生变化。例如,一名流行病学家试图实时评估病毒对塞拉利昂某个特定村庄的影响,那么他可能需要便宜的便携设备。但是对于那些需要生成大量数据集的人来说,将样品运送到集中商业运作的DNA测序中心可能会更高效、更经济,尤其是那些对质量控制和样品追踪要求严格的应用(如临床应用)。