全基因组测序之旅,路往何方?

从1977年研究者预估按照当时的方法对人类进行全基因组测序需花费一百万的时间;到上世纪末本世纪初我们用了13年的时间初步完成人类全基因组草图绘制。今天,当一些先进的仪器在第一时间被我们使用时,全基因组测序的时间仅需数十个小时,然而从测序结果到数据分析过程一般可能需要几个月。质疑与挑战并存的全基因组测序,路往何方?

测序方法的进步推动精准医学发展

1977年,当剑桥大学的F.Sanger等人发明了利用DNA聚合酶的双脱氧链终止原理测定核苷酸序列的方法之后,研究人员发表了第一个进行全基因组测序的噬菌体的基因组PhiX174(全长5375个碱基),那时在一年内可对1000个碱基对进行测序。

当时研究者预计:若按照现有的测序方法,就是对埃希氏大肠杆菌进行全基因组测序,需要1000年的时间;若是对人类进行全基因组测序,则需花费一百万年的时间。

1995年第一次发表了两个独立生活的细菌的基因组,它们是流感嗜血菌和生殖道支原体。

从1977到1995年的18年间,人们测定了近千个“完全”基因组,不过那全是病毒和噬菌体(细菌的“病毒”)这类寄生生物的基因组。

由于测序技术的突飞猛进,我们仅用13年(1990年-2003年)的时间就完成了人类30亿个碱基对的测序,每测定一个碱基对的成本大约为1美元。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。这不仅为我们的测序节省了时间,而且开启了对疾病的精准治疗与基因突变关系的研究。

由于对基因深层次关系的研究,助推了我们对自身疾病和医学发展的思考,也逐渐建立了基因组技术为核心的“预测性 (Predictive)、预防性(Preventive)、个体化(Personalized)与参与性(Participatory)”为特点的现代医疗服务新模式——4P医学。

全基因组测序在质疑声和挑战中匍匐前进

全基因组测序只是是对未知基因组序列的物种进行个体的基因组测序。若需对对个体或群体进行差异性分析,我们还需要进行全基因组重测序。即通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion/Deletion)、结构变异位点(SV,Structure Variation)位点。

挑战1:数据的分析途径引发了研究者对多种疾病的关联性研究

加州大学旧金山医学院的神经学教授Sergio E. Baranzini表示:“我们感兴趣的是多发性硬化症的遗传学和基因组学的特征”。作为国际遗传多发性硬化症协会的成员,Baranzini博士和他的同事们都在分析和集成从多发性硬化症患者身上测得的基因组数据。

Baranzini博士的实验室主要研究在全基因组测序生成的信息序列与涉及家庭的高传染性疾病全基因组之间的关联研究,(这种测序)是对特定类型(临床表现、对治疗的反应等其他临床标准)的多发性硬化疾病患者进行的测序。

通过检测,推断出新的易感基因尤为重要,尽管目前已经发现了HLA等150多种基因位点与多发性硬化相关联,但是这并未解释所有的多发性硬化疾病患者的情况。

Baranzini博士还表示:尽管近年来测序成本已经不断下降,但是成本和数据分析是我们面临的最大的两大挑战。外界可能忽略我们从测序到全基因组的数据分析过程一般可能需要几个月。

在最近的一项研究中,Baranzini教授和他的同事对国际遗传多发性硬化症协会上生成的庞大的数据集上进行了路径分析。这种分析旨在识别组的易感基因变异而不是每个独立个体的单个易感基因变异。

挑战2:数据存储与分析瓶颈远大于测序技术本身

计算技术的进步,在60多年时间里把人类的计算本领提高了13~14个数量级。没有任何其他科学技术领域创造过这样的记录。它注定要改变整个人类的生产和生活方式,包括改写生物学和医学的主要篇章。事实上,基因组测序技术的发展也离不开计算机技术的进步。

无论是Life Technologies发布的基因测序仪Ion Proton,还是Illumina发布的HiSeq X™ Ten,一个细菌基因组的费用降低到10美元,个人全基因组测序已经降低到1000美元且正朝着100美元的目标迈进。测定10亿个碱基对的净成本,即不算初步测序后的拼接、注释等人工花销的成本,已经下降到数百美元的量级。

在我国,科研机构经费情况正在好转以及CRO公司越来越重视靶向药物的研发,在使用别人发明创造的基因组测序技术方面并不落后,就目前发布的测序仪来看,我们国家基本都能在第一时间购进。然而光有“工具”是远远不足的。

通过观察测序仪的构造,我们发现每一台设备都是同计算机“共生”的。没有计算机提供的条件,根本不可能产生、储存和分析、消化测序的结果。因此随着测序数据的不断增加,我们对设备的存储能力远超过现在所需,数据存储与分析瓶颈远大于测序技术本身。

质疑1:个性化医疗不仅与基因型有关

一直以来,业界对“个性化医疗”的宣传强调往往是建立在将来必须根据每一个人的基因型处方开药。

但是通过不断研究发现,每个人的生理和病理状态不仅同其基因型有关,还取决于与之共生的细菌群体。与人共生的细菌群体的总基因组比人的基因组大百倍乃至千倍,而且因人而异、因时而异、因生活环境而异。然而,多年以来对细菌的研究主要针对那些可以在实验室里分离和培养的菌株,而现在知道可以培养的菌株绝对不到细菌种数的百分之一。

最近一些年,人们学会了把特定环境中的整个细菌社会拿来,提取出其中全部DNA序列,一股脑儿进行测序。这就导致 了“元基因组学”(metagenomics,也称“宏基因组学”)的迅速发展。前面提到的上万个基因组测序计划中就有数百个元基因组计划,包括人类肠道、特定土壤或植物根部、污水处理系统等各种各样的元基因组。

质疑2:测序工厂内的流水线测序意义何在?

前些年,我国生物学界里曾经有过“测序不是科学”的说法。去年,《福布斯》报道了深圳华大基因借助生物技术IT化、低成本优势、政府资金助力为大规模的全基因组测序做好了准备,俨然成为了基因测序界的“富士康”工厂,其测序技术已经成为高度自动和并行的流水线作业。

然而,各种成熟的测序方法乃是基于不久前科学研究的成果,新的测序方法的设想和实现更是前沿研究课题。而最重要的事实在于,只有测定了大量DNA片段或整个基因组,许多生物学问题本身才能够提上日程。目前针对的各种生物的全基因组测序已经成为许多生物学研究课题的起点和基本支撑。

但是,随着,越来越多的农作物、水生物以及人类的全基因组数据被上传到云端,接下来我们该何去何从,如何最大化地发挥我们“全基因组测序”的意义仍然令人忧思。

前景展望:测序技术没有好坏之分统一行业标准是关键

基因测序并不是个性化治疗的唯一基础,其他还包括基因治疗等其他技术基础。另外,目前确定疾病基因位点的方法很多,相对于测序技术及也有很多同样便宜和快捷的。不过无论现在的测序仪有多贵,测序耗材成本有多高,但我相信:随着诸多公司纷纷加入这个行业,在不久的将来,测定DNA序列中一个字母的成本就会远低于把这个字母存储起来的开支。

以23&Me开展的基因芯片筛查(Gene Chip Screening)为例,很多人会认为这就是基因测序,实则其与我们以后的“全基因组测序”的发展还存在一些不同。简单地说,两者之间的区别可以简单理解为测序是把基因组这本书从头到尾读完,芯片筛查是从这本书里选一些重要的标志性字符。因此,对个体进行全基因组测序是必然趋势。

关于建立统一行业标准,我所听到的声音有2种:一种是“全基因组测序”技术的推广应该效仿美国的体外诊断的CLIA管理制度(Clinical Laboratory Improvement Amendments,CLIA);另一种是将包括基因测序仪在内所有涉及的工具设备医疗器械化,在进行市场推广时均应该进行临床试验。

无论最后的结果如何,我想统一行业标准甚至是建立相应的国标对这个行业的发展是有利的,而不是今天某个公司拉上几个制药公司组建个联盟,明天某个公司拉上几个医院组建个协会的无规章野蛮生长。

现在,测序技术已经不是什么问题,我们的测序成本还会降低,等数据存储平台和分析技术发展到一定阶段,行业的标准也已经成熟。那时,测定DNA就会变得同现代医院里的验血一样简单易行。

即使会因而引发出许多法律和伦理的问题,但历史已经一再证明,人类既然有本领做出重大的科学发现和发明,就一定有足够的智慧来限制新发明可能的负面影响,把它最大程度地用来提高全人类的福祉。

欢迎关注中科紫鑫人事招聘相关信息:http://www.ngscn.com/index.php/Job/employ

;