从基因组生物学到精准医学

作者:于军研究员

关键词:人类基因组计划基因基因组精准医学疾病分类学

摘要:“人类基因组计划”这个具有划时代意义的大科学计划已经完成整整十年了。十年来,基因组科学的发展逐渐形成了一个新的明确目标:精准医学。未来生物医学基础和临床科学的发展就是要整合基因组生物学新的学科前沿,运用新的概念和技术,不断整合和积累临床资源,凝练大的科学问题,规划和启动大科学项目,及时地、有效地为全社会提供“从实验室到病床”、“从实验室到家庭和个人”的卫生与健康保障。社会必须要迅速认识和接受新知识、开拓新的机制、给科学界以有效的反馈,充分地利用这些前沿研究成果。

1.“人类基因组计划”是具有划时代意义的大科学计划

今年,是“人类基因组计划”(TheHumanGenomeProject,HGP)宣布完成十周年。选择2003年结束这个计划其实既不是因为这一年第一个人类基因组的测序工作确实到达了“终点”,也不是人类基因组序列“完成版”的实际结束时间。这个日子的选择首先是为了纪念沃森(JamesWatson)和克里克(FrancisCrick)在《自然》(Nature)上发表了他们的著名科学论文,发现DNA双螺旋结构五十周年。其次也是感谢沃森博士这位推动这一宏大计划实施的早期领导者和持续支持者。他曾在1989~1992年担任国家人类基因组研究中心(NationalCenterforHumanGenomeResearchattheNationalInstitutesofHealth)的主任,也就是现在NIH国家基因组研究所(NHGRI)的前身。最后才是这一计划就完成全基因组测序而言确实已近尾声,剩下的有限信息也不足以改变已有的科学结论。

一次性解读人类基因组全部DNA序列是在80年代初由一些有远见卓识的科学家们集体提出的。虽然其原因是多方面的,但是基本上可以归纳为以下三点。第一是DNA测序技术和相关分子生物学技术日趋成熟。随着DNA双螺旋结构的解析,自七十年代起,生物化学家们发明了一系列的重要分子生物学技术,包括DNA测序、寡聚核苷酸合成、DNA杂交、分子克隆、聚合酶链式反应(PCR)等。尤其是80年代初荧光标记法DNA测序仪的研发和接近问世。第二是生物医学发展的迫切需求。未知基因序列的不断解读,遗传疾病相关变异的定位克隆(Positionalcloning),新转录因子和信号传导通路的不断发现,都使DNA测序技术和需求被推到了科学界关注的焦点。当大家都在争取基金,计划测定自己感兴趣的基因时,一个重要观点的提出赢得了广泛的支持:与其说各测个的基因,不如集中攻关测定全基因组的序列。集中攻关的特点就是可以使操作专业化和规模化。尤其是在技术飞速发展的情况下,非专业的技术操作不仅浪费资源,在落后平台被迅速淘汰时,非专业的操作也一定会被迅速淘汰。这个原则在DNA测序领域一直适用至今。另外,当时遗传学和基因组学等学科的发展也遇到了新的瓶颈。比如对全基因组遗传图谱和物理图谱的迫切需求,对打片段DNA克隆的迫切需求等。第三是启动国际合作,调动全球各方资源的必要性。比如,人类基因组研究会涉及到世界各国的人类遗传资源,与其说在美国集中收集(虽然美国是个移民国家,但是就人类学的标准而言,异地取样往往是不被接受的),不如让这些国家直接参加一个共同的合作项目,同时他们所代表的国家还可以给与资金的支持。

1983年和1984年美国DOE(能源部)和NIH(卫生总署)分别组织了相关领域科学家,进行了启动大规模人类基因组测序计划可能性的研讨,这就是HGP的酝酿阶段[1,2]。有几位科学家这两个会议都参加了,比如目前仍是美国系统生物学研究所所长的胡德博士(LeroyE.Hood)和华盛顿大学退休教授欧森博士(MaynardV.Olson)。胡德博士领导的团队后来成功研发并商业化了荧光DNA自动测序仪[3],欧森提出了STS(Sequencetaggedsite)的概念[4]并领导他的团队用新发明的酵母人工染色体(Yeastartificialchromosomes)为材料开启人类基因组精细物理图谱制作的先河。1987年HGP的智库发表了《测定和绘制人类基因组图谱》的报告,宣布HGP进入具体实施阶段。1988年美国国会通过了DOE和NIH关于启动HGP的申请,两家主要资助者也协议共同支持HGP。五年后,人类基因组遗传图谱制作完成,第一代荧光自动测序仪顺利问世,HGP则进入真正的规模化数据获取阶段。国际“人类基因组计划”联合体最终由美、英、法、德、日、中六国逾千名科学家的实际参与,用时十五年,耗资十数亿美元共同完成。

HGP的成功并不是偶然的。它不仅是科学发展的必然,也是科学要素具备和时机逐渐成熟的体现。科学发展至少要具备四个基本要素:人才与科学思想、技术与实验方法、资源与素材组织、管理与项目实施。虽然成功与这四个要素都系息息相关,但是各自的权重却有所不同。人才与科学思想的提出无疑是首要的。大科学项目尤其需要有威望、有能力的领导者,和一代既能脚踏实地地工作,又能协调共进的坚定支持者[5]。此外,基因组学应属于分子生物学范畴,其学科的真正起点,是1953年DNA双螺旋结构的发现和70年代初期DNA序列解读技术的发明。因此,也可以说HGP是五十年来生命科学与技术发展的最重要结晶。实践还证明这一计划实现了“以大科学计划带动学科发展”的新策略,也宣布了科学发展“以科学假说为基础和以自由探索为形式”科研原则“一枝独秀”时代的终结。一种新的形式——“发现导向的科学研究”从此诞生,而生命科学的复杂性恰恰为这条新思路提供了最有力的脚注。各类“组学”(Omics)研究的兴起就是这一形式的有力证据。如果能将这些组学技术与以科学问题为目标的大科学项目结合起来那就更是“借助东风了”。

HGP的成功还在于充分调动和利用了政府、社会、企业的力量。由于政府主导和支持了这一计划,科研成果和技术研发又为企业注入了新的知识产权,也为企业发展提供了明确的方向。因此,据有关统计和评估,十几年来,HGP为美国社会创造了超过200倍的经济回报,超过30万个工作机会。同时也实现了在相关高科技领域的持续性主导。比如DNA测序领域、高端分子检测领域、生物信息领域、生物制药领域等等。美国的民营企业(比如CelaraGenomics)也曾经与HGP成功竞争,不仅测定了果蝇基因组,也测定了小鼠和人的全基因组序列,取得很好的科学、经济与社会效果。尽管这两方面的努力似乎有些浪费资源,但最终“官”和“民”的竞争还是达到了和解。这一竞争归根结底对科学、社会和企业的蓬勃发展还都产生了正能量。

2.基因组生物学的路线图:从基因组到精准医学

HGP是一个预计斥资30亿美元的大科学项目(实际花销很难估计,但因该只是预期的1/3左右),在三十年后的今天来看也是个不小的数字。不仅可以与1939年美国斥资20亿美元(相当于260亿2013年美元的价值)制造原子弹的“曼哈顿计划”媲美,也可以与斥资254亿美元(1973年美元价值)的“阿波罗登月计划”争艳。据最新的估计,HGP为美国所创造的经济效益已经达到一万亿(1trillion)美元[6]。更重要的是这一计划未来的价值体现还在不断继续。

那么,这样一个大型科学研究计划是如何得到政府的支持并真正产生了这样大的社会效益呢?究其原因是它不仅满足了科研界的普遍需求,同时也顾及到全社会的共同利益。首先,大型科学计划必须具有普遍的引领性,亦即可行、可控、可实现的科学性。HGP正是这样一个计划,以高质量测定一个人的基因组为具体目标,以发展DNA测序技术和规模化操作为手段,以国际合作为成功保障。这样的计划和管理模式显然也适用于其它物种的基因组计划和人类基因组多态性的深入研究。其次,大型科学计划要具有可计划性,计划的主体是人才与技术。HGP的实际领导者很多是来自于其他领域,他们的可信任度来自于做事情有始有终的历史纪录。比如英国的苏斯顿博士(JohnSulston,获2002年度诺贝尔生理或医学奖)和美国的瓦特斯顿博士(RobertWaterston)被选为HGP基因组测序的主要领导者,分别领导了英国和美国最大的测序中心,他们早年其实是研究线虫生物学的专家。其三是大科学项目要有始有终,亦即具有阶段性和可操作性的目标,不能是开放式的(Open-ended)或结果无法量化的。当然,所谓的量化不是用文章和专利的多少,培养学生的多少来衡量,而是用社会效益来衡量,由独立咨询机构来调研和报告的。最后是统理和实施的艺术。HGP不仅要有一个清楚的路线图——科学领域发展的路线图往往是指研究活动的终极目标和操作过程——而且还要有共同的原则和实施方案。比如,HGP著名的“百慕大原则”(BermudaPrinciples)要求所有测序数据必须在产出的24小时之内投放到公共数据库里,使珍贵的数据得到实际和及时的共享。

建立HGP科研成果与社会利益的关系,以及为保护和弘扬这些成果和利益所建立起来的法律保障体系都至关重要。没有这些利益的保障,利益也就不存在。在美国,科研成果和社会利益保障关系的建立可以追溯到著名的Bayh-DoleAct,亦即1980年美国通过的知识产权法(P.L.96-517,AmendmentstothePatentandTrademarkAct)[7]。这项法律旨在保护来自于政府研究或研发基金资助下非赢利组织和小型企业产出的发明专利权,来鼓励发生在研究领域、小企业和成熟企业之间的知识产权转让、合作与合资。中国科学家虽然参与了HGP,承担了1%的任务,但是HGP在中国社会所产生的实际效益也非常有限,比如技术研发成果不多,专业性企业寥寥等。除了华大基因研究院和中国科学院北京基因组研究所还在不同的管理框架下(民营与地方政府支持vs.国家基金与科学院的常规支持)寻求不断发展外,国家南、北基因组中心的发展皆面临谁来“再输血”(持续支持)的问题。就一个寻求对人类科学进步和社会发展有所贡献的大国而言,如何利用科研基础和实力,为技术密集型企业提供实用技术和知识产权,值得国人深入思考和实践。

无论如何,HGP的传奇还在以惊人的气势和速度继续着。早在HGP完成之前,时任NIH基因组研究所所长的考林斯博士(FrancisCollins)就提出了“从基因组结构到基因组生物学,再到疾病生物学和医学科学”的路线图,意在以最快的速度将这一计划所产生的成果转移到产生经济和社会效益上。发明第一代荧光自动测序仪的著名科学家胡德博士也曾提出4P(Predictive预测,Preventive预防,Personalized个性化&Participatory参享)医学的思想,旨在指引基因组学成果的具体应用。2011年美国基因组学与生物医学界的智库又发表了《迈向精准医学:建立生物医学与疾病新分类学的知识网络》,宣示基因组学的研究成果和手段如何可以促成生物医学和临床医学研究的交汇,从而编织新的知识网络。现已退休的华盛顿大学欧森博士是唯一一位既参加了起草1987年“人类基因组计划”宣言性报告,也参加了这个精准医学报告撰写的科学家。他对精准医学的解释是:“个性化”其实就是医学实践的正常形式,而分子水平信息的正确使用则会使医学更精准,因而成为恰如其分的目的性描述。他学医出身的博士后,也是目前NIH基因组研究所所长的格润博士(EricGreen),正在坚决地实践着欧森三十年以来的一贯思想:大科学项目一定要有始有终、要有直接造福于社会的目的性。只有这样,主流科学家、政府、社会和民众才能坚定地支持这样耗时十数年、耗资几十亿、集科学思想与技术集成为一体的大科学项目。

实现精准医学需要在两个大领域——基础生物医学与临床医学——建立实际的转化研究和紧密的接轨机制。我们已经看到了诸多“转化中心”的成立,我们也看到了各类“转化研究”的启动。尽管目前精准医学还不是一个具体的学科和大项目,但是在这个科学思维框架下的蓝图已经规划好了。《迈向精准医学:建立生物医学与疾病新分类学的知识网络》的报告已直接建议了几个可实施大项目,比如“百万人美国人基因组计划”、“糖尿病代谢组计划”、“暴露组研究(Exposome)计划”等。就百万人基因组测序而言,其单纯的DNA测序价格就应该在10亿美元以上。鉴于英国的医学临床资源规范而且丰富,首相卡梅伦去年斥资一亿英镑率先就启动了“十万人基因组测序计划”。可见,只要是可以直接造福国民的科学计划,对谁来讲都是“乐而为之”。

然而,尽管精准医学的提出同时给基础研究和临床研究指出了共同发展之路,但是他们面临的挑战和问题却各有不同。

3.基础生物学的发展与基因组生物学的新境界

基于基因结构和序列变化的基因组学研究无疑必须转入到以生物学和医学核心命题为目标的研究。基因组学技术和规模化的特征将会延续并发扬,大数据、复杂信息、新概念和新知识等等,都在不断地催生新的科研思路和新的思维境界。从“DNA到RNA再到蛋白质”和各类“组学”研究,最终将汇集在一个或者数个生物学命题下(比如癌症、代谢疾病、脑发育与认知、生殖力的可塑性等),形成一种整合性、更高层次的“数据—信息—知识”消化和理解过程。二十多年前胡德博士提出的“多系统生物学”开辟了新的思维和方法,但是他并没有将其研究内容具体化、思维框架化。尽管他思想的追随者们开发了很多高通量技术,产生了很多蛋白质-蛋白质相互作用的数据,基因表达关联数据,还开发了网络分析方法等,但是一个既宽容,又有序的思维框架还是呼之欲出,或隐或现。

首先,基因组学在新形势下已经完成了从基因组学(以DNA序列为研究主体)到基因组生物学(以生物学命题为研究主体)再到基于谱系的基因组生物学(以生物谱系,如哺乳动物为研究主体)的“凤凰涅磐”。目前已经没有人再会来批评基因组学就是“测测DNA序列”了。近几年来,基因组学研究的功能和视野都有了长足的拓展,DNA测序技术已经到达了一个新的平台:应用基本成熟,通量和价格基本平稳。未来会有诸多的基因组序列在名目繁多的理由下,被不断测定,大数据的迅速积累也成为必然。不过,地球上物种之多,科学发展之不断,DNA测序项目还会层出不穷,技术的研发和革新还会继续。那么基因组学领域本身的革命性变化会在哪里呢?答案是多方面的,比如人类基因组在过去500代(假设20年为一代人)里积累的群体多态性会在未来的五年内全部找出来,这些多态性与人类疾病的关系也会在未来的十年里基本搞清楚,模型哺乳动物(比如小鼠和大鼠)基因组的相关信息也会被逐渐全部获取。又比如,DNA测序可以用来确定DNA分子上的种种化学修饰,这些化学修饰可以用来评价基因表达调控机制;DNA测序可以用来评估染色体的构象,而染色体构象与个体发育和细胞分化都密切相关;DNA测序可以用来研究单个细胞的基因表达,而单细胞里单个基因的表达是基因功能调控的最基本信息;DNA测序可以用来评价染色体的物理状态,比如核小体的定位和组分(如组蛋白)蛋白质的化学修饰等,这些信息与基因在高层次的调控有关。可见,DNA测序将不再停留在测定基因组本身的序列和多态性,会延伸到其它相关“组学”领域的研究。

其次,我们至少要在五个分子和细胞生物学层面上考虑基因组生物学的发展和研究内容。第一是“信息流”(InformationalTrack),它延续“中心法则”的思维框架,主要研究对象是DNA、RNA和蛋白质序列信息,由遗传密码来解读。它的相关研究领域包括分子遗传学、分子进化和基因组结构等。尽管基因型与表型的关系从传承来讲是遗传学的研究内容,但是越来越多的表型被分到可塑性的研究范畴。大样本量的研究也必然要与生态学结合在一起。简单地将基因变异(编码部分)与复杂的生物学现象相关联是不能够真正解决重要生物学问题的,其实质更不是金-威尔森(King-Wilson)在1975年提出的“两个调控水平”假说(简单的基因调控区假说,认为基因调控序列决定基因调控的不同,从而导致近缘物种间的表型不同)[8]。信息流的研究素材主要是基因组DNA序列和基因组的群体多态性,这些多态性的特点是它们的相对有限性和稳定性。比如,人类基因组间的序列差异大约是1/500,而这些不同常常是以不同的频率被同一个群体来共享的。换句话讲,如果我们测定了一个群体中一万个个体的基因组,这个群体的未知多态性就会所剩无几了。第二是“操作流”(OperationalTrack),它的研究对象包括生理学、细胞生物学和分子生物学研究的主要实验内容和生物学命题。操作流是个比较复杂的体系,它包括了以DNA(Epigenomic,表观基因组学)、RNA(Ribogenomic,RNA组学)、蛋白质(Proteomic,蛋白质组学)为主体的各种穿插交错的调控机制,对应的是这三个已经建立起来,但是信息流以外的“组学”。第三是“平衡流”(HomeostaticTrack),主要是药理学和生物化学等学科的研究精华。平衡流包括三个基本部分:物质(Material)流、能量(Energy)流和信导(Signaling)流。重要的物质流研究对象包括血红素(比如,血红素与生物节律的关系)、生物激素(比如,生长激素与发育的关系)、神经递质(比如,生物递质与神经发育的关系)等等。重要的能量流物质研究对象包括dNTP、NTP、多聚磷酸、各类单糖、各类多糖等。DNA、RNA和蛋白质等作为主要细胞组分也会与能量流和物质流密切相关。我们对能量流的了解其实还是非常有限的,但是从另一个角度来说,其发展潜力也是非常巨大的。比如,人类的生命周期(发育、更年、衰老等)和生殖周期的生理学就是这个“流”所要研究的部分基本内容。病理状态,比如人群中高发的代谢和神经退行性疾病等也在其中。信导流,也就是信号传导,显然已经是分子生物学家几十年来的研究对象,勿须赘述。第四是“分室流”(CompartmentalTrack),它涵盖发育生物学、解剖学、生命起源等领域所涉及的核心科学问题。分室流将以单细胞和细胞群为研究对象,揭示细胞分化、个体发生和发育、组织形成等分子机制。由于生命起源是由简单到复杂,由单细胞到多细胞,所以分室流也将揭示生命起源和细胞器形成等分子机制。干细胞研究也是属于分室流研究的范畴,主要是在分子水平上解释胚胎、诱导干细胞、特定组织干细胞等的差别和如何解释干细胞的自然发生、诱导发生、定向分化和异常分化。同时,也要建立测定干细胞分化定向性和定向分化潜能的维持和诱导因素。第五是“可塑流”(PlasticityTrack),主要是研究表型和行为的可塑性。前者囊括生态学与环境生物学的研究内容,后者包括神经生理和心理学等研究内容在分子水平的命题。这两个可塑流的分支有关系吗?为什么要将它们放在一起来研究?这里仅举一个例子,这就是生物节律之一的休眠,例如哺乳动物常见的冬眠(如黑熊)和夏眠(如热带蝙蝠)。冬眠其实是一个由中枢神经系统参与的主动行为,也是一个复杂的生理过程,同时又受环境因素的严格制约。动物的迁徙和休眠行为在进化的框架下,既有趋同进化也有趋异进化,也具有相当强的表型和行为可塑性以及两者的交织和重叠。揭开表型和行为的可塑性之谜显然不是简单的遗传和遗传多态性的问题,是要集成生命科学各个领域的最新成就和技术。

此外,这个“五流”是否涵盖了生命科学的全部呢?答案是肯定的,不能。因为知识在不断高速积累,科学要不断发展和提高,概念和理论必须不断更新。但是,就目前科学界能够容忍的变量和参数而言,这“五流”的关联已经足具挑战性了。生命科学研究基本上有两个极端:简单化和复杂化。简单化的研究是分子生物学家最津津乐道的:例如相互作用和信号传导的研究。复杂化呢,还没有先例。“五流合悟”可能就是一个具体尝试。我们过去对机械式的原理关注过多,对复杂而具有可塑性的生命现象的研究却非常欠缺。过去,这类现象被笼统地归为“表观遗传”和“环境因素”了。这个定义是非常不“科学”和可称经典“鸵鸟心态”。随着科学和技术的发展,我们可以逐渐来面对现实了。

再则,无论如何,生命是个整体,生命的最小单元细胞也是一个整体,就连基因这一生命编码的最小功能单元也是有不同的序列和相互作用原件组成。因此,“五流合悟”不仅势在必行,而且是唯一出路。那么,如何将不同的“流下(内)要素”关联起来呢?简单的孰重孰轻和孰本孰末,显然是不可能帮助我们解决根本问题的。至少五个基本时、空、量、域等参数要考虑,比如:(1)信息流:等位基因的主次之分和群体传递;(2)操作流:可量化的过程、结果和可传递性;(3)平衡流:量化物质的基数、噪音、阈值和能量水平;(4)分室流:量与时间、空间的关系;(5)可塑流:量、时间、空间、交流、程度和可学习性等。

最后,生命科学研究的真正挑战在于如何将这些基于不同概念界定的,由不同技术和方法获取的,被不同领域科学家们所收集的,停留在各个不同理论和信息层面上的知识编织成一个有机的网络或系统。而这恰恰是就是生命的特点,也可以说是揭示生命本质的终极途径。生物医学研究与临床医学实践的精准度也正是由这些研究学科前沿的进步来决定的。

4.中国生命科学如何“自立于世界民族之林”

中国科学家在1999年适时参加了HGP,并承担了1%的任务。后来还参加了相关的国际性的基因组研究计划,比如“人类单倍体型图计划”和“千人基因组计划”等。但是这些科学计划地参与并没有在中国科学界和社会引起“波澜”,中国生命科学界迄今也没有启动足够规模、具有划时代科学意义的大项目,国家也没有启动能够让百姓大众振奋的大科学计划。

生命科学未来发展的基本趋势还是一目了然的。要实现应用的精准,首先是测量技术的精准。DNA测序已经精确到单个核苷酸,因此单细胞和单分子(或超微量)技术,将会引领未来体内技术的发展。DNA测序、质谱、微流控、CCD摄像、微纳加工等技术的国内空白都亟待填补。其次是数据的获取、组织和综合挖掘能力的建设。中国的超级计算机运算能曾经可以展示为领先国际水平,但是实际的领域应用程度却常常落后于国际同行水平。美国的NCBI和欧洲的EBI都是有着近30年历史的生物信息中心,我们没有;国际性大型文献收集和检索库都在不断扩张和更新,我们没有。第三是临床和自然资源的积累。我们可以从头开始。最后是大项目的策划和实施,我们正在研讨和积累经验。

值得乐观的是中国科学家发表的论文数这些年来不断攀升,显然与我国的科研投入有关。“一国之下,万国之上”的局面其实也有诸多隐情。比如,中国科学家的国际合作精神远在国际同行之下。其原因无外乎是单位和个人排名的纠结、致谢中资助单位排名的纠结、文章影响因子的纠结、无休止和无标准评审的纠结等等。挣扎在这些似乎无法摆脱的“泥潭里”,科学家们憧憬未来、策划未来和为未来而奋斗的心情是如何状态呢?

参考文献:

[1]DELISIC.TheHumanGenomeProject:TheambitiousproposaltomapanddecipherthecompletesequenceofhumanDNA.AmericanScientist.1988,76:488-493.

[2]DULBECCOR.Aturningpointincancerresearch:sequencingthehumangenome.Science,1986,231,1055-1056.

[3]SMITHLM,SANDERSJZ,KAISERRJ,etal.FluorescencedetectioninautomatedDNAsequenceanalysis.Nature,1986,321:674-679.

[4]OLSONMV,HOODLE,CANTORC,etal.Acommonlanguageforphysicalmappingofthehumangenome.Science,1989,245:1434-1435.

[5]COOK-DEEGANRM.TheGeneWars:Science,Politics,andtheHumanGenome.WWNortonandCompany,Inc.,1994.

[6]TRIPPS,GRUEBERM.EconomicimpactoftheHumanGenomeProject.BattelleMemorialInstitute,2011.

[7]SCHACHTWH.Thebayh-doleact:selectedissuesinpatentpolicyandthecommercializationoftechnology.CRSReportforCongress,2012.

[8]KINGMC,WilsonAC.Evolutionattwolevelsinhumansandchimpanzees.Science,1975,188:107-116.

;