谁能处理大数据,谁就能“扛大旗”

谁能处理大数据,谁就能“扛大旗” ——计算医学呼之欲出

“面向人类健康大数据,我们不能简单地将其理解为需要大规模存储和处理的数据。大数据的概念有别于统计抽样,它不是根据小规模抽样调查来推测被观察对象的全貌,而是试图用对该对象的所有测量数据来刻画对象。因此,大数据应该泛指能全面刻画客观对象的所有数据的集合。”中国科学院计算技术研究所图灵达尔文实验室主任牛钢在接受《科学新闻》采访时表示。随着数据量呈指数增长,数据更新速度不断加快,精准医学若想早日落地,亟需计算机驱动的临床决策支持系统。

目前,生命科学与计算科学的融合正在孕育第三次生物革命,计算科学已经渗透到器官、组织、细胞、分子和基因等生命科学的全过程。

“面向高维海量生物医学大数据,计算医学将成为一门新兴交叉学科,它致力于发展定量方法,通过应用数学、工程学和计算科学来智能化理解人类疾病的机理,并基于工业化的数据、算法、算力及生物医学技术体系为医学服务提供新洞见。”中国科学院计算技术研究所高性能计算机研究中心主任谭光明表示。

在中国医学科学院医学信息研究所副所长钱庆看来,计算医学应主要瞄准人类重大疾病的早期预测和早期诊断,以临床重大医学问题为主要研究对象,以信息技术为核心,以临床应用为驱动,在器官、组织、细胞、分子和基因等不同水平,从不同的时间和空间尺度对生物体的活动过程进行计算和建模,以便更加深入地理解和解释人体信息,探索各种疾病的病理机制,提高疾病的诊断和预测准确率,指导临床治疗等临床过程,进而有效地控制、评估和预防各种重大疾病。

当然,任何一个新概念的提出,首先是定义其核心内涵。华中科技大学生命科学与技术学院教授薛宇认为,计算医学应该更侧重方法学。“但这些方法与生物医学信息学里已有的方法有什么不同?又与其他相关学科如计算生物学、生物信息学、系统生物学、合成生物学、生物医学信息学和精准医学有什么本质区别?”

计算医学的四个维度

对此,谭光明从四个维度向《科学新闻》阐释了计算医学的内涵。

首先,计算医学以系统性思维为指导思想。计算医学以复杂性系统科学的整体论作为思维方式,去理解生物分子、细胞、组织器官、种群等多个生物层级结构之间相互作用中“涌现”出的新属性,从系统的角度去捕捉疾病发生的机理。

“疾病的发生可以说产生于生物网络的异常扰动。这种异常的扰动可能来自于遗传和体细胞DNA变异之间的相互作用,mRNA、MiRNA和蛋白质表达的变化,或者环境导致的表观遗传因素如DNA甲基化、组蛋白修饰、染色质重塑和非编码RNA组成和表达的变化。”谭光明说,生物系统是耦合非线性的,进而导致这个系统的运行有其固有的复杂性。

其次,计算医学以数据密集型科学为范式。计算医学采用密集数据驱动的科学范式,挖掘隐藏于高维、高通量、多维融合的生物医学大数据中的新洞见。

“高维海量的生物分子级数据以及临床医学大数据等,共同成为了观测生命系统各个层级结构之间相互作用的宝贵数据资源。计算医学采用数据密集型的科学作为研究范式,放弃单纯的在人类知识体系中‘查字典’的方法,以数据驱动结合知识驱动的融合计算方法,使生物医学大数据服务于复杂临床问题的解决、个体化健康医疗服务的实现。”谭光明说。

再次,计算医学以人工智能为方法。计算医学将生物医学领域的知识模型转换为数学模型,以生物医学大数据作为输入参数,以人工智能算法对模型进行迭代、训练,输出逼近于真实的生命系统结构与功能特征,从而理解疾病发生的本质。

谭光明表示,利用人工智能的方法,可以将每一个人的生命数据(包括分子、影像、组织、器官)参数化,将生物医学领域的知识模型转换为数学模型,这样就能为每个人或者患者构造自己的个体化方程式。

最后,计算医学以高性能计算为支撑。计算医学以高性能计算为新一代计算基础设施,为新科学发现提供数据存储、计算精度和计算速度上的支撑。

生物医学大数据从数量级上来看已经达到PB级,每一个国际大型生命组学计划产生的数据都是PB级。采用数据密集型的科学范式发现新知还依赖于强大的计算资源和计算能力,而高性能计算提供了一个可进行高吞吐量、多任务计算的高速计算环境,可以在数据存储、计算精度和计算速度上提供支持。

让机器“读懂”大数据

其实,早在2007年,图灵奖获得者Jim Gray就提出了科学研究的第四范式——数据密集型的科学发现。在他看来,人类科学研究活动已经历过三种不同范式的演变过程(原始社会的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特征的“计算科学范式”),目前正在从“计算科学范式”转向“数据密集型科学发现范式”。它的方法论是“问题→数据→问题”,即根据“问题”找“数据”,并直接用“数据”(不需要把“数据”转换成“知识”的前提下)解决“问题”。

这也得到了中国科学院院士、中国科学院合成生物学重点实验室主任赵国屏的赞同。他表示,大数据的核心是利用数据的价值,而机器学习是利用数据价值的关键技术,对于大数据而言,机器学习是不可或缺的。相反,对于机器学习而言,越多的数据越有可能提升模型的精确性。

“我们必须开发能够像细胞内部机制一样准确解释基因组的计算机系统。对细胞内确定性事件尽可能多地建模,尽可能完整地把在时空变化中的各个组成部分的因果联系揭示出来。我们也要建立更加一般、更加本质的理论模型来描述生命现象,将生命对象最大程度地转换为数学模型。”牛钢表示,“我们坚持两个方向的研究,一是将信息科学方法落地生命科学与医学研究,采用数据驱动学习方法来理解疾病的机制,发掘全新的药物靶点和治疗方案;二是采取建立人机接口方式全面地回顾专业领域的知识,总结并建立知识模型,结合功能组学数据,帮助人类专家从已知推断未知。”

牛钢表示,在计算医学时代,临床医务工作者除了精确引导治疗方案的实施,更要集中力量在全程临床管理上,包括个性化药物副作用管理、术后管理、康复方案管理、突发事件管理、预后管理、随访、准确定义个体化康复指标等。

;