Science:大数据遇上了公共卫生领域


从有效性到实用性。大数据能够提高公共卫生工作人员对传染病疫情的追踪和响应能力、对疾病早期预警信号的发现能力,以及对诊断性检测方法与治疗方法的研发能力。

如果将大量的噪声信号最小化的话,那么海量数据将有利于人类的健康。

1854年时,霍乱(cholera)横扫了整个伦敦,现代流行病学之父John Snow煞费苦心地记录了被感染家庭的具体方位。经过长期的艰苦研究,他认为宽街(Broad Street)的抽水泵是霍乱疫情的源头,而当时他甚至还不知道引起霍乱的病原体是一种弧菌。“如今的全球定位系统(Global Positioning System)信息和疾病流行数据可能会简化Snow的繁重工作,在数个小时之内就可以解决流行病学调查问题。”这就是“大数据(Big Data)”时代对公共卫生领域所产生的潜在影响。大数据给我们带来了希望——目前的新一代计算机,例如IBM公司的超级计算机华生(Watson)通过对数字世界进行筛选后,可以根据海量信息来提供疾病预测模型——但是同时也有人给出了这样的声明:科学方法本身就会逐渐被淘汰。从大量的噪声信号中分离出真实的信号——这是一项晦涩难懂的艰巨工作,但是如果我们希望将手头上的信息转化成全世界人民的幸福安康,那么这也是我们必须应对的一大挑战。

“大数据”这一术语是指成批大规模的、复杂的、可链接的数据信息。除了基因组学信息和其它的“组学”信息以外,大数据还包括医疗信息、环境信息、金融信息、地理信息和社会媒体信息。十年前,人们难以获得这些数字信息。未来,大数据的数据量将会继续增加,而人们目前难以想象其数据的来源。大数据可以使我们深入了解疾病的病因和结局,为精准医学寻找更好的药物靶点,并且提高疾病的早期预测和预防能力,从而促进健康。此外,民间科学家们将会越来越多地运用这些信息来促进自身的健康。大数据能够提高我们对健康行为(吸烟、饮酒等)的理解,并且加快知识传播的周期。

但是大数据也会产生“大错误(Big Error)”。2013年,流行性感冒(influenza)最早袭击了美国,并造成了严重的危害。当时科学家们检索并分析了流感相关的互联网数据,对流感的影响程度进行了估计。然而与传统的公共卫生监测方法相比,这种方法大大高估了流感的高峰期影响水平。更成问题的一点是:大数据通过大规模地调查各种与疾病结局有关的假定关联,可能会触发很多错误警报。而与其自相矛盾的是,当人们能够测量更多事物的时候,错误警报在所有调查结果中所占的比例可能还会增加。虚假关联和生态学谬论的数量可能也会成倍增加。目前就已经有很多这样的例子,例如“用于生产蜂蜜的蜂群数量与因吸食大麻而被逮捕的青少年数量呈负相关”。

基因组学领域要求对研究发现进行重复实验,并且要求在统计显著性方面能产生更强的信号,从而有效地解决了真实信号和噪声信号相混合的问题。但是这就需要多个部门共同开展大型的流行病学研究。对于非基因组领域中的关联而言,即便开展了规模非常大的研究,进行了大量的重复实验,并获得了非常强的信号,混杂变量或其他偏倚仍然有可能会导致错误警报的产生。大数据的优势在于寻找关联,但是却无法表明这些关联是否具有意义。信号的寻找仅仅只是第一步而已。

即便是John Snow,也需要首先建立一个合理的假说,从而知道从哪儿入手进行调查,即选择调查哪些数据。如果他在没有建立合理假设的基础上获得大量数据的话,他可能只会得到一个类似于蜜蜂-大麻关联的虚假关联。但至关重要的是,Snow“进行了这样的验证实验”。他将被污染抽水泵的把手去掉之后,极大地减小了霍乱的传播范围,其研究也从关联研究过渡到了病因学研究和有效干预方法的研究上。

我们该如何提高大数据时代促进健康和预防疾病的应用潜力呢?一个优先事项是需要建立一个更强大的流行病学研究基础。目前的大数据分析主要是以方便样本或互联网上可获得的信息为基础的。当研究者们探索测量准确的数据(例如基因组序列)与测量不准确的数据(例如用于行政索赔的健康数据)之间的关联时,最弱的那个关联将决定研究准确性的高地。大数据本身是观察性数据,存在着很多偏倚,例如选择偏倚、混杂变量和缺乏普遍性。对于具有良好流行病学特征的代表性人群而言,可能也会用到大数据分析。这种流行病学研究方法已经在基因组学研究领域中得到了很好的应用,其适用范围也能够扩展到其他类型的大数据分析中。

对科学领域内及跨学科领域中已知事物和未知事物的解释是一个重复性较高的过程,我们可以从这一过程中获得大量的知识,而同时也必须建立一种方法来整合这些知识。这就需要开展知识管理、知识合成和知识转化工作。计算学习算法(machine learning algorithm)将有助于知识内容管理。ClinGen项目就是这样一个实例:该项目将会对在临床方面进行了注释的基因进行汇总,创建一些集成式资源,来提高研究者对遗传变异的解释能力,以便于在临床实践中更好地应用基因组学研究的成果。一些新的研究基金,例如NIH设立的生物医学数据-知识奖项(Biomedical Data to Knowledge award)将会开发出适用于大数据分析的新工具和人员培训系统。

另外一个需要解决的重要问题是:大数据只是一个形成假设的工具,即便证实了一个强有力的关联,我们仍然需要寻找一些证据来证明它在健康相关领域中具有实用性(即评估其健康益损关系之间的平衡)。如果想要证明基因组学信息和大数据信息的实用性,就需要采用随机化临床试验和其他实验设计来开展研究。我们需要利用干预性研究来检验那些以大数据信号为基础的新兴疗法。当然也需要对预测工具进行检验。换言之,我们应当紧紧围绕着(不应当偏离)循证医学(evidence-based medicine)的原则来开展这些检验工作。我们需要将研究的重点从临床有效性(即对大数据与疾病之间较强的关联进行验证)转移到临床实用性(即回答一些健康影响方面的问题,例如“谁会在乎呢?”)上。

与基因组学研究一样,我们也需要将大数据的扩展性转化研究提上日程,对大数据分析中的初期研究发现进行拓展。在基因组学研究领域中,大多数已经发表的研究要么是关于基础科学研究发现的,要么是关于临床前期研究(即用于研发健康相关性检测方法和干预方法的研究)的。在已经发表的研究中,只有不到1%的研究涉及到了研究结果在现实世界中的验证、评价、执行、政策制定、传播和效果,因此在我们完成研究结果从实验室走向病床的转化工作后,接下来就需要开展诸如此类的、鲜有人涉足的研究了。如果我们希望从大数据时代中获得利益的话,就需要拥有一个宏观的视角。

所有问题的关键是要将大数据应用到公共卫生领域中去。如果我们同时拥有较强的流行病学研究基础、强健的知识整合方法、循证医学的研究原则以及扩展性转化研究计划的话,我们就能够使大数据研究步上正轨。

原文检索:

Muin J. Khoury and John P. A. Ioannidis. Big data meets public health. Science, 28 November 2014; DOI:10.1126/science.aaa2709

;