《自然》:如何让政策更科学


(中国科学报,张章)数十年来,有关政治决策应该依靠科学的要求早已成为老生常谈。但是,在从能源到健康再到环境等诸多领域中,将科学应用于政治决断的过程依然存在一系列问题。

英国剑桥大学动物系保护生物学教授William J. Sutherland、数学科学中心的David Spiegelhalter,以及澳大利亚墨尔本大学的Mark Burgman如今提出了应该成为公务员、政治家、政治咨询顾问和记者教育一部分的20条概念。

“当然,其他人也许会有不同的列表。我们认为,一旦能够充分理解这20个概念,社会将向前迈出一大步。”他们在《自然》杂志上撰文指出。

差异和偶发原因变化。现实世界的变化难以预测。科学在很大程度上是要寻找究竟是什么引发了人们看到的模式,为何这个十年比过去更热以及为何一个地区的鸟类比其他地区更多。此类趋势有许多解释,因此研究的主要挑战是梳理出有趣过程的重要方面,例如,气候变化对鸟类种群的影响。而重要方面往往隐含了其他的许多变化原因,例如农业集约化、入侵物种,以及影响出生和死亡的偶发事件等。

没有测量是准确的。实际上,所有的测量值都存在某些错误。如果测量过程被重复,人们可能会记录到不同的结果。在某些情况下,测量误差可能比实际偏差要大。如果你被告知上月的经济增长了0.13%,那么也有可能实际经济在收缩。

偏见很普遍。实验设计或测量工具可能产生一个给定方向的非典型结果。例如,在街上、家里或通过网络调查询问人们的投票行为,涉及的样本可能是不同的人群,他们会有不同的回答。另外,研究还可能因期望值而出现偏差:参与疗法实验的人可能假设自己会有不同的经历,因此出现行为偏差。

更大样本量通常更好。从大量观察中提取的平均结果与从少量观察中获得的结果相比通常更具信息量。换言之,当我们在积累证据时,我们的知识量在提高。当研究被大量自然变异和测量错误环绕时,这尤为重要。例如,一个药物试验的参与者多达数万人时,其结论的有效性要比仅有数百人参加的类似实验更高。

相关性不蕴含因果联系。假设一个事件引起另一个事件,十分吸引人,但是,相关性可能纯属巧合,或者可能是由第三个事件引起的两个事件的共同结果—— 一个“混合”或“潜伏”变量。例如,生态学家曾认为有毒藻类会杀死河里的鱼,但实际藻类并没有引起鱼的死亡。

回归意味着能够误导。至少在某种程度上,数据的极端模式很可能是由偶然或错误引起的异常现象。接下来的数据可能没有那么极端。例如,测速相机被放置在交通事故频发地段,但是事故率的减少并不是因为这架相机,无论如何发生率都可能降低。

数据外的推断都有风险。在一个给定范围内发现的模式未必适用于其他范围。例如,当变化速率比现有物种的进化史更快,或极端气候可能完全是新型的时候,预测生态系统对气候变化的应答将非常困难。

注意基础概率谬误。用一个不完美的测试来确定一种状态的能力,取决于该状态发生的可能性(基准利率)。例如,一个进行血液测试的人,有99%的准确率患有一种稀有疾病且测验呈阳性,但是他们也可能不会患这种病。如果10001个人进行测试,其中只有1人有病,那个人几乎可以肯定有一个阳性结果,但也可以说有100个人(1%)会患病,即使他们没患病。

对照是重要的。除了特定疗法没有施用外,一个对照组的处理方法与实验组是完全一样的。没有对照组就很难确定一个给定疗法是否有效。对照可以帮助研究人员确信没有混杂变量影响结果。

随机化避免偏见。只要有可能,实验应该随机分配个人或团体。对照儿童的教育成就时,采用健康计划的父母与未采取的父母可能会出现偏斜,例如,受教育越好的家庭越倾向于参与该项目。一个精心设计的项目应随机选择接受项目的人。

寻求复制而非伪重复。能够被独立研究小组重复的研究结果可能更可靠。几个这样的实验结果可能合并成系统回顾和荟萃分析,从而提供该主题的总体观点,这比任何独立的研究更具统计功效。

科学家是人。科学家在推动自己的工作方面有既得利益,通常出于身份和进一步研究,尽管有时也因为直接的经济收益。这可能导致有选择地报告结果和偶尔夸大其词。同行评议并不绝对可靠:报纸编辑更喜欢正面结果和新闻价值。多样化、事件的独立信源和复制更能令人信服。

意义是重大的。用P表示的统计显著性表示一个结果发生的偶然性。P=0.01意味着一个治疗的效果发生的概率是1%,但实际上可能并没有效果。

从无意义中分离不出影响。统计上的显著结果的缺失,并不意味着没有潜在影响:它意味着没有发现影响。一项小型研究可能没有能力发现一个真正的区别。

效应量很重要。小规模应答不太可能被发现。一个重复多次的研究可能导致具有统计显著性的结果,但只是有一个较小的效应量。不过,一个效应量的影响因素是生物学、物理学或社会学问题,而不是统计学问题。上世纪90年代,《流行病学》期刊要求作者在递交的手稿中不要使用统计显著性,因为作者通常会曲解显著性实验的意义,从而为公共健康政策提供无效或误导的建议。

研究相关性会限制概括。从动物到实验室试验再到人类的概括过程存在限制。

感觉影响风险感知。概括地讲,风险可以被认为是某段时间里一个事件发生的可能性,乘以该事件可能出现的结果。人们的风险感知受到许多东西的不成比例的影响,其中包括事件的稀有度、他们认为能在多大程度上控制,以及风险自发与否等。例如,美国人将家里拥有手枪的风险低估了100倍,却把住宅附近有核反应堆的风险扩大了10倍。

依赖关系改变风险。计算极端潮汐、暴雨等单个事件的风险存在可能性。但是,如果是相互关联的事件(例如风暴引起潮汐或大雨阻止工人进入某地),那么它们同时发生的概率比预想中的高。信用评级机构断言,次级抵押贷款集团有一个非常低的违约风险,是2008年信贷市场崩溃的重要因素。

挖掘或遴选数据。人们能够对事件进行安排,以便支持某个观点。要解释孕妇食用酸奶和后代出现哮喘两者之间的关系,一个是需要了解作者是否着手测验这个单独的假设,或者利用巨大数据集得出结论。相比之下,希格斯玻色子的证据与研究人员多么努力地寻找它有关。

极端测量可能产生误导。任何测量(例如给定学校的效益)将显示天赋能力(教师能力)差异产生的可变性,加上样本(孩子),加上偏见和测量误差(不同学校的产出结果可能采用不同的测量方法)。但是,由此产生的变化通常只解释天生能力的差异,但忽略了其他因素。这变成不确定的陈述描绘一个极端产出(及格率翻倍),或者用平均值比照极端量级(学校X的及格率是国家平均值的3倍)或范围(最高或最低的学校之间的差异为x倍)。

;