大数据能干什么?竟能帮美国总统竞争选举!
大数据能帮助美国总统选举,能控制人类疫情,能预测地震,还能改变城市生活的质量……对于大数据,我们到底了解多少?
大数据下的地震预测
实现准确预测需要一些真实的因素。我们必须掌握足够多的历史数据来识别模式——与这些模式相关的事件必须始终发生。而且我们必须有区分疑似事件和真实事件的能力,即众所周知的排除误报。但是,仅仅是准确预测还远远不够。要让预测派上用场,我们还必须具备根据预测及早并快速采取行动的能力。
比如,当地震真正发生的时候,相关数据会非常清晰地表现出来,例如地动山摇。而且一旦其威力够大的话,停电、爆炸、有毒气体溢出、火灾爆发都可能出现。当然,到那个时候,也就不再需要大量的计算机和天才科学家们来预测灾祸了。
所以数据要起到效用,当下的数据必须预先与过去的数据进行匹配,而且要给我们留下足够多的行动时间。如果在地震发生的前几秒才完成匹配的话,也就没什么作用了。我们需要足够多的时间得出结论、调动各方资助力量并疏散群众。而且,我们必须具备快速分析数据的能力,只有这样,数据分析才能发挥效用。试想一下,假如我们拥有足够多的数据,它们能让我们提前一天预测到地震的发生,而我们却花费了两天时间进行数据分析,那这些数据和我们的预测结果就起不到什么作用了。
因此,从本质上来说,准确预测地震既是大数据的机遇又是挑战。单纯拥有数据还远远不够。我们既要掌握足够多的相关数据,又要具备快速分析并处理这些数据的能力,只有这样,我们才能争取到足够多的行动时间。
越是即将逼近的事情,越需要我们快速地实现准确预测。不过,在某种程度上,这种预测适用于收益递减规律。就算我们能在瞬间完成对预测地震所需的海量数据的分析处理,如果没有留下足够的时间将群众调离危险区域,这种分析就没什么意义。
2012年10月22日,6名工程师因为在预测地震时误导村民,均被判处有期徒刑6年。这次地震发生在2009年的意大利拉奎拉镇,300名村民因此丧生。那么,大数据能帮助地质学家实现更好地预测吗?
每年,世界各地约有7000次里氏4.0或更高级别的地震发生。地震测量有两种,一是著名的里氏震级,二是更现代的矩震级。前者是依据地震所含的能量定级,而后者是通过地震所释放的能量认定地震等级。预测地震的时候,有三个关键问题必须找到答案:何时、何地、何种震级?
在《庸医游戏》中马修·玛贝认为,虽然地震有预兆,但是我们仍然无法通过预兆可靠、有效地预测地震。相反,我们能做的就是尽可能地为地震做好准备——它的发生频率远比我们想象的要大得多。这些准备包括在设计、修建桥梁和其他建筑的时候就把地震考虑在内,并且准备好齐全的地震应急包,一旦发生大地震,这些基础设施和群众都能有更充足的准备。
我们知道,地震是由构造板块相互挤压造成的——构造板块则是偶尔会漂移的陆地板块。这种板块挤压发生在地球深处,而且各个板块的相互运动复杂难懂。因此,有用的地震数据来之不易,而要弄明白是什么地质运动导致了地震,基本上是不现实的。
归根结底,准确地预测地震,即回答何时、何地、何种震级这三个问题,需要掌握促使地震发生的不同自然因素,以及揭示它们之间复杂的相互运动的更多、更好的数据。
大数据的关键之处正在于此:预测不同于预报。科学家能预报地震,但是他们无法预测地震。1906年旧金山发生地震,导致3000余人伤亡,而其何时会再次遭遇这样的地震?其实,科学家们只能预报某个地方、某个具体的时间段内发生某级地震的可能性。例如,他们只能说未来30年,旧金山湾有80%的可能性会发生里氏8.4级地震,但他们无法完全确定地说出何时何地会发生地震,或者发生几级地震。这就是预测和预报之间的差异。
不过,虽然准确预测地震还有很长的路要走,但是黑暗中尚有一线光明,那就是,科学家已经越来越多地为地震受害者争取到几秒钟的时间了。
传统的地震探测仪需要花费3000美元甚至更多,而如今基本的地震探测只需通过连接至标配计算机的廉价的探测仪就可实现,甚至只需通过使用如今很多移动设备内置的动作感应功能就可实现,而这些功能原本是为了导航和游戏设计的。
斯坦福大学的“地震捕捉者网络”由参与分布式地震检测网络的大约200个志愿者的计算机组成。有时候,这个监测网络能提前10秒钟提醒可能会受灾的人群。也许10秒钟看上去不长,但是却很重要,因为这意味着你是搭乘运行的电梯还是走楼梯,是走到开阔处去还是躲到桌子下面。
“地震捕捉者网络”就是一个会生成大量数据的廉价监测网络的典型例子。以前,要捕捉和存储如此多的数据耗资巨大,但是,近期的技术进步使得这些数据的捕捉和存储成本大大降低。有时候甚至比过去便宜了9成都不止。
大数据帮了奥巴马
大数据看似枯燥无味,但很多时候,它会成为赢得一场“战争”最有力的武器。
2012年,美国总统奥巴马仰仗其大数据分析团队,击败竞争对手成功连任。好奇的人们想知道,到底大数据在选战里起到了怎样的作用?
在这次总统大选前,奥巴马能不能赢得连任充满变数。从政绩上来看,奥巴马并没有做到之前承诺的将美国全国的失业率控制在7.4%以下;从选战的过程来看,竞争对手罗姆尼比奥巴马口才好,演讲水平也相当高超,公开辩论中,两个人不分上下;从对民众要求变革的呼应来看,临选前的民意调查,多数被调查者认为罗姆尼关于未来的见解更令人欣赏;从历来决定胜负的竞选资金投入来看,对手所花的费用比奥巴马多1亿美元。这一切都说明,奥巴马要继续留在白宫似乎非常困难。但出人意料的是,奥巴马还是赢了罗姆尼。
后来人们普遍认为,让奥巴马赢得选举不是靠运气,而是仰仗他的竞选团队成效卓著的数据分析能力。奥巴马团队的竞选总指挥吉姆·梅西纳表示,在整个竞选过程中,奥巴马的每次活动都是以数据作为支撑,而对多种来源的数据进行搜集、整理、分析和运用,确保了以数据为基础的决策。
收集大量数据的工作是奥巴马团队在连任竞选两年前进行的,他们将民主党零散的选民数据汇总在一起。在考量了重要性和费用支出的前提下,奥巴马团队的数据专家们针对目标选民和拟开展的活动开发了不同的预测和分析模型。如对每一个群体的选民都进行建模,进而预测他们的政治意向。所建立的模型可以根据实际情况进行动态调整,这样提高了分析的精准性。当时,数据分析专家在俄亥俄州获得了约2.9万人的投票倾向数据,这是一个巨大的样本,占选民的1%。这个数据样本可以准确了解每一类人群和每一个地区选民在任何时刻的态度。奥巴马团队的一名成员表示,他们可以通过复杂的数学建模来找到标选民。当第一次电视辩论结束后,选民的投票倾向会发生改变,团队通过相关数据分析就可以立即知道什么样的选民改变了态度,什么样的选民仍坚持原来的投票选择。在竞选过程中,他们筛选出目标选民并和他们接触,定向地说服他们,无疑这样的筛选就离不开数据的支持。
在连任竞选中,奥巴马团队充分信任数据分析,恰到好处地利用各种场合来争取选民。在每一次动员活动和公开辩论前,奥巴马团队都能根据受众的特点选取其最关心的议题,精心准备、博得支持。动员渠道和互动方式的选择也为目标选民量身定做。如奥巴马决定在社交新闻网站上回答问题,当时很多人弄不明白原因。奥巴马发现,很大一部分目标选民在社交新闻网站上。通过分析发现,在竞选双方拉锯僵持的“摇摆州”的电话参选动员上,来自“摇摆州”的奥巴马竞选志愿者,他们打给目标选民请求支持的电话效果优于非“摇摆州”志愿者打去的电话,助选策略随之调整。越来越多的选民因为奥巴马与他们心意相通的亲密接触,而果断地选择他作为新一届领导人。
奥巴马团队对社交网络等信息平台的运用也很成功。奥巴马团队运用脸谱社交系统开展了大规模的投票动员活动。在竞选冲刺阶段,下载一款应用的用户会收到多条消息,其中包含他们一些好友的照片,而这些好友来自“摇摆州”。这些用户接到通知,只要点击按钮,就可以呼吁这些好友作为选民采取行动支持奥巴马。这一举措效果很好,由于呼吁来自熟人,大约20%收到脸谱请求的“摇摆州”选民做出了响应。脸谱准确、快速的推荐算法,为奥巴马连任助了一臂之力。
奥巴马利用大数据赢得对手,这是大数据在实际中运用的经典案例,不可否认,大数据不仅仅运用于企业和科学研究中,它还可以运用到实际生活中,并产生巨大的作用。
(来源:《一本书读懂大数据》)