国务院副总理汪洋:谈大数据感悟
休息这几天,我看了两本书,其中有一本是广西师范大学出版社出版的,一个美籍的华人涂子沛写的《大数据》,看以后非常有启发。我推荐你们全厅干部都看一下这本书,研究一下大数据时代。他这书里边讲,数据是对信息数字进行解释,赋予意义。
进入信息时代后,人们趋向把所有存储在计算机上的信息,无论是数字还是音乐、视频,都统称为数据。2010年,美国总统科学技术委员会给总统和国会的报告写了这么几句话:数据正在呈指数级增长,联邦政府的每个机构和部门,都需要制定一个应对“大数据”的战略。现在大数据战略被认为是世界下一个创新、竞争和生产力提高的前沿,是争夺全世界的下一个前沿。你看,重要不重要。
书里面分析了政府数据有哪些来源和收集方式。他说了有三种来源,当然有不同的收集方式。第一种来源,业务数据。包括你们要做的,就是业务数据。来源是下级部门和社会组织,是以基层上报、被动接受为主。第二种数据是民意数据,是单个公民或组织需要投入人力,财力去主动收集,这样的数据收集也是将来财政要创造环境的,要支付的。第三类数据是环境数据。这个环境不仅仅是我们说的大气这些东西,他包括自然环境、动植物以及物体,以传感器自动?集为主。物体包括汽车,包括运输物、动植物。
所以,如何收集、保存、维护、管理、分析、共享正在成指数级增长的数据,是我们必须面对的挑战。刚才我问了你们国库处,动态监控数据能有多少字节,能不能有多少G,你们说达不到,还是K级的。大数据是什么概念呢,就是至少是太字节的,从字节来讲是2的40次方字节,是相当大的数量。
大数据时代来了,我们要搞这些数据,对我们政府有什么意义呢。将来引导我们政府前进的是基于实证的事实,不是意识形态,也不是利益集团在政府决策过程中施加的影响。我们基于这些数据说话,将使政府更有效率、更加开放、更加透明。
这个书里举了很多例子,我看了之后非常有启发。比如讲美国的交通史。1966年,美国有9400万辆汽车时,交通事故死了5万人,这是他的最高峰;但是到了2009年,他是2亿4000万辆汽车,但是只死了3万人。汽车大幅度增加,死亡人数却大幅度减少。我不知道我们现在多少辆车,反正一年死十几万人是有的。为什么下降了,就是他们通过对数据的分析。分析以后发现,一年12个月,5、6、7、8月事故率是最高的;每一周,礼拜六、礼拜天事故率最高;一天里边,下午6点到晚上9点事故率最高;什么天气是事故率最高的,当然跟你们想的都不一样,不是下雨天、雨雪天,正常天气事故率是最高的。然后什么年龄段事故率最高,就是24岁—35岁,44岁—55岁,这两个年龄段最高。这个分析过以后,然后有针对性的措施。当然有些数据,他分析的更具体。为什么有的州高,有的州低,发现事故率高的州高速公路弯比较大,事故都是右侧的事故,就是因为弯比较大。有的事故率低,就是发现这个地方警察经常查系安全带,所以事故率低,那个事故率高的地区是没查安全带所以一系列数据收集分析,改进以后结果事故率就下降了。车子从不到1个亿,增加到2亿4600万,但是死亡率下降。这个非常有用啊。
另外,美国人现在开始在数据上打假,美国人的福利比较好,所以把所有的数据都输进去,然后通过计算机设计软件,一旦发现,?上就去查福利滥用的情况。社会治安也是利用数据去分析,包括911之后的情况。现在美国已在有专门的机构,来负责收集、研究、使用数据,商业也好,政府也好,来研究这个数据的发展。
比如沃尔玛,沃尔玛通过他的销售数据,分析过以后发现,每到礼拜六、礼拜天,有两样东西是成比例的增长,啤酒和尿布。关于这个,你知道为什么呢,后来就发现,礼拜六、礼拜天常常就是女人在家做事,男人到购物店买东西,买东西就买尿布,买尿布的时候男人就想,挺辛苦的买点啤酒犒劳自已。所以啤酒和尿布就一块增加了。你很多是想不到的。数据你注意使用它。
马云最近来找我聊了一次。他当时就跟我说,你2008、2009年到杭州去,让我到广州来卖货,我跟你说说这几年卖广货的效果。2008年一年,他在淘宝网卖了177亿广货,今年可以卖到1700亿,就是四年是十倍。他就讲,他现在他觉得数据是他的竞争力。他当然讲了个例子。他说你想不到,全中国比基尼卖的最好的是哪几个省。然后就说,你绝对想不到。一般人认为,肯定卖的好的是广东,海南岛,他说卖的最好的从淘宝上看,是新疆和内蒙。他说,估计每一个男人,都要给他的夫人、情人和对象有一个美好的憧憬,有一天我带你去下海。当然这是他的一种解释,但是能反映什么呢,就是这些数据和你想象的不是一个概念。如果商家掌握了这个东西,其实你比基尼广告的重点不要放在广东做,你放到新疆、内蒙去做啊,这效果可能就不大一样了。
对于政府工作来讲,同样如此。我看这个书里写,流感对于美国人是一个非常大的事情。美国人对于的流行病学的各种调查就是掌握不了流感的规律。后来想到从2万多家药店的销售记录中间,把这个数据拿来、分析,分析后发现,一般在全国流行性感冒的前两周,药店的感冒药增加的比较快。也就是增加的比较快两周以后,全国的流行性感冒来了,政府就需要增加对流行性感冒预防的措施。他们就分析为什么呢,因为大部分人开始有感冒症状的时候,没有意识是个问题,就到药店买点药吃。一旦增加了,药店的药增加了,估计下两个星期后,医院的人就要增加了,这个时候预防措施就要开始了。
所以这个数据是非常重要的问题,我们将正式进入一个数据为王的时代。李嘉诚也是有这样的看法,他前不久给我写了一封信,说人工智能和大数据技术的普及化,势必令不同行业和教育系统的范式转变。他说这个范式我估计是香港说法,就是模式。不同行业都是这样的,你比如讲他这个书里讲的,政府掌握数据往往关系到行业标准,比如单位牛奶中的蛋白质含量,菌落群数应该是多少,饮用水里面能混杂多少含量的微量元素,新鲜蔬菜能带多少指标的杀虫剂残留,每个指标的变化,即使只有零点几,都会影响到一个行业的竞争,改变一个产业。
这个数据非常重要,而这个数据最后实际上都涉及到利益,所以你政府掌握不掌握这些数据,在制定政策的时候,特别是个各个行业、企业利益博弈的时候,你可能就会陷入被动。你们看这本书里也有这样的例子。在美国,存在一个庞大的说客集团。华盛顿最大的产业,第一是旅游,第二就是说客。他们代表企业和行业的利益,游说政府的政策制定,这里面都涉及到利益。政府不掌握这些数据,就有可能被掌握这些数据的行业集团所影响操控,政府的决策就不可能科学,特别像财政,更是如此。
而起我想说,政府的数据是要公开的,当然公开也是一种博弈。刚才我已经讲过,我们掌握的一些数据,比如“三公”经费信息,公开之后,它的好处是什么呢,实际上是创造一个社会帮助我们改进工作的机会。最近我看了些书,有个一观点,下一步的改革,实际上就是政府要调动民间的力量对利益格局进行调整。因为你单靠政府已经搞不动了,那怎么办呢,就是要让社会、民间参与其中。其实我们公开“三公”经费信息,就是调动社会力量促进我们改进工作。
这个东西你们可以去看那本书,书中就有这样的例子。比如说奥巴马上任后就搞了个信息公开化的承诺,故事你们可以在书中找,过程很有意思。最后在120天内搞了个规划,吵得一塌糊涂,跟我们搞放权一样,大家在公开的场合都赞成,一到具体要公开本部门的信息的时候都说,我这个部门的数据不能公开。但是美国的联邦政府的首席信息官维伟克·昆德拉,一个年轻的印度裔移民,他很有办法,他先从一些没有争议的数据开始,并快刀斩乱麻,推出了一个技术平台并不断完善。一旦数据公开走上轨道了,群众就会监督,向更多部门和领域提出数据公开的要求。美国有个信息自由法,只要人家向部门提出信息公开的要求,相关部门就要回复,部门不愿意公开要说明理由,人家接受就可以不公开,人家不接受可以去起诉部门。所以现在政府公布的信息越来越多。
公开的好处是什么呢?以美国的民航业为例,美国民航的正点率比我要高很多了,它是如何做到的呢?现在美国交通部开放了全美航班起飞、到达、延误的数据,那当然也是海量的。公布之后,有人就利用这些数据开发了一个航班延误时间的分析系统,并向全社会免费开放。通过这个可视化的软件,任何人都清楚的看到:晚点最少是哪个航空公司,晚点最多的是哪个航空公司,一般晚点多少时间;在各个航线上,哪个晚点最多,哪个晚点最少,哪个正点率最高,它把这些排列出来,一目了然。这个是民间开发的软件,不是政府开发的,政府只是把基础数据公开了。这样做的结果呢,就是美国民航的误点率逐步减少,满意率不断提高,而且政府也没有承担软件开发的费用,只是把这个信息公开了,却达到了三赢的目的。这里面能看出个规律,部门公开数据,公众提出意见,部门根据意见再改进工作,当然了,这里面也有很多博弈。
这本书中还写到,万维网之父,蒂姆·萧伯纳·李在2009年的一次演讲中说过一句话,“原始数据,现在就要!”我看到这里,很受启发,我们中国人,包括在各个领域,对数据的概念和作用的重视,还是很不够,从某种意义上来说是我们做这个工作的重要契机。就像改革开放初期,我们的农民对土地的重要性认识不足一样,我们那时有意识地把土地拿在手里。欧广源当县委书记的时候,搞了几千亩地,到现在都觉得当时很有远见,那时候征地费用没那么高,大家也没觉得地会像现在这么值钱,结果你意识到了,你把这些地拿到手了,就成为后来竞争的重要资源。现在我们全社会也没有意识到这些数据的重要,你们的工作对象也没有意识到这一点,这个时候,是收集数据最好的时候。
作者在书的最后,提出希望我们国家重视数据。他写到中国人数据意识的淡薄由来已久,甚至可以称之为国民性的一部分。胡适曾经写过,我们中国人是“差不多”先生,什么事情都“差不多”就行,不注意数据的收集、整理和使用。他举了个例子,麦肯锡公司以2010年度各国新增的存储器为基准,对全世界的大数据的分布做了一个研究和统计,中国2010年度新增的数据量为250拍(PB,1PB=1204TB=250字节),不及日本的400拍、欧洲的2000拍,和美国的3500拍相比,更是连十分之一都不到。但是我们中国却是全世界第一手机大国,第一互联网用户大国,实际上我们只是把这些数据收集起来,就能发现很多问题。我说过,上次分析经济形势的时候,让移动和联通把相关数据拿来,就可以看出许多问题。
所以我就想,如果我们能像三十年前政府可以轻易的拥有土地一样,现在抓紧时间搜集数据、使用数据,这是竞争的一个新的制高点。因为再下一步,考虑到隐私权的问题,将来再收集个人数据就没有那么容易了,另外单位里面的数据也可能会存在越来越多的保护举措。所以我觉得,现在财政的数据收集、分析、使用以及公布会极大的促进收入、改进支出、提高财政工作水平。
所以我希望大家能认真读一读这本书,带着问题读、带着想法读,怎么样促进财政数据的收集,怎么样加强财政数据的分析,怎么样挖掘数据背后有利于我们增加收入、改进支出的有用因素,然后逐步推进财政数据的公布,调动全社会监督的力量,使我们的工作水平不断提高。将来这个社会是个开放的社会,有兴趣的人他会提出意见。
我相信,你们拿这本书去看一看,如果能带着问题去想,带着问题去做,会比我今天讲的所有内容都会对财政工作有更大的益处,而且不是一天,将会发挥长期的作用。