用大数据描绘实时经济趋势

许多机构正研究用大数据建立比传统统计数据更准确、更实时的经济指标。尽管大数据仍有缺陷,但潜力不容小觑。

上世纪80年代末,阿尔贝托•卡瓦洛(Alberto Cavallo)在阿根廷度过了他的童年时光。当时这个拉美国家正陷入一场债务危机,通货膨胀之猖獗,甚至日常出门购物都是一次争分夺秒的疯狂赛跑。

卡瓦洛和他母亲每天都要去银行,他们取出仅够采购必要物品的比索,剩下的钱还存成美元,然后马不停蹄地冲向当地商店,尽可能地迅速抢购他们要买的东西,以期赶在价目表再次更新前冲到柜台。

他感伤地回忆道:“如果我们没有及时赶到收银台,那么我们就得回到银行,重新开始。”

但这样的经历却在他心中撒下种子,后来发展成了通常古板的经济统计界里最有趣的实验之一。该实验试图利用“大数据”爆炸来提高、补充以及可能最终取代传统的数据形式,这一形式迄今仍在为无数政策制定者、政客、学者提供信息,决定他们的观点,还指导着价值数万亿美元的投资。

卡瓦洛现在是麻省理工学院(MIT)应用经济学的一名教授,他和本校另一位教授罗伯托•里戈本(Roberto Rigobon)一起主持了“海量价格数据项目”(Billion Prices Project)。该项目始于2006年,适逢那一届阿根廷政府被指控操纵通胀数据。卡瓦洛和里戈本教授想到通过汇集阿根廷零售商在网上列出的价格,他们可以建立一个更为准确、同步的真实通货膨胀率指标。自2015-2016年政府换届以来,阿根廷已发布了更准确的通胀指标。

麻省理工学院应用经济学教授阿尔贝托•卡瓦洛

根据网上列出的价格建立的更为准确、同步的阿根廷真实通货膨胀率指标

该项目的商业分支PriceStats现在收集到了足够的数据,可以为22个经济体提供每日更新的通胀数据。卡瓦洛说:“这事挺意外的。但我们很快意识到它可以运用到别处。”

此项目只是一个大趋势的例子之一,而这个大趋势就是在浩瀚的大数据海洋里搜罗关于企业、行业或整个经济体表现的线索。有些数据已经提供了有用的——虽然不完善——的见解。但一些专家预测,我们网络生活的数字指纹可能最终会被处理成一张经济趋势的实时地图,相形之下,今天的数据看起来就像20世纪20年代的铁路货运信息一样过时。

我们留下的数字痕迹庞大到不可思议。据IDC一项调查,全球在一年中生成的数据估计每年都会翻一番,到2020年总体数据量将达到44泽字节(ZB),即44万亿吉字节(GB)。如果将所有这些信息都放在高端平板电脑里,这些平板电脑垒起来的厚度相当于地球到月球距离的六倍以上。

另一家数据提供商Quandl的负责人塔默•卡迈勒(Tammer Kamel)表示:“只要你开发合适的数据集,你想了解的关于经济的一切现在都是可知的,这是一个很大的机会。经济报告很慢,但市场瞬息万变,而只要你找准了发力的方向,你现在差不多就能了解实时信息。”

这听起来可能有些雄心勃勃,因为大数据中可能混入了或明显或隐蔽的缺陷和偏见。但一些数据科学家表示,随着我们的生活日益挪到线上,我们可能正在接近一个时刻:近实时经济统计成为现实。

伦敦图灵研究所(Alan Turing Institute)一个新项目的负责人乔纳森•肖(Jonathan Shaw)在谈到新型数据在经济研究中的运用时表示:“把所有数据编排成正确形式绝不是一个微不足道的挑战。(但)我想十年内我们将更接近一个实时的经济数据图。如果十年内我们做不到这一点,我会很失望。”

当英国在2016年投票决定离开欧盟时,许多经济学家预言会立刻发生一场灾难。一项对服务业乐观情绪的调查,在英国脱欧公投一结束时显示出该调查20年历史上乐观情绪的最大降幅,高盛(Goldman Sachs)也预测英国将陷入衰退。但在正式脱欧前的这段日子里,英国经济到目前为止都证明是非常有韧性的。

不是每个人都做出了误判。2015年,英国投资集团施罗德(Schroders)成立了一个数据分析部门,帮助该集团解析大量新的数字信息,包括信用卡数据——让其能简要了解实时消费模式。尽管人们的情绪普遍低迷,但数据显示其影响微不足道。

“我们可以告诉我们的基金经理,形势看起来不错,几个月后,官方数据证实了这一点,”施罗德数据分析部门主管马克•安斯沃思(Mark Ainsworth)表示,“所有这些数字数据可以让你更同步地了解经济运行情况。”

其中蕴藏的潜力巨大。社交媒体内容可用于对大众情绪建立实时评估。太空中的卫星可以看到哪艘船何时停靠在哪里、油轮满载还是空驶、一种作物的长势,甚至一座高炉的生产率。信用卡购物记录和通过电邮发送的收据可以反映零售支出。成千上万的招聘网站或公司网站的招聘信息可以反映就业形势。智能手机发送的位置数据可以显示出我们在任何时间所处的位置。总有一天,“物联网”可以通过联网的冰箱来揭示我们的日常饮食习惯。

挖掘这些新数据集曾经是高端的“量化”对冲基金的专利。一些国家的财政部、央行和统计机构如今也开始涉足这一领域,以便更好、更快地了解经济趋势,这一变化会对公共政策产生重大影响。

金融危机暴露了官方数据的巨大滞后。负责判断美国经济衰退起止日期的半官方机构美国国家经济研究局(NBER)商业周期测定委员会(Business Cycle Dating Committee),直至2008年12月——雷曼兄弟(Lehman Brothers)破产近3个月后——才宣布美国经济实际上一年前就陷入了衰退。奥巴马政府时期国家经济委员会(National Economic Council)前副主任戴安娜•法雷尔(Diana Farrell)回忆说,虽然许多经济学家之前已经从快速恶化的月度和季度数据中得出了差不多的结论,但这些统计数据并未充分反映经济衰退的速度。

她承认:“经济形势比我们意识到的要糟糕得多,我们的政策反应基于的是一场程度轻微得多的衰退。”

如何发挥作用:评估中国的产出

SpaceKnow利用卫星对中国各地6000多个工业场所拍摄的数以百万计的快照,创立了“中国卫星制造业指数”(SMI),并利用人工智能将工业活动迹象转化为评估中国制造业状况的数字指标。

卫星数据显示,中国制造业的放缓比官方统计数字更严重

法雷尔现在是摩根大通研究所(JPMorgan Institute)负责人,该智库由摩根大通创立,目的是将客户数据转化为有价值的经济和政策参考。此外,该智库还探索了零工经济的作用、自费医疗支出对家庭财务状况的影响,以及按揭付款的调整如何影响违约或消费支出。法雷尔表示,大数据可以对政策产生“巨大”影响,尤其是在衰退时期。“极端时期的很多问题传统数据都无法回答,”她说,“我不认为这会取代核心统计数据,但显然可以作为补充。”

日前,美国商务部的经济分析局(Bureau of Economic Analysis)公布了GDP的季度数据,但即便这一“闪电”读数也滞后了一个月,而且还需经常修正。法国对冲基金CFM总裁菲利普•乔丹(Philippe Jordan)预计,未来各机构将能够更快速地拿出经济数据。

“发布季度GDP数据将变得过时,”他说,“为数据赋予结构极为复杂。但或许我们可以从得到月度(而非季度)经济数据开始。这将是一个不错的起点。”

SpaceKnow的非洲灯光指数:顶部为北非,底部之左为尼日利亚

如何发挥作用:非洲灯光指数

非洲的数据统计速度缓慢而且容易产生误导,因此,SpaceKnow通过测算夜间的灯光强度来更快速地评估工业活动。云密度低的国家可以按月测算,而云密度高的国家则按季度报告。

这一领域仍有质疑的声音。瑞士资产管理公司GAM旗下对冲基金Cantab Capital的首席投资官伊万•柯克(Ewan Kirk)表示,他的团队研究的大量貌似很有用的数据集最终证明对于投资没有什么用,他怀疑这些数据能否在预测经济运行方向方面更有价值。

“经济实在太复杂,比金融市场复杂一个数量级,”他指出,“现在资金流正在成为又一个数据提供者,而非数据用户。”

经济学家已经更善于从传统数据中开发出更为即时的经济指标,即“现测”(nowcasting)。有人认为,新的数字数据集对于提高“现测”模型的准确性没有任何作用。例如,加拿大早已开始发布月度GDP数据,英国很快也将公布。

数据科学家和统计学家都承认,将通常凌乱的数据集转化为可用数据的挑战是巨大的。智能手机或社交媒体数据通常无法覆盖年龄较大的公民的信息,信用卡数据只能反映一部分消费。恶劣天气会阻碍卫星抓取照片。

有些人认为,最大的障碍在物流和法律方面:信息主要分散在私营部门,藏于银行、电信公司、社交媒体平台或制造商手中。在某些情况下,这些数据可以通过付费获得——但多数情况下,企业可以共享什么信息受到法律约束,它们希望披露什么也有实际限制。

与此同时,许多政府统计机构往往缺乏足够的资源来获取并研究这些新数据集。

曼彻斯特大学(Manchester University)经济学教授、英国国家统计局(Office for National Statistics)研究员黛安•科伊尔(Diane Coyle)表示:“技术上的挑战非常艰巨,但可以解决……人们低估了监管方面的挑战。”她认为,鉴于更好、更快和更翔实数据对公共政策的意义,统计机构应被授予自由获取重要私营部门数据的权利。

但施罗德的安斯沃思表示,将通常包含敏感信息的大量数据集集中化会引发安全和隐私方面的担忧。“作为一个社会整体,我们应该问的问题是,我们是该拥有隐私,还是该将所有这些数据整合到一处,”他说,“因为这些数据是数字化和私人的,所以应该受到尊重对待。”

从大数据中挖掘实时、详尽和更准确指标的前景是可行的还是幻想?

怀疑者称,大数据不会自动变为优秀数据。及时性的代价可能是准确性打一个不可接受的折扣,而统计机构应该继续以准确性为优先。卡瓦洛教授表示,他将这些新的数字数据来源视为对传统信息的补充,而且不认为前者很快就会替代后者。

他说:“我们可以测量一切,并不意味着一切都值得测量。”

然而,我们正处于未来数字数据革命的早期阶段。乐观主义者表示,他们已经能够以10年前还难以想象的方式来评估经济趋势。现有数据集将拥有更长的时间序列,可以更精确地进行建模,同时将有新数据集可供使用。这将使相关研究分析人员提高精确性,并加快为整个经济创建全面、同步的统计数据。

科伊尔教授表示,该领域正处于发展的“大规模炒作阶段”,但她预测,“进步将非常快。”

延伸阅读——卫星数据:中国工业经济快照

中国已成为数据科学家寻找评估经济健康的非传统指标的沃土,部分原因是出于对官方统计数据质量的担忧。

西方的经济数据发布往往较慢但相当精确,但在中国,连官员都承认中国的数据可能经过篡改或是“人造的”(用李克强总理的话说)。这催生了一系列基于发电量、贷款发放量或铁路货运量的非传统指标,其中一个非正式指数甚至以李克强的名字命名。

非传统数据提供商已经将这一趋势提升到了一个新水平。SpaceKnow的“中国卫星制造业指数”是最好的实例之一,该指数基于的是对中国各地50万平方公里的6000多个工业场所的22亿张快照。这一指数为投资者提供了针对中国制造业的更快、也可以说更精确的评估。2015-16年,该指数显示出了比官方调查严重得多的制造业放缓,很可能更准确地反映了这段低迷期。

卫星图像有时会短暂地受到诸如坏天气之类的简单事件干扰,但它们提供的数据比传统统计数据更详细、更及时。由美国国家航空航天局(Nasa)和谷歌(Google)前工程师詹姆斯•克劳福德(James Crawford)领导的Orbital Insights,通过高炉发出的热量监测印度和中国的钢铁生产。

Orbital Insights还与世界银行(World Bank)合作,利用卫星图像绘制贫困率地图,并计划推出更多的宏观经济数据集。“这代表未来,”克劳福德表示,“用不了几年,我们将每天对全世界进行运动神经级别的监视。”

;