大数据批评家常犯的三个错误
现在,唱衰大数据已经成为了一种时尚,似乎谁都可以通过评价大数据成名15分钟。但是,近期对于大数据的批评已经开始出现误导。数据有偏差,相关性和因果性混淆等等。这些大数据的批评家们常会犯这样三个重要错误。
第一,他们误解了大数据,将它狭义地理解为在社会科学中已经失败的“假设检验”(注:数理统计学中根据一定假设条件由样本推断总体的一种方法)。他们忽略了大数据的长足进步,例如那些已经积累了丰富数据的网站、信息可视化以及机器学习。如果一定要对大数据的从业者进行批评的话,可能就要批评那些大数据工程师建立起来的社交媒体网站。许多网站还在说一些陈词滥调,而构建一个数据丰盈的网站如Facebook、YouTube、Vimeo、Twitter确实极具挑战性。过去五年,他们悄悄成长,改善了数据库技术和网站的开发框架,才呈现出了今天的进步。
大数据也有助于机器学习和机械视觉的发展,幸好有了大数据,Facebook的人脸识别才取得了长足发展。批评者们也都喜欢忽略计算设计、数据新闻和新的艺术表现形式对大数据的传播与扩散。计算艺术家、记者和设计师利用数据给我们提供了有别于纸质媒体的在线体验。如果我们将视角从传统的“假设检验”上移开,将会发现大数据已经创造了很多贡献。
第二,人们经常混淆数据原理的局限性和人为错误。这类事情层出不穷。例如,我在麻省理工媒体实验室带领团队创建的“城市脉搏”(Place Pulse)项目,使用谷歌街景感知城市的安全及财富,我们承认,最初的实验方法充斥着局限性,谷歌街景图像可能拍摄于一天的任意时刻,城市的边界也是任意的。为了克服这些局限性,我们需要有一个数据集作为必要前提。一年后,我们顺利解决了数据集,现在,我们可以用它来矫正计算机视觉和机械学习在现场的误判,进而动态地确定城市的边界,此外,我们还在搜集新数据以扩展新的地理边界。
如果谁还对技术的迭代进步心有疑虑,就有可能被飞速进步的技术远远抛下。1920年,纽约时报预言火箭将永远无法离开大气层,同样的错误预测还殃及过汽车发明以及iPhone的市场份额。1969年,纽约时报撤销了其在1920年的预测,2069年,媒体会撤销对什么的预测呢?
第三,对大数据心怀疑虑的人都过于依赖二手资料。例如,他们将2008年《连线》的克里斯·安德森(Chris Anderson)应用大数据为框架做出的片子看作是“理论的终结”。又对一些子虚乌有的项目大加鞭挞。我倡议大数据的批评家们应该以身作则,投入到创造真的可以改变业态的工具中去。我们赞同“相关性并不意味着因果关系”这样的讨论,但毕竟进步不来自于语言,而是来自于实践。
(本文作者Cesar A. Hidalgo,ABC职业发展教授,麻省理工媒体实验室成员)
来源:《商学院》