唱衰文:大数据至死 沉迷数据不能让我们正确把握未来

世界上有三种谎言——谎言,该死的谎言,以及统计数据。引自马克·吐温。本文的作者站在这个信息爆炸的时代,从多个角度展示了数据的欺骗性。有些是基于偏见,有些是方法不对,但总之,用数据说话,可能并没有想象的那么简单可靠。

这个世界不断的告诉我们数据会告诉你真相。但是同样的数据往往会告诉我们不同的故事,取决于是何种数据以及你如何解读。两个类似的数据,由于人们进行不同的解读,从而表现出两个截然不同的结论,这样的情况让我很怀疑什么才是真相。数据是人们手里的工具,而我们可以按我们的需要进行解释。需要澄清的是,这个问题并不是想说我们为了自己的目的而刻意隐瞒数据,虽然人们有的时候也有可能会这么做。我只是想强调,人类有可能会在解读数据的时候带有无意识的偏见。

在大数据时代,这是一个巨大的难题。当你看着不同的数据在同一个问题上向你展现完全不同的情况时,你如何找出问题的答案?

无论何时,数据都是可以被操纵的

PamBaker是《数据占卜者:大数据策略》一书的作者,在书中,她从数据科学的角度来论述这一问题,但是她还是强调,首先你必须问对问题,才能得到正确的答案。

Baker在一封电子邮件中向我解释:“数据是根据其与精确问题的相关性被拉动的。算法包括对于问题尽可能明确的输入和回答方式。”

她说数据科学家有不少工具来做好这项工作,但是错误依然有可能发生。“当然总是有犯错的可能,但是数据科学和数据科学早在大数据出现之前就已经解决了很多的问题。事实上,如果错误的数据点使用的数据和算法是有缺陷的,那么答案就会是错误的或者有缺陷的。”

到目前为止这些都还是有效的,但是我们很清楚数据科学家的局限性。这么多公司中,我好像还没有听过哪家公司表达这样的意思,他们都在讨论数据,但是大部分公司都缺乏经验来理解这样一件事情:数据可以被操纵,给你你想要的答案。

早些时候,我在在波士顿的Gilbane大会上听到一个演讲者说了一大堆类似于,科学家说人们没有装那么多的应用,平均每个人只安装了10个。他同时也表示90%的人不介意收到垃圾短信。不过要知道,他所在的公司是一家专门为短信广告提供解决方案的公司。他分享了一大堆数据,给你提出了一大堆建议,但是如果你真的以这个为依据来设计方案,为你做的应用进行推广,那就真是傻缺了。

这个演讲者接下来展示了一个数据,这个数据告诉我们,每分钟都有15.4万个应用被下载。可是如果每个人只装少于10个应用,那怎么可能会保持在同一时间以那种节奏同时被下载?当你能清楚的认识数据之间的相互矛盾之处,就能理解,这些数据让问题变得不那么清晰。也许那句老谚语比我们想象的更有道理:“世界上有三种谎言:谎言,该死的谎言,以及统计数据。”

掌握数据不难,关键是学会数据的分析、判断

而当我们把数据放到普通人手里,而不是像Baker建议的那样交给数据科学家,那结果可能会很糟。尤其是这些试图利用数据贩卖他们的产品或者服务的营销者手中。更糟的是他们可能会试图用错误的信息来描绘他们美妙的市场结论。

DigitalClarity集团总裁ScottLiewehr表示,这样的情况非常危险。他告诉我,市场研究必须下大力气建立有效的调研,否则他们就有可能使用错误的数据得出错误的结论浪费公司资源。“对于市场营销人员来说,这是一个很大的挑战,每个人都可以拿着数据说任何他们想说的故事。”Liewehr告诉我。“如果他们不知道如何进行调研分析,那就有可能会造成一系列错误决定。”

Baker也同意上面的观点。但是她同时也说,商家也可以为数据整理提供帮助,因为他们的市场人员比数据专家更了解市场动态,如果能把这两者结合到一起,那就能够产生更好的结果。“有的时候市场人员和销售人员比数据科学家更知道该问些什么。这也就是为什么我们需要一个由不同的人组成的数据团队。”她说。

但是她同时也说,即便是可靠的人也并非总是能得到正确的信息。“有的时候企业用户会痛苦挣扎,结果却得出了错误的结论,因为他们不懂统计方法,以及其他必要的方法来完成这项工作。

即便你很小心,数据也并总能让你得出正确的结论

上周我做了一篇报道,是关于最流行的企业同步与分享工具的,而这个工具是基于541Research的研究的。现在这是一家非常有信誉的公司,他们在公开研究成果之前已经运行着两个研究多个月了。我并非想对他们的研究成果进行毁谤,但是在那篇报道中我也怀疑他们是否问对了问题或者问对了人。他们不应该只是简单的看看一般使用率,而是应该仔细的询问企业用户许可和普通用户许可的比例,如果他们这样做,是不是会看到完全不同的结论?发觉数据并非你想像的那么简单,也并非我在这篇文章中所说的研究那么简单。

首先,451Research的数据发现超过40%的有效报告使用Dropbox,这个比例远远高于其他企业,我报道这一发现的时候都吓了一跳。Box是整个云计算的典范企业,在市场调查中位列第四,受访者中大约有15%的人选择Box,但是这并不一定是整个故事的全貌。

IlyaFushman是Dropbox企业产品的主管,他上周告诉我,Dropbox已经拥有了10万个商务用户(既有很小的企业,也有比较大的企业。)考虑到Dropbox是2013年4月刚开放这个产品,这个数字真是非常惊人。有趣的是,作为比较,Box告诉我他们拥有3.9万个企业用户,但是数量不能说明所有问题,因为Box拥有一些非常大的用户。

例如,Box的客户中拥有EliLilly,丰田,梦工厂,康卡斯特,MDAndersen以及葛兰素史克等巨头,而最近刚刚将30万份企业授权卖给GE。如果你把SchneiderElectric的6.5万份许可,以及保洁的4.4万份许可的算上,你一定可以得出跟451Research对于企业用户完全不同的结论,即便企业的总数量确实不同。

根据记录,我们很难发现Dropbox拥有多少用户,因为他们并不透露这样的数据,但是他们的大企业用户也包括很多品牌公司,比如Hearst,Hyatt,MIT以及新闻集团。而Dropbox也将一些比较小的企业的商标放在了他们的网站上。

AlanPelz是451Research的一位分析员,同时也是本研究的一位作者。他表示,他的团队依然在致力于优化方法,而他们现在公布的数据还只是他们长长的市场研究进程的一个开头而已。

“我认为十月份的调查数据像我们告诉我们一些新的事实——首先,Dropbox在企业领域拥有大量拥趸(这并不让任何人感到吃惊,尤其是他们的竞争对手)。这个市场还很不成熟,但是处在一个增长的阶段,而且现在很多的企业并不愿意把他们的数据放到公共云端。这些发展趋势随着时间的发展会变得非常有趣。而这个新的研究所要挖掘的信息就是谁将会真正成长出价值,而且随时间不断变化。而且我们正在为这个新出现的领域和新层面做细分市场研究以及收入模型的研究。”他在给我的电子邮件写道。

数据确实有巨大的价值,但是即便你非常小心,但依然有可能因为数据的歧义以及麻烦而得出错误的答案。因为即便我们拥有所有的数据,但仍然和现实会有偏差。而且你必须要保证你的数据对于特定的问题来说是准确的,而且遵循最佳的数据归纳法。即使这样,也有可能得出完全意想不到的结果。看来,跟随数据得出结论并不是像说的那么简单。

;