相关关系并不意味着因果关系 大数据应避免大混乱
199IT数据中心微信账户:i199IT
翻译:腾跃 校对:王晨
当今时代,大数据泛滥、数据挖掘工具种类繁多,玩弄图表游戏已经变得不能再容易,管理者需要火眼金睛,秒杀数据间的虚假关系!
举个例子,随机选取统计学上相关的两组数据,Y轴表示数据。
截取Y轴,让两条线接近。看,订阅HBR增加了WidgetCo公司的收入。
是不是感觉被忽悠了呢?!警惕虚假相关,一起新技能get√
我们都知道“相关关系并不意味着因果关系”,但当我们看到两条线朝同样的方向倾斜,柱状图中数值同时上升,或者数据点在散点图上聚集在一起时,数据简直在请求我们找出其中的逻辑,我们也甚至想要相信其中存在某种逻辑。
然而,统计学原则要求我们不能做这个逻辑跳跃。有些图表利用视觉小把戏,企图证明事物间存在密切相关性。哈佛法学院法学博士生、《虚假相关》(Spurious Correlations)一书作者泰勒·维根(Tyler Vigen),在他的网站上展示了一些荒唐可笑的“相关性”例子,比如美国人造黄油的人均消耗量和缅因州离婚率。
1 荒谬性
泰勒•维根制作网站就是为了从容量较大的数据组中,找到并描述出数据间荒谬的相关性。以下是三个例子:
2 严重性
我们能够轻易发现并揭穿荒谬的例子,但当管理者碰到人为设计却看似合理的图表该如何做呢?
以下是三类需要留意的把戏:
(1)苹果和橘子 比较不同的变量
表示不同数值的两条曲线可能相似,但实际上不应放在一起比较。
当两个数值看似相关但实际上无关时,这种曲线图展示方式极其有害。所以最好用不同的表格表示不同的数值。
(2)扭曲坐标轴 调整数值范围从而比较数据(图表中K代表1000)
即使两条Y 轴表示的数据类型相同,改变数值范围也能改变曲线走势,进而指示虚假相关性。
左图中,表示RetailCo 公司每月收入的两条Y 轴,数值范围和变化比例都不同。去除第二条Y 轴后显示了图表是如何被扭曲的。
(3)如果-那么 暗示不存在的因果关系
将不相关的数据绘制在一张图表中,让它看起来像一个变量变化,会引发另一个变量发生变化。
我们可以根据左图来做一个推断——Pandora(Pandora 是美国最流行的提供在线音乐服务的软件——译者注)净亏损越少,越多音乐作品受到版权保护——而实际上这只是巧合,并不存在这样的因果关系。
哈佛商业评论:http://www.hbrchina.org/2015-07-02/3117.html