加大伯克利分校著名科学家:大数据的“冬天”即将到来
今年以来,“大数据技术”和“大数据分析”明显显得更加的“火热”。然而,鲜有理性的声音存在。美国顶尖公立研究型大学、世界上最负盛名且最顶尖的公立大学——加州大学伯克利分校,其Pehong Chen Distinguished Professor(校陈丕宏杰出教授)、美国科学院院士、美国工程院院士、美国艺术与科学院院士、ACM会士、IEEE会士、AAAS会士、AAAI会士、ASA会士、IMS会士、机器学习领域国际著名学者Michael I. Jordan教授近日接受IEEE《频谱》杂志采访时,在Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts一文中指出,现在大家炒作大数据过了头、大数据可能只是一场“空欢喜”、大数据的“冬天”即将到来、大数据要在几十年之后才能真正有用、大家要能真正沉下心来做完整的工程统计分析等。以下是对访谈全文的编译。
IEEE S:现在我们不妨将话题转到大数据上。您的言论中始终认为当前对大数据的执着里有把“黄铜当金子”的成分。比如您就曾预测公众即将经历一场大数据项目带来虚警的“流行病”。
Michael I. Jordan:当你有了大量的数据之后,你就会想提出更多的假设。而一旦提出假设的速度超出了数据的统计内涵,那么你的推断里有很多都可能是错误的。它们也许就只是“白噪声”。
IEEE S:为什么会这样?
Michael I. Jordan:在传统的数据库里,你有比方说几千个人的数据。你不妨把他们看成数据库中的行,而列就对应了这些人的属性:年龄、身高、体重、收入等等。
现在,这些列的组合数目是以指数的速度随着列数增加的。因此如果你有非常非常多的列(现代的数据库里的确如此),那么对每个人你都会得到数以百万计的特性。
假如我现在开始查看这些属性的所有组合——你是否在北京生活,是否骑自行车上班,是否从事某项工作,是否处于某个特定的年龄——那么你得某种疾病或者你喜欢我的广告的概率是多少呢?我将得到数以百万计的属性组合,并且这些组合的数目是指数级别的;它会达到宇宙中的原子数目的规模。
这些就是我想要考虑的假设。在任何一个特定的数据库里,我都能找到这些列的某种组合来完美地预测任何结果,哪怕只是随机地挑选。如果我只是查看所有发生过心梗的人,把他们同所有未发生过心梗的人作比较,并寻找可预测心脏病的列的组合,我就的确能够找到列的各种各样的疑似组合,这是因为它们数量庞大。
这就好像让好几十亿只猴子在那儿打字,总有一个会写出莎士比亚。
IEEE S:您认为大数据的这一面目前没有得到重视吗?
Michael I. Jordan:当然。
IEEE S:有哪些东西是人们承诺大数据能带来的而您认为其实是无法兑现的?
Michael I. Jordan:我认为数据分析能够按某些质量标准发布一些推断,然而我们必须交代清楚这些质量标准到底是什么样的。我们必须在我们所有的预测上加上误差线,而这正是在目前很多机器学习文献中所欠缺的。
IEEE S:如果处理数据的人并不理会您的建议会发生什么情况呢?
Michael I. Jordan:我喜欢使用“造桥”来做类比。假设我不依从任何准则,毫无科学根据地建造了上千座桥梁,那么它们有很多都会崩塌,造成巨大的灾难。与此类似,假设人们使用数据并根据这些数据做出推断而完全没有考虑误差线、数据异构、噪声数据、采样模式,以及所有那些作为一个工程师和统计学家必须慎重对待的事情,他们就会做出很多的预测,并且有很大可能会偶尔解决一些真正有意思的问题。但是时不时地还会做出一些灾难性的糟糕决定。这其中的差别你事先是不会知道的。你就只能做出预测然后祈祷一切顺利。
这就是我们的现状。许多人在(用大数据)做一些事情,期望它们能有用,有时它们确实起
作用了。从某种意义上讲,这么做也无可指摘,这本就是探索性的工作。但是就整个社会而言,不能放任这种情况发展,我们不能只是“但愿”它们有用,到头来我们还是要给出切实的保证。
土木工程师最终学会了如何建造能够持久屹立的桥梁。那么说到大数据,我猜可能还要过几十年才能形成一个真正的工程学方法,以便你能够有一定程度的保证说,你正在公布合理的答案并且在对出错的可能性进行量化分析。
IEEE S:我们现在有提供那些误差线的工具吗?
Michael I. Jordan:我们正在着手把这门工程科学组装起来。我们有许多想法,它们来自于数百年的统计学和计算机科学的研究,我们正致力于把它们融合到一起,让它们具有可扩展性。过去30年间涌现了许多关于如何控制所谓的“族群误差”的想法,也就是在有多个假设的情况下想知道误差率。但这些想法仍有许多还没有从实际计算的角度进行研究。解决这些问题是很难的数学和工程课题,并且需要时间。
这不是一两年的问题,而是需要几十年才能做好。我们仍旧在学习如何用好大数据。
IEEE S:在阅读关于大数据和医疗保健的报道时,差不多每三篇就有一篇在谈我们将几乎完全自动地靠着从每个人身上(尤其是通过“云”)收集数据来获得令人惊叹的临床诊断的发现。
Michael I. Jordan:对这种事,你既不能全盘怀疑也不能彻底乐观,应该就在这两个极端之间。但是如果你把某些数据分析中得到的假设全部列出来,那么总有一部分是有用的,你只是不知道是哪一部分。
所以如果你随便挑出几条来——比如说“吃燕麦麸就不会得胃癌”之类的,因为从数据上看似乎如此,那么你会有一些走运的机会。数据是能提供某种支持的。
但是这还是在赌博,除非你真的做了完整的工程统计分析来给出误差线并且量化错误率。虽
然它比没有数据就直接赌博要好些,那是纯粹的轮盘赌。而这是一种部分的轮盘赌。
IEEE S:如果我们继续在您描述的那条(错误的)轨迹上前进,大数据将会面对怎样的不利后果?
Michael I. Jordan:最主要的就会是一次“大数据的冬天”(暗指20 世纪七八十年代的“人工智能的冬天”)。在一场泡沫之后——人们已经投了钱,一大批公司作了承诺却又拿不出严肃的分析结果——泡沫会破碎。并且很快,在2~5 年间,人们就会说“大数据来了又走了,它死了,并且是错的。”我预言的是那样。
当炒作过了头的时候,这就是在那些循环往复之中会发生的事情。这些炒作或者说断言,既不是基于对真正的问题是什么的理解,也不是基于解决问题可能要好几十年或者说我们会取得逐步进展的理解,而是基于一种我们还没有在技术进步中取得关键性跨越的理解。在此之后可能会有一个时期,获取资源来做数据分析变得十分困难。(当然)这个领域会继续发展,因为它是真实的也是有实际需求的。不过这种反弹势必会对一大批重要的研究项目造成不利影响。