大数据未来--超级人工智能？

发表日期：2016-12-20 10:49AM 阅览次数：

在百度大数据开放大会上，搞计算机学术理论的怀进鹏校长的演讲犹如给所有听众的一记闷棍，怀校长的学术演讲把大家弄得云里雾里，把所有人弄晕了，现场能够听懂的绝对是少数

可能都会觉得怀校长有点像个外星人一般在那自顾自的演讲。作为一个曾经有志从事人工智能研究但失之交臂的又是学计算机毕业的人却越听越兴奋，冥冥中似乎找到了未来的人工智能所能抵达的可能性，那么笔者现在就尝试把怀教授的演讲转换为大家也能够听懂的语言吧。

一、理解大数据

1、当前大数据的四大特征：规模大、变化快、种类杂、价值密度低。

其实这理解起来很简单，我们来看新浪微博的大数据，为什么变现那么困难就知道了，新浪微博拥有庞大海量的用户大数据，但用这些行为数据变现却步履维艰，原因就在于微博上所产生的数据不够垂直，涉及面极广，而能够与商业相关的价值就更加难以挖掘了。

2、产业成果

怀校长列举了三块内容，百度和谷歌熟悉用户浏览行为，进而提供个性化的搜索。淘宝亚马逊因为熟悉用户购物习惯，可以为用户提供精准的喜好物品。微博和twitter了解用户思维习惯和社会认知，可以为国家和企业提供民众情绪等系列数据。

二、大数据到大数据计算

1、大数据膨胀，如何处理算法以及数据的问题?上面提到的是通过改变算法来达到遍历数据的目的，但是在真正处理数据时依然是无法做到高效的，毕竟机器CPU的运算瓶颈摆在那里，算法工程师本质上在做的事情就是在现有的运算条件下，设计出最优方案，来求得最好的结果。

2、大数据膨胀，如何解决搜索问题?传统的算法在搜索数据时完全没有问题，因为数据量很小，但是当数据海量增长时问题就会凸显出来，用原来的算法去计算肯定是不行的，按照当前最快的硬盘检索速度(60GPS)，线性扫描完1PB(10TB的15次方)的数据需要1.9天的时间，所以当数据海量膨胀时，必须重构算法策略来做数据的处理。百度目前的处理量是一天处理10PB的网页数据，这其中包括了运算和读取，算是目前最好的算法了。

而怀校长告诉我们的这个挑战就是，在大数据的膨胀后，不仅要将原来的算法更换为近似算法，同样还要将数据更换为近似数据，只有二者合力改变才有可能在现有机器运算能力的情况下抵达最优的结果。

同样是说起来容易做起来难，在这样的近似算法以及近似数据的改变下，到底该近似到何种程度，才能够最接近原算法的结果?要知道，在计算机世界里，差之毫厘失之千里，改变的量也许很小，但是如果一旦改错，就会造成巨大的错误结果，稍懂程序的人都知道，几行简短的代码就能让无论CPU运算能力多强的电脑彻底死机，而搜索引擎则更是一个更加庞大的试错工程。

最后，怀校长展示了两个学术前沿发展，第一，是定义易解类问题，从现实应用中找到这类易搜索问题，将之归类并应用于其他实践当中。第二，是将大数据进行小数据处理，寻找转化的精度度量，也就是他之前所说的寻找数据的近似值。

此外在大数据计算中，怀校长还讲了大数据运算的三大基础，表示，度量和理解。因为太过专业，解释每一个词都足够用一篇文章来解释，而且还不一定说得清，所以在此略过。

三、实践中的思维转变

大数据带给我们在研究以及实践策略上的思维转变。

1、从精确到非精确。关于这一点其实也很好理解，我们就拿传统时代的搜索来说，在传统的搜索时代，当我们去查询某个信息时，我们需要得到的是全部的数据，但是搜索引擎则完全改变了我们这种认识，搜索引擎提供的只是前几项内容，而这几项内容则完全满足了我们的信息需求。

搜索引擎其实在做的是一套模糊算法，经过一系列的算法计算，将最优秀的结果带到用户面前，而这种结果上的呈现也颠覆了传统所认知的对于目标的定义，在大数据时代，我们追求的不再是绝对目标，而是一个从宏观趋势下推导出的一些模糊的不精确的未知目标。

2、从抽样到全样，大数据的大决定了大而全的特性，在传统工业中教会我们做统计的最大方式就是抽样，诸如系统抽样，分层抽样，定额抽样……，这些统计方法将会在大数据时代越来越不复存在。大数据的信息化可以统计到一切想要统计的数据，将工业时代的统计方法淘汰掉。

3、从因果到关联。而这也直接导致了西方又产生了惊人的言论—“理论已死”，这是继“上帝之死”，“人之死”，“作者已死”“历史的终结"，”哲学已死“后的又一大胆的言论。以往的决策者要想决定某件事，必须参考各种理论，对其中的因果进行判定后才能达成，但是大数据时代则让决策变得更加容易，比如超市大数据可能会用清晰的图表告诉你每当下雨天时，超市里的蛋糕会卖的多，这时候决策者根本不需要知道任何理论，任何因果，只需要在天气预报预测明天将要下雨时提前准备蛋糕就行了。

四、大数据软件工程

1、如何解决大数据的计算支撑问题?说的简单点就是，大数据处理必然不是一台或者几台服务器就能搞定的小事情，大数据处理需要庞大的硬件支撑，硬件支撑也必然是分布式的设计，那么该如何设计顶层的系统架构才能高效能的满足大数据的处理工作?近似性(Inexact)、增量性(Incremental)和归纳性(Inductive)的3I特征如何被满足?

大数据下分布式硬件如何与软件协同，如何避免扩展失度，处理失效和耗能失控，这些都是令人头大的问题。在系统设计上充满挑战。

2、众包大数据是否可以开发软件?这其实是一个非常疯狂的想法，我是这样解读怀校长的想法的，假设目前我们可以做到众包大数据软件开发，那么情形应该如下：大数据爬行机器根据读取新浪微博的数据，百度指数的数据，百度贴吧的数据，淘宝的交易数据后，发现了用户的各种情绪以及需求的曲线，软件开发者再根据这些数据的呈现开发出一套软件的模型然后交给运营商放置于云端，而用户再参与进入各种云端产生的软件，在此种产生了各种行为，于是机器再根据这些用户的行为，为软件建模，规划。

这是一种极为精尖交互式数据挖掘技术，前提是解决算法以及存储问题，一切皆有可能。未来的大数据软件将不会是一种固有形态，而是一个不断根据数据自动变化的超级生态，可能不是依靠产品经理推动，而是依靠算法工程师来推动，让用户的需求自然暴露，然后为他们去实现一些功能。

大数据或许会在未来某个阶段被定义为：对人类世界的真实还原，并且不断的满足我们的任何愿望，曾经我们依靠它来决策一些事情，现在我们依靠它来直接抵达我们想要做的事情，我们所有的行为都已经成为我们决策的一部分。

大数据未来--超级人工智能？

站内检索

按日查询

下载安卓客户端