在阿里召集的数据群英会上,数据先锋们都怎么看“大数据”?
2014-03-08 存到微云收藏
2014年3月7日,阿里巴巴对外开放的数据峰会“2014西湖品学大数据峰会”在杭州召开。会上,阿里巴巴方面披露了目前该公司的数据储存情况。目 前在阿里数据平台事业部的服务器上,攒下了超过100PB已处理过的数据,等于104857600个GB,相当于4万个西雅图中央图书馆,580亿本藏 书。仅淘宝和天猫两个子公司每日新增的数据量,就足以让一个人连续不断看上28年的电影。而如果将你代入成服务器,你处理的数据量则相当于每秒钟看上 837集的《来自星星的你》。
目前全球仅有两三家公司计算技术达到单集群规模5000台服务器,阿里位列一席。随着数据量的继续增大,即使 单集群到10000台,也依然会触碰到天花板。而阿里做到的是跨机房运算。这也意味着,服务器突破了机房的空间限制,可以无限延展。这一技术也让占据另一 席位的facebook前来求教经验。
会上阿里巴巴集团商业智能部副总裁、数据委员会会长车品觉作了名为《大数据这三年》的主题演讲。他认 为,2011年的时候,大数据概念兴起。2012年,商业开始尝试如何运营大数据。而如今,大数据进入了DATA时代,也就是所谓的数据工程化时代。 在数据工程化时代,首先要学会运营大数据,其次是大数据需要开放出来,运用到行业乃至整个社会,这样形成一个正循环,数据产生数据,循环反复,充分运营 后,价值就会被不断地挖掘出来,让整个社会受益。
所以,大数据已经从4个V的年代,Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)延伸至三个维度,可实时性、可解释性、数据准确性稳定性。这三个维度是现在到底数据能不能用上的很重要的三个维度。
他认为大数据目前最大的障碍是,做业务的人不知道数据怎么用,做数据的人不知道别人怎么用。以控制为出发点的IT时代正在走向激活生产力为目的的DT(data technology)数据时代。这不仅仅是技术的升级,更是思想意识的巨大变革。
因 此,之前想使用数据却无力购买服务器和增添技术人员的中小企业,可以获得数据存储、数据处理服务,也可以构建他们自己的数据应用;在这里,线上线下所有数 据都能串联起来;在这里,所有人都是数据的提供方,也是数据的使用者;在这里,数据变成一种普及,就像语言一样,成为人人可用的东西,每个人都能享受数据 成果。数据者的思维,将不再被应该怎么拿数据,应该怎么用数据所束缚;而普通人,也不会再被“今天吃什么”这样的问题所纠结。一切,都是数据化的。
在分享中,他还阐述了自己的数据十诫:
1.好的问题,答案就在里面。
2.在实践中提炼数据
3.让数据变成Technology,Enable更多人
4.让数据跟着“人”走
5.木有数据质量,神马数据都是浮云
6.以假设数据都能获取去思考问题
7.大数据安全,不是监管
8.利用数据拿到更有用的数据
9.建立数据的数据,才有进步
10.让人做人擅长做的事,让机器做机器擅长做的事.
阿 里小微金服集团首席风险官胡晓明也做了名为《商业驱动下的大数据》的分享,他指出:数据没有大小之分,数据只有是否被商业认知之分。数据是一种信仰,只有 让数据产生商业价值,数据才能变大,数据才能真正的为社会、为消费者、为制造业产生力量。据他介绍,阿里小微金服已经通过数据为70多万小微企业贷款,而 且没有一家企业是实地考察,只通过数据的分析,就实现了良好的风险控制。同时,他认为当数据能够变成数据科学和数据知识的时候,它跟计划经济配在一起可以 让计划变得更科学,这种配置会优于通过竞争而导致的市场化最优配置。相信这个观点会引来经济学家的巨大争论,这完全颠覆了西方主流经济学的基础理论。
来 自安客诚(Acxiom)的首席分析官程杰则提出:大数据的价值在于连结。在他看来,公司网络、互联网以及网络软件,这三大领域的发展对于大数据有着至关 重要的影响。同时又运用“盲人摸象”这一典故,形象地说明大数据在商业方面实现价值最重要的,也是最大的挑战在于数据的连结。现在数据很多,但是数据的价 值是不一样的,尤其数据连结在不同的整合基础上,他们表现的价值完全不一样。数据如何连结?数据需要分解再整合,把一些复杂的现象分解成为单独的要素以 后,就能看到最基本的特征,真正的理解了以后再把它重新组合。美国已经开发了4000个针对单个消费者的数据模型,使得廉价的数据使用之后价值成倍提高。
LinkedIn 数据分析部资深总监张溪梦从数据分析与商业智能的角度提出数据分析的框架。他认为,商业分析就是用历史来预测未来,需要着力五个点:1、以前发生了什 么?2、为什么发生?3、当前正在发生什么?4、未来会发生什么?5、如何改变未来?从商业价值的产出来看,第一步到第四步基本的商业价值是零,而是要把 未来变得更好,这才是分析本身产生价值最重要的一环。
大数据不是越大越好,大数据分析有三个原则:第一,简单,分析出来的结果必须非常非常 简单,没有任何花哨的东西,任何人都能够看明白看懂。第二,迅速,分析速度越慢接受度越低,越快接受度越高。第三,规模化,希望公司内部所有的员工每一个 人都能够用数据来分析帮他们做决策,很快的做决策。
同时,他也提出了传统分析向大数据分析进化需要经历4个阶段:1、打造数据分析大金字塔;2、数据分析的规模化;3、数据分析的产品化;4、分析产品矩阵化,网络化,与合作化。