《驾驭大数据》:技术实现有效分析

摘要:我们关注大数据,是想要在收集和获取的基础上,实现高效存储与计算,并从指数级增长的非结构化数据中提炼出有价值的信息加以分析。这其中,技术与工具固然重要,但策略制定、流程改变、文化氛围也不容忽视。这也是Bill Franks在《驾驭大数据》一书中最为核心的观点之一。

麻省理工学院管理曾在《通往价值的新道路》研究报告中,总结出一个结论性数据:“顶尖绩效的公司使用正确分析挖掘方法和工具的利用率比绩效较低的公司要要高出5倍”。这也反映出业内对数据价值的热烈讨论,而其中最能引发共鸣的就是,如何收集和获取数据?如何高效地存储和计算?如何从海量数据中提炼出有价值的信息?

追本溯源,在这波已被确认的大数据浪潮中,企业该如何找到适合自身发展的“冲浪板”,也就是自己的数据专业分析之道呢?Teradata天睿公司合作伙伴计划首席分析官Bill Franks在其《Taming The Big Data Tidal Wave》一书中给出了答案。这是一本在美国亚马逊“大数据”主题中销售火爆的新书,中文版已由人民邮电出版社出版,国内上架的书名为《驾驭大数据》。



各方评论良好

1月30日,在《驾驭大数据》新书发布会上,Bill Franks表示,“我认为有必要撰写一本以业务为中心的大数据著作,将大数据相关的重要议题集纳在一起,其形式应该让业务人员和分析专家都容易理解。我希望通过本书中提供相关的洞见,同时辅以行之有效的建议和行动步骤,让大数据源和大数据分析为企业服务。”

对于该书质量,各方评论都很不错。不仅成为亚马逊书店排行榜的销售明星,而且获得了学术界和业界的认可。美国巴布森学院信息技术与管理领域的校长特聘教授、国际分析研究所(International Institute for Analytics)联合创始人及研究总监Thomas H. Davenport在本书前言中指出了本书的特色:“这本书抓住了重点。它主要讲大数据的有效分析,而不是大数据管理主题本身。它从数据切入,深入到如何框定决策、如何构建卓越分析中心、如何构建分析文化等议题。”



Bill Franks:聚合大数据相关重要议题

为此,“人民邮电出版社争分夺秒出版了这本2013年的重点图书,”人民邮电出版社顾翀副社长表示:“Bill Franks被称为‘洞察博士’,是全球知名的‘分析英雄’,我们希望中国的读者能受益于作者的思想,能帮助我们的企业和组织尽快建立自己的大数据战略。”

这本书的翻译工作得到了Teradata天睿公司大中华区的大力支持,大中华区首席执行官辛儿伦也表示:“我们非常荣幸协助人民邮电出版社,将《驾驭大数据》一书的内容和理念完整地分享给中文读者。大数据在中国已经成为IT行业的新热点,正要进入应用爆发的阶段。数据的核心是发现价值,而驾驭数据的核心是分析,我们希望能够帮助企业更好地将大数据转化为更多业务机会。”

策略制定、流程改变、文化氛围形成最难

《驾驭大数据》的主题是如何利用高级分析技术从庞大的数据源中寻找商业机会。所以,在简单介绍了大数据相关概念以及10大数据源之后,Bill Franks将笔墨集中在以下主要方面:

可视化图形界面的演进、单点分析解决方案、分析软件工具类型及开源包R、数据可视化工具; 现代分析方法,如组合建模(ensemble modeling)、简易建模(commodity models)以及文本分析等; 打造卓越分析、优秀分析师以及伟大分析团队的途径; 如何在企业中营造创新和探索的文化氛围。

但是,面对大数据市场形形色色的技术与方案,Bill Franks也给出了建议:“最好从资源可用性、人员技能、流程变革、政策因素和文化等整体来考虑大数据,而不要单纯从技术方面来。”

“最困难的事情不是技术手段的盘点,而是决定采用什么样的方法来更好地发挥大数据的价值,而且能够改变它的流程,这是最困难的地方。”Bill Franks在采访中多次强调,制定驾驭大数据的策略是最重要的,例如面对浩如烟海的大数据,企业可以制定量力可行的策略,先拿出一部分数据进行试验,在分析中抛弃大量的数据,便于企业快速从大数据中获得价值。

炒作的泡沫会破裂,但价值仍将沉淀下来

大数据,相当程度上是呈指数级增长的非结构数据(文本、视频、图像等)。但这些通常由机器自动生成的全新的数据源(而非相同旧数据点拓展收集),且一般格式非常不友好。更重要的是,这其中很大一部分并没有价值。比如,火车上轮轨的传感器,能够将列车走行过程中大量的数据收集起来。从实践来看,这些数据从采集到分析,都是有价值的,但是没有必要把所有的传感器数据保留下来,分析人员只要寻找那些非正常的、有差异的记录数据即可,这才才是真正有价值的。

另外,这些大数据不是以阿拉伯数字增长而是指数级增长,要想让这些数据得到分析?那么只能预处理,使之称为能够形成和发现一定的结构进行分析,将这些数据分解转化为具有高度结构化的数据。而这样的加工过程,使得看似庞大的大数据源最终成为了可分析的数量不大、分析难度下降的数据源。

要理解这一点非常重要。Bill Franks举了一个很好的例子:罪犯的指纹验证。每一个指纹都是独一无二的非结构化数据,而在指纹对比时,并非所有点都需要对比,而是通过不同的节点形成面来对比。事实上,在无数美国大片中都可以看到这类技术的身影。

再如遥感数据、体感数据等,也许有一天,每一毫秒都可以收集出无数数据,依照各自不同需求进行诸如运行方向、动作、情感以及其他的潜在分析。但万变不离其宗,这些数据都需要利用不同的技术与工具进行分析。

这些技术中,有分析与数据环境的关联性、海量并行处理架构(MPP)、云计算、网格计算及MapReduce、分析沙箱、单点分析、数据可视化等。

而针对技术人士所关注的开源讨论,Bill Franks认为:“开源软件中,比如开源数据库、开源商业智能和报表工具、开源数据整合工具、开源办公套件等,在相关领域中被认为是首选。但在我看来,在更多情况下,开源软件不是市场主流,在更多时候只适用于初创企业和学术性组织。这并非是讨论技术,而是因为开源工具的主要方式的开发者的贡献,这比商业版更新要慢,且不具延续性。”

针对市场上的大数据分析的开源技术,Bill Franks认为必须从总体拥有成本的角度进行考虑,因为“没有免费赠送的宠物”。作为Teradata大中华区的掌门人,辛儿伦则是长期在一线了解客户的需求,他强调说:“首先,我觉得不该太去关注要用什么技术,我觉得这有点‘倒因为果’。最重要的是,我们要用这样的IT工具和技术做平台,去解决什么样的业务目标。“

最后,在Bill Franks看来,目前美国的大数据炒作已近顶峰,但是也沉淀了很多有价值的东西。正如历史上出现过互联网泡沫一样,泡沫破裂之后,会发现有很多好的企业出现并成为新的巨头。“如果这样说的话,泡沫破裂是好事,即使泡沫不在,大数据分析的价值仍会继续下去,重点是是我们如何采取正确的策略、流程和方法去从大数据分析中获得价值。”

来自为知笔记(Wiz)

;