Hadoop十年 推动数据驱动型分析快速发展
Hadoop迎来了10周年的生日。关于Hadoop,有很多大事件依然历历在目:Hadoop成为Apache的子项目并获得命名,第一版Hadoop代码发布,第一批用户部署了该代码。为了纪念这些事件,大数据供应商的高管们为该分布式处理框架过去十年中在数据管理和分析处理上的影响给予了高度的赞誉。
很多人在促使Hadoop落地中扮演了重要角色。Doug Cutting是该项技术的联合创造者,他现在是Hadoop分销商Cloudera的首席架构师,他表示,Hadoop架构已经可以让数据驱动业务,而且这是发生在企业核心的。同为联合创造者的Mike Cafarella是一名计算机科学专业的教授并且是分析初创公司Lattice Data的CEO。他说在Hadoop出现之前,企业都是将海量的但确实很有价值的分析工作束之高阁,这都是由关系型数据库的处理限制所致。
Sean Suchter所在Yahoo的Web搜索技术团队于2006年成为Hadoop的第一个生产用户,Suchter现在是Hadoop性能管理初创公司Pepperdata的CEO:他说:“几乎任何一家你能找到的企业都关心数据的Hadoop之旅。”Raymie Stata十年前是Yahoo负责搜索与广告系统的首席架构师,而现在是大数据云服务提供商Altiscale的老板,他称赞Hadoop可以让程序员和分析师直接访问企业的所有数据,并绕过那些传统数据仓库环境中会让一切变得迟缓的数据上的复杂环节。
从前辈那里有保留地接受赞扬是可以理解的。在这种情况下,在那些针对Hadoop的有价值的观点仍有可取之处。
商业界走上数据驱动分析的道路是不能归功于Hadoop的;数据仓库和商业智能系统要比二十年前更能在企业中找到出路。而且自助BI工具在2000年中期出现,它们赋予了业务用户分析能力。但Hadoop架构开辟了用于分析的新的数据类型,而且在技术和经济上还更具可行性——收集,处理和使用进入企业的信息。
就拿Uber来说。该公司曾遭遇分析上的停滞危机,直到去年利用Spark处理引擎和其他技术部署了一套Hadoop数据湖才得以解决。“从前,我们在企业内部所拥有的数据集无法用于分析,而如今就可以了,” Uber的一名资深软件工程师Vinoth Chandar说。“Hadoop环境已经成为所有分析数据的真理之源,”他补充道,他还指出Uber正寻求让每项决策都可以用数据驱动。
General Electric的GE Power Services部门是另一家正在使用基于Hadoop架构的组织,该架构由自助BI软件进行前端收费,他们由此创造了一个更为数据驱动化的文化。首席企业架构师Don Perigo说GE Power Services从四年前的120名员工使用传统BI和报告系统发展到拥有22000名用户的大数据平台。高管们设立了一个目标,就是让使用率达到业务部门的50%,而在某些部门,采用率达到了98%,Perigo说。
德克萨斯州大学MD安德森癌症中心预想同样的事情会在这里发生。“目前,大量数据还处于沉睡状态,无法获取和使用”, 学会分析与信息部的主任Bryan Lari说,“我们的目标是让每一个人,从高管到管理员都使用数据来驱动决策。”
Hadoop 10年的里程碑已悄然来临。Spark正在将很多Hadoop架构中的MapReduce引擎推向一边,还有用可能的数据存储替代品来替代Hadoop Distributed File System——该框架的其他原始核心组件正如雨后春笋一般涌现出来。
Hadoop可能会演变成一组不同的组件,亦或是会慢慢淡出,其他成熟的大数据工具会替代它现有的位置。但即使后一种情况发生了,Hadoop产生的影响将会远远超过Cutting在十年前以其儿子的玩具象命名的时候对它的预期。而且它所培养的数据驱动环境会保留下来,这还是值得庆贺的。
欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708
Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967