Hadoop的关键:小处开始大数据之旅

作为大数据技术的典范,Hadoop一直为采用大数据的企业祝福并诅咒着。Hadoop功能强大,却非常复杂,这使得很多企业都宁愿等待更容易的东西问世,再推出大数据项目。

等待已经结束。Hadoop在稳步前进,来自诸如Hortonworks和Cloudera等厂商显著的易用性增强,使得Hadoop的学习曲线已经减少了一半。企业正越来越多拥抱大数据和Hadoop,目的是从基本的ETL工作负载迁移到先进的数据分析。

但更多人不知道的是,企业使用Hadoop处理大数据的诀窍,其实就是从小处着手。

采用Hadoop的关键 小处开始大数据之旅小?这似乎是与Hadoop关系不大的一个词。但它完全符合大数据的现实。我们往往谈论Hadoop在PB级和ZB级数据的优势,但大部分企业其实并不具备PB级规模的问题。至少,他们现在还不清楚怎么去管理这种级别的问题。

相反,大数据咨询公司NewVantage Partners的一项调查显示,企业首先关注的是掌握新类型的非结构化数据。Gartner证实了这一点,它指出:“许多组织发现大数据的多样性比大体量或实时性的挑战更大。”

因此,聪明的Hadoop厂商正在修正他们的策略,帮助企业从小规模部署着手,并从那里成长。Hortonworks企业战略副总裁Shaun Connolly在接受记者采访时表示:

“我们已经看到可重复的采用模式,从侧重于一个新的数据类型开始,并建立或增强有针对性的应用程序,围绕新的数据类型。这些新的应用程序通常由一个业务线驱动,并从以下新类型之一的数据开始:社交媒体,点击流,服务器日志,传感器和机器数据,地理定位数据和文件(文本,视频,音频等)。

”最终部署更多的应用和新的数据类型导致更广泛的现代化数据架构。但成功的客户开始从特定类型的数据释放价值,然后冲洗,并从那里重复他们的旅程。“对于证明Hadoop的价值,从小的、可衡量的项目启动,这是一个伟大的方式,不强迫企业在前期就吞下整个大象。这是一个聪明的策略,让强大的技术可以很容易地被采纳。

这样一来,Hadoop正在变成人们真正想要谈论的”房间里的大象“。虽然更多的人都在谈论大数据,但实际推出重要的大数据项目的组织要少得多,Gartner强调,只有8%的企业已实际部署大数据项目,尽管64%的企业宣称他们打算这么做。这些公司看重的是Hadoop大数据项目带来的实质性增长,可实现的商业价值,而不是Hadoop的炒作。

事实上,今天大多数大数据项目,往往以现有用例的增量改进为重点,例如,更好地了解客户的需求,使流程更加高效,进一步降低成本,或更好地检测风险。对于所有的关于大大改变一个企业的业务的谈论,大部分的大数据以及由此延伸的大多数的Hadoop的部署,重点是逐步改进,而不是彻底改变的项目。

这是有道理的。企业首先小步骤地采用Hadoop实施可以实现的项目,然后掌握该技术,然后再做大。

在2014年,我们将看到Hadoop被加速采用。Hortonworks的Connolly和Cloudera的Mike Olson都看到了他们的业务在2013年获得迅速的发展,且最后两个季度的发展节奏更快。这样的加速度反映了他们对营销信息的改善,已围绕企业如何更容易地从Hadoop真正获得价值,同时也表明,企业从Hadoop获得价值的门槛已经降低。

最后再次重复,Hadoop越专注于小规模部署,最终用于大规模部署的可能性越大。

;