数据流和批量大数据分析技术Apache Apex提升为Apache顶级项目

数据流和批量大数据分析技术Apache Apex近日被Apache软件基金会提升为顶级项目。这项技术已被包括第一资本(Capital One)和通用电气(GE)在内的企业组织使用,可以帮助开发人员更快速地创建充分利用实时数据的应用程序。

Apache Spark日益受到关注,表明了数据流在大数据生态系统中变得到底有多重要。在上个月于圣何塞召开的Strata + Hadoop World大会上,实时数据及支持它的技术也许是最耀眼的明星。

所以,Apache Apex本周被Apache软件基金会提升为一个顶级项目(TLP)可能并非巧合。面向Hadoop的这个数据流和批量处理引擎被通用电气Predix物联网云平台用于工业数据和分析,并被第一资本用于实时决策和欺诈检测。

2012年,DataTorrent最初开发了这项技术,后来在2015年8月把它贡献给了Apache软件基金会,作为一个孵化器项目。

泰德·邓宁(Ted Dunning)是Apache孵化器的副总裁,Apache Apex孵化器导师,也是MapR Technologies公司的首席应用架构师。他在一份事先准备好的声明中说:“Apache Apex这个例子表明,最新一代的高级流处理软件比之前的方案大大增添了技术和功能。”

Apache Apex能够在Apache Hadoop上实现数据流分析。其目的在于充分利用Hadoop的两大组件YARN和Hadoop分布式文件系统(HDFS)提供的基础设施。Apache软件基金会在宣布这项技术提升为顶级项目的声明中表示,Apache Apex是一种大规模、高吞吐量、低延迟、容错、统一的大数据流和批量处理平台,面向Hadoop生态系统。

由于企业组织和开发人员将实时分析功能嵌入到流程和应用程序中,面向大数据及分析的数据流技术继续变得越来越重要。知名调研机构弗雷斯特研究公司在今年3月发布了Wave大数据流分析报告,关注了这个趋势,还介绍了提供这项技术的一些厂商。

弗雷斯特研究公司的分析师迈克·瓜尔蒂耶里(Mike Gualtieri)和罗恩·柯伦(Rowan Curran)也是这份报告的撰写者,他们写道:“弗雷斯特将转眼即逝的洞察力(perishable insights)定义为紧急的业务情况(风险和机遇),公司只能在短短的时间内检测这些情况,并采取相应行动。数据流分析解决方案可以帮助公司检测高速数据流当中的这类洞察力,并实时采取相应行动。应用程序开发和交付专业人员不应该仅仅认为数据流分析只是一种用于事后分析的‘传统分析’技术。远非如此??数据流分析可立即分析数据,分析后善加利用,可以让各种各样的应用程序能够感知场景,并变得更智能化。”

弗雷斯特研究公司将Apache Apex的开发者DataTorrent列入其Wave大数据流分析报告的“领导者”部分,与科技界的一些大牌公司为伍,比如IBM、Software AG、SAP、TIBCO Software、Oracle和SQLstream。

弗雷斯特公司的两位分析师在报告中写道:“DataTorrent是硅谷数一数二的数据流初创公司。在雅虎受过培训的几位创始人构建了一个数据流平台,处理世界上最庞大、最快速的数据。”

弗雷斯特公司特别指出,DataTorrent还在竭力实现其他企业级要求,比如可视化开发工具以及包括400多种运算符的库。

两位撰写者得出结论:“DataTorrent的核心现在已开源(作为Apache Apex),不过它想在其他开源数据流方案中脱颖而出将是个艰巨的挑战。”

Apache软件基金会在宣布新的顶级项目状态时表示,Apex让开发人员可以编写或重复使用一般的Java代码,从而简化开发Hadoop应用程序的工作。这有助于尽量降低编写应用程序所需的专业技能,因而缩短产品上市时间。

它包含与外部系统集成的连接件,外部系统包括消息总线、数据库、文件系统和社交媒体源,比如Apache Cassandra、Apache HBase、JDBC和Apache Kafka。

欢迎加入本站公开兴趣群

软件开发技术群

兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流

QQ群:26931708

Hadoop源代码研究群

兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop

QQ群:288410967

;