大数据十年:Cloudera向左,Palantir向右
一眨眼,整个大数据产业已经走过十多个年头。
在这蓬勃发展的十年中,Cloudera和Paltantir始终是绕不开的两家公司,它们一直代表着大数据公司的两个方向:一个向左,聚焦大数据基础软件平台,一直没有过多行业属性,希望更多用户群体能够采用大数据基础软件;一个向右,自开始就聚焦在一两个行业之中,为行业用户打造从大数据基础软件到行业应用的全栈式解决方案,多年以来行业属性明显。
如今,两家公司高下已分。
据知情人士透露,Cloudera正在考虑对外出售,已经与包括私募股权公司在内的多个潜在买家进行洽谈,或将结束自己惨淡的上市史;而这边厢,估值高达410亿美金的Paltantir已经向美国证券交易委员会提交一份保密的S-1文件,预计在未来几周正式上市,自2004年成立以来就屡有上市传闻的Paltantir也算是守得云开见月明。
Cloudera:盛名之下其实难副
Cloudera成立于2008年,由Christophe Bisciglia, Amr Awadallah以及Jeff Hammerbacher创建,堪称大数据的明星公司,它与Hortonworks、MapR堪称北美大数据三驾马车,三家公司都聚焦在基于Hadoop等开源大数据基础软件领域。赶上最近十年大数据的红利期,Cloudera没少受到业界的关注。
Cloudera公司十余年以来,可谓是要牌面有牌面,要实力有实力。Cloudera在2009年将Hadoop之父--Doug Cutting收入旗下,拥有大数据领域最耀眼的明星员工。而在资本市场,Cloudera也是堪称赢家,2014年以7.5亿美元的价格出售18%的股权给Intel、Google等一众明星公司和投资人,此次投资也让其达到了上市之前的41亿美元巅峰市值。
不过自那以后到最后上市,Cloudera的估值一直维系在41亿美元。
仔细研究Cloudera十余年的发展历史,用“时不利兮”四个字概括更为合适。
成立之初,Cloudera即希望利用云服务的方式为用户提供大数据服务,这种方式实在是太超前。彼时,云计算才刚刚起步,AWS也处于拼命向人们普及云计算的阶段,远没有如今的影响力;另外,大数据也刚刚冒出个苗头,不光很多用户,哪怕是很多IT从业人员对于大数据的理解也是云里雾里。显然,Cloudera通过云服务的方式在当时行不通。
之后,Cloudera转变思路,开始学习Redhat,利用开源软件商业版以及技术服务来收费。这种模式有Redhat的成功先例,但是开源是一门艰难的生意,数来数去也就Redhat算成功。与Redhat聚焦在操作系统、PaaS等基础软件领域不同,大数据是与应用强相关,如果光有大数据基础软件平台,但是没有足够的基于大数据的应用场景,用户同样会对大数据望而却步,或者是在尝试阶段更加谨慎。因此,Cloudera走开源软件和技术服务的这条商业之路依然坎坷。
在Cloudera搞开源发行版的模式多年之后,整个云计算市场彻底崛起,大部分用户开始接受和采用云服务,AWS的影响力与日俱增,像AWS、微软Azure、Google Cloud这样的云服务提供商,天然具有海量数据应用场景和处理经验,用户粘性也强,云服务提供们很快推出了与大数据相关的云服务,一跃成为大数据市场不可或缺的一员。
此时的Cloudera们的竞争对手已经变成了AWS这些云巨头,市场竞争难度可想而知。回过味来的Cloudera在2016年又想做大数据的云服务,但此一时彼一时,用户们对于云计算、大数据的认知已经足够深入,AWS、Azure、Google们的云计算业务风生水起,此时单凭大数据基础服务想撬动云计算巨头们的蛋糕实在是太难了。
到了2017年,Cloudera终于上市。在这之前,Hortonworks已经于2014年登陆资本市场,Hortonworks的营收在很长一段时间都依赖微软这样的大客户。Cloudera与Hortonworks在此后几年中的表现可谓是难兄难弟,盈利状况不理想,商业模式前景不佳,但是二者还不忘互相叫骂,嘴上功夫一点都不服输。
终于,到了2018年10月,Cloudera与Hortonworks双双扛不住营收压力,宣布合并。合并之后的Cloudera将重点扩展到了Hadoop领域之外,其核心产品Cloudera Data Platform提供了广泛的功能集,可用于管理数据、分析数据和运行机器学习模型等。
但 Cloudera的营收没有出现突飞猛进的情况,但是来自投资者的压力却是与日俱增。去年,激进投资人Carl Icahn成为Cloudera的较大股东,并任命了两位董事会成员。这被认为公司考虑出售的一个迹象。
如今,Cloudera的市值维持在37亿美元左右,早无昔日的风光。
Palantir:苦日子熬出头
近日,有消息人士透露,Palantir计划于几周之内上市,目前正与一家IPO顾问公司展开了合作。此外,Palantir还在与银行方面合作,给私人股东梳理出一份要约收购公告,以帮助Palantir在上市之前清理其资本结构。目前,Palantir的估值达到了410亿美元。
Palantir在全球可谓大名鼎鼎,其创始人Peter Thiel是硅谷著名的创业家和投资人。
自2004年成立以来,Palantir就一直受到了大家关注的目光,成为资本市场和媒体中的宠儿。根据相关数据统计,截止到目前,Palantir已经完成了25轮融资,募集了超过20亿美元的投资资金,名副其实的吸金达人。
而真正让其登上神坛的则是两次重要的事件。其一是,Palantir帮助美国证券交易委员会,通过整合与分析了超过40年的数据,发现了世纪巨骗麦道夫的庞氏骗局证据,从而得以真正将其定罪。其二则是协助美国中央情报局,通过数据分析与图谱关系,找到了本拉登。
Palantir客户主要来自两大类,一类是政府客户,美国中央情报局、国土安全局、FBI、警察机构等都都是它的客户,主要应用Palantir的产品来协助反恐、寻找罪犯等;另一类就是金融客户,包括像摩根大通、CapitalOne等银行,通过Palantir的产品来协助反欺诈、风控等。目前,Palantir的产品不多,主要是数据挖掘与分析的平台产品(Palantir Gotham和Palantir Metropolis、Palantir Foundry),以及各种解决方案。像Palantir Gotham更加侧重于根据结构化和非结构化数据进行搜索与关联分析,主要应用在政府领域。
Palantir的行业也很聚焦,主要是政府和金融领域。目前,Palantir已经将业务领域拓展到航空、制造业、医疗等行业。
总体而言,Palantir是一家很聚焦和专注的公司,十多年以来一直专注在少数几个行业之中,并且与行业应用是强相关,基本算是为用户提供全栈的技术与应用解决方案。甚至Palantir的商业模式也不美丽,由于其解决方案并不通用,往往需要根据客户的差异化需求进行定制化,所以其产品多为工具类的半成品,严重依赖其数据科学家,这些数据科学家通过解决方案中运用各种工具来帮助行业用户实现数据价值。
不过就是这样一家商业模式不美丽、产品不多的公司,成为大数据领域当之无愧的头牌。
中国大数据公司从Palantir能学到什么
如果你百度搜索Palantir,会发现一堆中国大数据公司要立志做中国的Palantir,哪怕它仅仅是做营销的大数据公司。
绝大部分中国大数据公司都渴望成为Palantir那样的头牌,但成为Palantir的确不是一件容易的事情。Palantir用自身十余年的发展历程说明了要想在垂直行业实现数据价值是一件多么艰难与曲折的事情,需要长期扎根于行业之中。
首先,Palantir很聚焦,并没有贪图规模,早期一直聚焦在政府和金融两个行业,甚至直到2010年才有了第一个商业客户--摩根大通。政府和金融两个行业往往是最有钱的客户,并且对于大数据技术渴求度极高,业务模型也更为复杂,需要长时间耕耘,将自身的产品、技术以及解决方案与业务场景深度融合,才能帮助用户实现数据价值。
其次,从Palantir所有的成功案例中可以看到全栈式技术组合的威力,在行业场景中实现数据价值往往需要运用到包含大数据、人工智能、知识图谱等在内的全栈式技术。一方面,单点的技术或者产品,很难真正帮助用户发挥数据的价值潜力;另一方面,技术与场景的融合至关重要。
最后,Palantir的融资能力极强,其商业模式过于依赖数据科学家这样的高端人才,成本高昂,可复制性不高,往往需要数据科学家才能发挥其产品与解决方案的威力,这种模式往往需要耗费大量的成本,但是用户粘性极强,一旦采用了相关的产品与解决方案,通常很难再离开。
Palantir有其独特性,很难被复制,但是Palantir对于行业的长期深耕以及全栈式技术与解决方的打造,这些是值得所有中国大数据公司学习与借鉴的地方。回顾2019年的中国大数据与人工智能市场,有很多公司因为选择走“捷径”而栽了大跟头,希望中国的大数据公司还是要沉下心来,熬下去,终究能达到成功的彼岸。
Gartner 2020的十大数据分析趋势
这些数据和分析技术趋势将在未来三到五年内帮助加速更新,促进创新和重建社会。数据和分析领导者必须研究如何利用这些趋势,并进行"必备"投资,以实现重置后的恢复和重新发明。
趋势1:更智能,更快,更负责任的AI
到2024年底,将有75%的企业从人工智能试点转向运营,流数据和分析基础架构的规模将增加五倍。
在当前盛行的环境中,诸如机器学习,优化和自然语言处理之类的人工智能技术正在为病毒传播以及对策的有效性和影响提供重要的见识和预测。
其他更智能的AI技术,例如强化学习和分布式学习,正在创建更具适应性和灵活性的系统来处理复杂的业务。例如,基于代理的系统可以对复杂的系统进行建模和升级。
追究AI责任和模型透明度对于防止错误决策至关重要
在新芯片架构(例如可以部署在边缘设备上的神经形态硬件)上的大量投资正在加速AI,ML计算和工作负载,并减少对高带宽集中式系统的依赖。最终,这可能会导致具有更高业务影响的更灵活的AI解决方案。
让AI负责并保持模型透明对于防止错误决策至关重要。它将促进更好的人机协作和信任,以便整个组织可以更好地采用和调整决策。
趋势二:仪表盘使用的下降
具有更自动化和消费者体验的动态数据应用程序将取代可视化,点击创建和探索。结果,用户将减少使用预定义仪表板的时间。转向上下文数据应用程序意味着最相关的见解将基于上下文,角色或目的传递给每个用户。这些动态洞察力利用诸如增强分析,NLP,流量异常检测和协作之类的技术。
数据和分析主管需要定期评估他们现有的分析和商业智能(BI)工具。初创公司提供预定义的仪表板以外的新增强功能和NLP驱动的用户体验。
趋势3:明智的决策
到2023年,超过30%的大型组织将使分析师从事智能决策,包括决策建模。决策智能集成了多个学科,包括决策管理和决策支持。它包含了复杂自适应系统领域中的应用程序,将各种传统和高级学科结合在一起。
它提供了一个框架,可帮助数据和分析领导者设计,建模,匹配,执行,监视和优化业务结果与行为之间关系中的决策模型和流程。
当决策需要各种逻辑和数学时,有必要进行自动化,或者至少进行记录和审计,以探索决策管理和建模技术的使用。
趋势4:X分析
Gartner创造了术语" X分析",其中X是具有不同结构化和非结构化内容(例如,文本分析,视频分析,音频分析等)的一系列数据变量。
数据和分析负责人使用X分析来解决社会上最困难的挑战,包括气候变化,疾病预防和野生动植物保护。
在疫情爆发期间,人工智能在整理大量研究论文,新闻来源,社交媒体帖子和临床试验数据方面发挥了关键作用,并帮助医学和公共卫生专家预测疾病的传播,规划能力,寻找新疗法, 并找出弱点群体。X分析与AI和其他技术(例如图表分析)(另一个热门趋势)相结合,将在识别,预测和计划未来的自然灾害和其他危机中发挥关键作用。
数据和分析主管应探索现有供应商提供的X分析功能,例如用于图像,视频和语音分析的云计算供应商,但也应认识到创新很可能来自小型初创公司和云计算供应商。
趋势5:增强的数据管理:元数据是"新的黑马"
增强的数据管理使用ML和AI技术来优化和改善操作。还将用于审核,继承和报告的元数据转换为支持动态系统的元数据。
增强型数据管理产品可以检查大量操作数据样本,包括实际查询,性能数据和模式。使用现有情况和工作负载数据,增强的引擎可以优化操作,配置,安全性和性能。
数据和分析主管应寻求增强的数据管理,支持活动元数据以简化和集成其体系结构,并提高冗余数据管理任务的自动化程度。
趋势六:云是礼物
到2022年,公共云服务将在90%的数据和分析创新中扮演关键角色。
随着数据和分析迁移到云中,数据和分析领导者仍在努力使正确的服务与用例保持一致,这将导致不必要的治理和集成开销。
数据和分析问题已经从给定服务的成本转向如何满足工作负载的性能要求,而不仅仅是价格表。
数据和分析领导者需要优先考虑可以利用云计算功能的工作负载,并在迁移到云计算时专注于成本优化。
趋势7:数据与分析之间的冲突
传统上,数据和分析功能被认为是单独的实体,并且需要单独管理。通过增强的分析提供端到端工作流的供应商模糊了这两个市场之间的区别。
数据和分析的这种冲突将增加独立数据和分析角色之间的交互和协作。这不仅会影响提供的技术和功能,还会影响支持和使用它们的人员和流程。角色范围将从IT中的传统数据和分析角色扩展到信息浏览器,消费者和公民开发人员。
为了将冲突转化为建设性的整合,可以将数据和分析工具及功能合并到分析堆栈中。除工具外,还应关注人员和流程以促进沟通和协作。使用数据并分析生态系统和增强方法有可能提供一致的堆栈。
趋势八:数据市场和数据交换
到2022年,将有35%的大型机构通过正式的在线数据市场成为数据的卖方或买方,而2020年为25%。
数据市场和交易所提供了一个集成第三方数据产品的平台。这些市场和交易中心提供集中的可用性和访问权限(例如X分析和其他独特的数据集),从而形成规模经济,可以降低第三方数据的成本。
为了通过数据市场货币化数据资产,数据和分析的领导者应通过定义生态系统合作伙伴可以依赖的数据治理原则,建立一种公平透明的方法。
趋势9:数据分析中的区块链
区块链技术解决了数据和分析中的两个挑战。首先,区块链提供资产和交易的完整继承。其次,区块链为复杂的参与者网络提供了透明度。
除了比特币和智能合约的有限示例外,分类数据库管理系统(DBMS)将为审计单个公司的数据源提供更有吸引力的选择。Gartner估计,到2021年,保密的DBMS产品将取代目前使用的大多数区块链。
数据和分析应通过强调数据管理基础架构与区块链技术功能之间的不匹配,将区块链技术定位为对现有数据管理基础架构的补充。
趋势十:从数据分析基础与价值之间的关系
到2023年,图像技术将促进全球30%的组织快速进行情境决策。图像分析是一组分析技术,可用于探索相关实体(例如组织,人员和事务)之间的关系。
它可以帮助数据和分析领导者发现数据中的未知关系,并查看传统分析中难以分析的数据。
例如,当世界对当前和未来的疫情做出反应时,图像技术可以分析来自人们手机上的地理空间数据的照片,以面对人脸识别系统,以确定谁可能联系了被冠状病毒检测呈阳性的人。
考虑研究图形算法和技术如何改善AI和ML计划
与ML算法结合使用时,这些技术可用于梳理成千上万的数据源和文档,从而帮助医学和公共卫生专家快速发现可能对某些患者产生更多负面影响的新疗法或新因素。
数据和分析主管需要评估将图形分析集成到分析产品组合和应用程序中的机会,以发现隐藏的模式和关系。此外,请考虑图形算法和技术如何改善AI和ML计划。
声明:文章收集于网络,版权归原作者所有,为传播信息而发,如有侵权,请联系小编删除,谢谢!
欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708
Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967