Cloudera数据平台(CDP)今天发布。这是一个分水岭式的发布,给Hadoop和大数据带来了根本性的变化。这是数项发展的高潮,包括Cloudera与其昔日竞争对手Hortonworks的合并。交付的压力非常大。
还有:Cloudera和Hortonworks的合并交易价值52亿美元。是大数据吗?
今年3月,cloudera公布了合并后的第一个季度业绩,但市场却止步不前。Cloudera公布的第四财季和第一季度财季业绩均低于华尔街预期。然后讨论了客户如何在CDP发布之前推迟续约协议,CDP将合并各自的Cloudera和Hortonworks legacyHadoop/Spark发行版——CDH和HDP。
从本质上说,Cloudera把奥斯本效应强加给了自己,从那以后,为了阻止明显的流血,开始了CDP的竞赛。不久之后,首席执行官汤姆•赖利(Tom Reilly)和创始人兼首席战略官迈克•奥尔森(Mike Olson)双双退休。过于热心的行业观察人士开始撰写他们的Cloudera讣告。当时,ZDNet的主编Lawrence Dignan给出了一个更加实证的分析:“现在Cloudera面临的挑战很明显:它不能在Cloudera数据平台上有任何延迟。”
同时,AWS竞争对手云计算也表示:Cloudera的客户在Cloudera数据平台首席执行官赖利退休前停止了续订
好像这还不够刺激似的,上个月,维权投资者卡尔•伊坎(Carl Icahn)及其子公司收购了Cloudera 18%以上的股份,并在Cloudera董事会赢得了两个席位。但是现在Cloudera可能可以呼气了。该公司本月早些时候公布了乐观的第二季度财报,今天,年度地层数据纽约会议(Cloudera与O'Reilly共同出席)开幕,Cloudera确实推出了CDP。
另请阅读:Cloudera超过第二季度的估计,因为订阅收入上升
Cloudera的临时CEO Martin Cole和首席营销官Mick Hollison向我简要介绍了公司的发展方向和CDP战略。科尔向我解释说,它接受了维权投资者卡尔·伊坎的干预,因为伊坎认识到Cloudera被低估了。Hollison向我解释说,CDP毫不掩饰地将重点放在了支持这一评估的企业客户上,因为Cloudera有140个客户,他们每年花费100万美元以上,而超过950个客户(包括前面提到的140个)每年花费超过10万美元。
Cloudera首席产品官、Hortonworks联合创始人和Hadoop提交者Arun Murthy亲自向我介绍了CDP。当他剥开一层层的洋葱时,我清楚地意识到,CDP = CDH + HDP不是正确的等式。CDP是Hadoop/Spark栈的完全重新构建。虽然这听起来有点夸张,但事实似乎确实如此。CDP是一个虚拟平台,它可以管理数据和数据工作负载,按需上下旋转或扩展必要的集群基础设施和软件,并且可以跨三个主要的公共云来完成这些工作。
实际上,合并后的CDH/HDP发行版几乎是一个实现细节,它的原始内容已被重命名并重新归类为“Cloudera运行时”。这并不是说核心发行版不重要;这绝对是基础。但是,就像建筑物一样,地基不是你看到的、管理的、交互的,甚至不是你想的。它的基础设施。就像Hadoop(和Spark)一直应该的那样。
该平台通过Cloudera的共享数据体验(SDX)的增强版进行管理,并通过一个名为Cloudera Data Hub的组件展示Cloudera的运行时功能,Murthy将其描述为Amazon的弹性MapReduce (EMR)的等效物。但除了运行时、SDX和数据集线器,还有很多;CDP包括许多其他服务,包括:
但是,由于Cloudera的控制平面由其管理控制台、工作负载管理器、复制管理器和数据目录(其沿袭可以追溯到前Hortonworks Data Steward Studio和Apache Atlas)组成,因此整体要比部分的总和复杂得多。这些组件一起支持跨本地环境和所有三个主要的公共云的统一管理和部署。Murthy还向我解释说,on-prem的体验和部署在云上的CDP一样,都是软件即服务,而且可以在一小时内安装完毕。对于任何与Hadoop相关的东西,这种加速的设置时间是前所未有的。
实际上,控制平面可以让现有的on-prem实现“跃入云”,甚至可以提供运行到云的成本估算。假设客户对答案满意,她将能够将数据(以及维护对其进行适当治理的策略)、堆栈组件和所有依赖项部署到她选择的云上。
这一切都是通过重新架构旧的发行版来分离计算和存储,用Ozone(一种本地对象存储)或云对象存储代替Hadoop的分布式文件系统(HDFS),用Kubernetes (K8s)代替Hadoop的YARN(一种突然无处不在的开源容器编配技术)实现的。Cloudera利用了RedHat基于openshift的K8s集群,或者在云中部署到Azure Kuberenetes Service (AKS)、谷歌Kubernetes Engine (GKE)或Amazon Web Services的Elastic Kubernetes Service (ek)。k8使得这一切可移植性和即时实例化可能的原因有两个:(1),它提供了一个抽象的本地数据中心和三大公共云(2)k8节点自旋向上的速度远远超过做公共云基础设施即服务(IaaS)平台上的虚拟机(vm)。
Docker容器和K8s集群的可脚本性和动态性使Hadoop/Spark集群具有可移植性、弹性可伸缩性和可丢弃性。再加上CDP利用AWS简单存储服务(S3)、Azure数据湖存储(ADLS)或云中的谷歌云存储(GCS)以及Okta/SAML进行单点登录的能力,包就完成了。集群是如此的动态,实际上,根据Murthy的说法,通过BI工具的授权访问可以使Cloudera数据仓库集群在需要时启动,只需通过JDBC连接它们即可。
我还没有使用CDP,但是Murthy向我保证他向我演示的所有东西都是基于发布的部分。而且,尽管受控的演示总是可以用来混淆不稳定性或尚未实现的特性,但即使CDP的功能只是一个路线图,您也会发现它令人印象深刻且具有启发性。不过,鉴于Cloudera公开宣称的对企业客户的关注,如果我看到的只是虚假的东西,我会感到惊讶。公司及其领导层知道,如果公司要摆脱上一季度业绩的耻辱,他们的东西必须是真实的。
Cloudera和Hortonworks合并,现在消退到HPE MapR的商业资产,客户的选择是明确的:使用云提供商“房子品牌”Hadoop服务(AWS的EMR, Azure HDInsight或谷歌云Dataproc)商品化Hadoop和火花,老Cloudera失利,或去增值提供抽象的专家,管理和多/混合云功能,体现在新Cloudera。