这是一场紧跟技术变革浪潮的狂野之旅。一些公司错过了这波浪潮,而另一些公司抓住了它,只是在它达到顶峰时就出局了。在大数据的世界里,Vertica已经养成了一个习惯:一波接一波地捕捉、定位、使劲划水,然后在它旋转的时候悬挂10个。
作为大数据服务的早期参与者,Vertica已经顺利地从一个趋势过渡到下一个趋势,无论是模型-视图-演示架构、使用Hadoop分布式文件系统的大数据,还是HDFS,通过数据科学和数据分析,过渡到云计算和机器学习。Vertica是目前唯一一个同时提供本地计算和云计算的平台,随着Vertica version 10的发布,该平台的部署灵活性又上了一个台阶。
“Vertica的核心是一种真正的工程文化,”微焦点国际有限公司Vertica产品管理和营销副总裁Joy King(如图)说。“这意味着我们不会假装知道即将发生的一切。但我们致力于拥抱技术趋势和创新。我们不会假装什么都知道;我们什么都做。”
在虚拟Vertica大数据会议期间,金与SiliconANGLE Media的移动直播工作室theCUBE的主持人戴夫•韦兰特进行了交谈。他们讨论了数据方面的趋势,以及Vertica如何使机器学习模型变得透明和可复制。(*披露如下。)
[编者注:为清晰起见,以下内容已被压缩。]
我对我们的一些客人说过Vertica一直都很擅长驾驭潮流。你认为目前的趋势是什么?你正在驾驭的巨浪。
King:数据增长和数据竖井是趋势一。Hadoop是一只非常能干的大象,但它不可能是一个完整的动物园。所以,市场上有很多令人失望的东西,但是HDFS中有很多数据。再加上云对象存储的爆炸式增长,你会看到更多的数据,甚至更多的数据竖井。
趋势二是云现实。云带来了很多好处;公共云计算提供了如此多的机会。但我认为,我们现在已经了解了足够多的东西,知道还有一些现实。这比我们预期的要贵一些,还有一些安全和隐私方面的问题,还有一些工作负载不能放到云上,所以混合和多云部署是下一个趋势,是必须的。
就改变世界而言,最令人兴奋的趋势——我们现在可以做一点小小的改变——就是机器学习的运作化。这项技术有很大的潜力,但在很大程度上,它被困在了科学项目和数据科学实验室中,现在是时候将它投入使用了。
我想我们都知道,数据分析,机器学习,这些都不能带来真正的价值,除非有大量的数据能够真正预测和影响未来。过去7到10年,正确地说,是关于收集数据,把数据放到一个公共位置。而HDFS正是为此而精心设计的。现在的关键是,我们如何利用所有这些数据?这正是Vertica关注的。
Vertica 10.0刚刚发布。有什么亮点?
King:在Eon模式下的Vertica允许工作负载隔离,这意味着分配不同用例需要的计算资源,而不允许它们干扰其他用例,并允许每个人访问数据。所以,这是一种很好的方式,既能把企业界团结起来,又能保护他们不受彼此伤害。
通过Vertica 10.0,我们为HDFS引入了Eon模式的Vertica,为谷歌云引入了Eon模式的Vertica。HDFS的Eon模式是一种将ANSI SQL数据库管理平台应用于HDFS基础设施和HDFS文件存储中的数据的方式。这是利用许多公司在HDFS上的投资的好方法。我认为善待大象是公平的。
您击败了许多云玩家,因为它们拥有独立的计算和存储功能。这是Vertica的一个不同之处,假设你给了我云体验、许可和定价能力。你能解释一下Vertica是如何处理许可和费用的吗?
金:毫无疑问,公共云带来了计算和存储的分离以及这些优势。但他们没有能力,也没有兴趣,来复制这种内部模式。对于Vertica,我们生来就是只做软件的。我们不收取底层硬件的费用,所以我们完全有动力去独立于它,并不断优化软件使其尽可能的高效。
Vertica为我们的客户提供每个节点和每tb的数据,具体取决于他们的用例。我们还为需要资本支出的客户提供永久许可证。但我们也为那些说“不”的公司提供订阅服务。我必须有OPEX。“这肯定会给我们的实地组织带来一些复杂性;我们知道这一切都是关于选择的,当今世界的每个人都想让它个性化,而这正是我们在定价和授权方面所做的。
所以,我的结论是选择和定价。太好了。现在让我们讨论一下存储的可选性。你有亚马逊网络服务公司,我假设现在谷歌有限责任公司,纯存储公司是合作伙伴…
King:我们支持谷歌对象存储、Amazon S3对象存储、HDFS、纯存储FlashBlade,这是一个prem对象存储,我们将继续沿着这条路走下去。因为,最终,我们知道我们的客户需要有下一代数据中心架构的选择,这是一种共享或公共存储,所以所有的数据都在一个地方,但是工作负载可以在数据上独立管理,这正是我们正在做的。
让我们来谈谈将机器智能应用到数据上,也就是其中的机器学习部分。你有什么故事?
金:几年前,我们开始在Vertica中构建一些数据库内的、本地的数据库内机器学习算法。我们这样做的原因是我们知道MPP柱状结构的执行将显著提高性能。我们也知道很多人说SQL。那么,如果我们可以通过SQL访问数据库中的机器学习,并提供这种性能,结果会怎样呢?这就是我们开始的旅程。
然后我们意识到,实际上机器学习远不止是算法,大家都知道。因此,我们随后构建了完整的端到端机器学习功能,从数据准备到模型培训、模型评分和评估,一直到全面部署。所有这些sql都是可访问的。你说SQL;你对数据说话。这种方法的另一个优点是,我们意识到如果你减少样本,准确性就会降低。
如果您将数据的一部分从数据库移动到专门的机器学习平台,您将面临准确性和业界所谓的可复制性的挑战。这意味着,如果一个模型做出了一个决定,比如说信用评分,而这个决定在任何方面都受到了挑战,那么,你必须能够复制它,来证明你的决定是正确的。
就在不久前,媒体还对一项似乎带有性别偏见的信用评分决定大发雷霆,但不幸的是,由于这种模式无法复制,没有办法反驳这一点,这不是一件好事。
所有这些都被内置到Vertica中,有了Vertica 10,我们又进了一步。就像Hadoop一样,我们知道创新不仅发生在Vertica内部,也发生在Vertica外部。我们发现,数据科学家真的很喜欢他们喜欢的语言,比如Python;他们喜欢自己的工具和平台,比如TensorFlow。使用Vertica 10,我们现在甚至更多地集成了Python,我们已经有一段时间了,但是我们也集成了TensorFlow集成和PMML。
这是什么意思?这意味着,如果您使用自己喜欢的机器学习平台,在Vertica之外构建并训练一个模型,那么您可以将该模型导入Vertica,并在整个端到端流程上运行它,但在所有数据上运行它。没有更多的精度挑战,MPP柱状执行,所以它非常快。如果有人想知道为什么一个模型要做决定,你可以复制那个模型,然后解释为什么。
它也带来了文化的统一。它将使用SQL的业务分析师社区与热爱TensorFlow和Python等工具的数据科学家社区统一起来。
在如此多的机器智能和人工智能中,存在一个无法复制模型的黑箱问题;然后你就会遇到潜在的性别偏见。能够复制它,并使机器智能透明化是非常非常重要的。
金:的确如此,这种可复制性和准确性是至关重要的,因为如果你向下采样,在不同的数据集上运行模型,事情就会变得混乱。在数据库中执行或者训练模型,然后将其导入数据库用于生产,这就是Vertica所允许的。这是开拓ML踪迹的下一步。
你的客户要求你做什么,你提供什么?
金:我们的客户现在最需要的是部署的灵活性。我告诉他们的是,你不可能知道你将要被命令做什么,或者你将来可能会有什么选择;关键不是必须选择。他们非常非常致力于此。
我想说的是对机器学习操作化的兴趣,但不一定要强迫分析团队去敲打数据科学团队关于哪些工具是最好的工具,这可能是第二点。
我认为第三点是规模上的表现。看看优步科技公司(Uber Technologies Inc.)、Trade Desk Inc.或电话公司(AT&T Corp.)等公司吧,他们说毫秒,其实是慢的。当他们说拍字节的时候,他们会说,‘是的,那是昨天。因此,对Vertica来说,规模足够好的性能永远都不够好。这就是为什么我们一直在核心构建下一代执行引擎,数据库设计,优化引擎,所有这些东西。