谷歌推动大数据 云数据流测试版和BigQuery更新

谷歌发布了Cloud Dataflow,Map Reduce表示

谷歌推出了一项名为Cloud Dataflow的服务,旨在用“任意大数据集”分析管道。

去年夏天宣布,谷歌的Cloud Dataflow管理数据处理服务于去年12月在阿尔法发布,现在已公开作为测试版提供,该公司将其描述为更好的弹性和微调机制。

这家搜索云巨头还推出了GoogleBigQuery云分析产品的新功能,该产品与Cloud Dataflow一样,也构成了Google云平台模块化服务集的一部分。

BigQuery现在已经提高了安全性和性能,其功能包括行级权限,以便更容易地进行数据共享,更高的默认摄取限制为每秒10万行/表,以及希望数据存储在谷歌云平台欧洲区域的企业的地理数据隔离。

云Dataflow背后的想法是,公司使用其SDK编写定义批处理或流数据处理作业的软件。 然后,该服务负责在GoogleCloud平台资源上运行作业,使用诸如计算引擎、云存储和大查询等技术。

谷歌Cloud Dataflow产品经理埃里克·施密特(包括执行主席埃里克·爱默生·施密特在内的几名谷歌员工之一)表示,测试版提供的精细弹性对于允许谷歌动态地扩展资源以满足特定工作的运行时需求非常重要。

谷歌推出开源的Cloud DataflowSD K Java

随着互联网巨头继续挑战亚马逊网络服务,Cloud Dataflow填补了谷歌迅速发展和增长的云堆中的一个主要难题。

阅读更多

“在阿尔法模式下,如果系统运行在一个相对静态的环境中,那就可以了,这就是人们所习惯的。但我们实际上是在向他们展示,‘你花了10分钟才完成工作’。您现在可以运行它五分钟,基本上相同的成本‘。我们只是在部署更多的资源,并为你弹性地管理它,”他说。

“你可以跑得更快,但获得同样的准确性,你就可以控制成本。您现在可以部署一个自动智能缩放的集群。”

施密特说,对Cloud Dataflow引入正确性控制,其编程模型完全开源,对于调优流数据的准确性是非常必要的。

“批处理系统是高度正确和可靠的。我们这么做已经很多年了。但是当你进入流动的世界时,时间就成了你的敌人。时间不会停止,所以消息以不同的数据速率从不同的设备传入,你希望实时处理它们,”他说。

“但挑战在于,由于上游系统可能滞后,你永远不能保证拥有你所需要的所有数据来代表时间之窗。 某人的手机可能有一个困难的时间,它到达一个边缘节点,边缘节点提示,它重新启动,或它到达一个排队系统,排队系统有一个滞后。”

因此,问题变成了应该如何处理延迟的数据-等到它赶上或承认已经到达的数据,并在稍后处理延迟的数据?

这是一个非常具体的概念,但也是非常强大的。 几乎所有现有系统都存在这种缺陷。

Hortonworks为云中的快速Hadoop获取Sequence EIQ

Hortonworks表示,它计划将Sequence IQ的投资组合纳入Hortonworks数据平台,并最终将该技术转移到Apache软件基金会。

阅读更多

云数据流中的新正确性控件提供了处理延迟数据的选项,但使用延迟通知、转储、再次使用通知或累积它,然后稍后更新答案。

根据施密特的说法,Cloud Dataflow测试版还提供了改进的工人,或虚拟机,缩放和管理,并不断检查每个工人的吞吐量,以发现落后者,然后他们的工作可以重新分配。

他说:“想象一下,如果那台机器上的网卡坏了,数据包掉了,它的工作时间也在增加,或者你的工作代码正在处理一个记录上的密钥,密钥结构碰巧是超级奇怪的,你代码中的算法运行起来需要更长的时间。

在一个经典的集群环境中,会发生的事情是,这些将继续滞后,整个阶段将受到影响,因此,即使一些工人工作得更快,但在一切完成之前,他们也无法完成。

“如果你采取弹性,并与工人优化相结合,你现在有一个模型,我们正在最大化你支付的资源,我们也在最小化时钟时间。”

云数据流的潜在用例可以在少量或大量的数据上以批处理或流模式运行,从移动游戏开发人员到医疗保健应用程序,他们需要几乎实时地知道他们刚刚推出的东西是否导致了关键的用户行为。

施密特说:“真正的使用场景是这样的:那些想做ETL的人(提取、转换、加载),把数据从A点移到B点,然后想对它做点什么,过滤它,也许匿名化,用其他数据丰富它,然后可能搬到其他地方做分析,或者我们也可以在经典的Map Reduce风格或连续分析中为您做分析。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。