微软Azure使用gpu增强机器学习和虚拟桌面

当我们谈论云计算时,我们通常会想到我们熟悉的x64处理器,无论是来自Intel还是AMD。但另一项技术正变得越来越重要:图形处理单元(GPU)。

原因有二。首先,现代GPU是一个强大的并行计算平台,它是支持现代机器学习的神经网络的理想平台,为TensorFlow等常见框架提供支持。另一个是回归GPU的根基,为数据可视化提供云级渲染场,为增强现实头盔创建3D图像,从头盔上卸载图像。gpu也是新一代VDI(虚拟桌面基础设施)的一部分,提供了用户从他们的桌面所期望的所有特性,这些特性来自云。

微软在这方面走在了前列,在其Azure云计算中使用了基于gpu的虚拟机。它一直在与合作伙伴公司合作,在奥林巴斯服务器的同一个机架上,通过gpu和cpu之间的高带宽连接,构建可以被许多vm共享的gpu阵列。入门就像启动任何VM一样简单,有用于计算、机器学习和图形的版本。

Azure的超大规模云只是微软云的一部分。雷德蒙德很清楚,它的愿景包括混合云——从简单的物联网终端到边缘网络,再到数据中心,最后到Azure本身。这导致了一系列Azure堆栈产品的发布,这些产品为您的数据中心和其他地方提供与Azure一致的云扩展。Azure Stack家族的核心是Azure Stack Hub,它是经过微软认证的原始数据中心硬件,运行着由微软管理的一组软件。

看着Azure栈平台的发展是一件很有趣的事情,最新的平台版本增加了对新一代硬件的支持,现在包括了对GPU的支持。Azure栈软件的最初版本主要关注于支持核心Azure服务以及处理计算任务的虚拟基础设施。这限制了虚拟机的大小和功能范围,支持Azure的A、D和f系列vm。

2002年Azure Stack Hub发布带来了n系列虚拟机的公开预览。Azure运行一系列基于Nvidia gpu的n系列vm已经有一段时间了,其中nc系列vm处理计算任务,nd系列用于大数据驱动的机器学习,而nv系列用于可视化、呈现和VDI。事实证明它们很受欢迎,支持Windows和Linux客户操作系统。

Nvidia的V100 (top)将支持运行机器学习和可视化工作负载的VMs。T4(上图)是一款针对深度学习推理的低功耗GPU。

微软一直在与其Azure Stack硬件合作伙伴合作,向服务器节点提供GPU支持。向现有的Azure Stack Hub实现添加支持意味着将服务器节点替换为新的硬件,因为旧的节点将没有合适的gpu。微软已经通过Azure Stack Hub认证了两款不同的Nvidia gpu,分别是V100张量核心和T4张量核心。

V100将支持NCv3虚拟机,支持机器学习和可视化,类似于Azure的标准NC6s v3。它们有6个虚拟cpu,最多112GB的RAM和736GB的本地存储空间。你可以使用一个拥有16GB视频内存的GPU。你需要在你的VM镜像中安装Nvidia的GPU驱动扩展来利用新的硬件,因为这可以让你安装合适的驱动来进行GPU计算或从Azure门户渲染(并使用ARM来进行预配置的镜像)。

T4 GPU是比V100更新的卡,但很难直接比较,因为它针对不同的工作负载。当然,它在纯计算任务上的能力要差一些,但它的功耗要低得多,与V100的250W相比,它的功耗为75W。Nvidia认为T4比训练ML模型更适合于推断。

借助Azure Stack Hub中的GPU支持,您可以开始将ML和其他基于GPU的工作负载从云带到您的数据中心。延迟应该会减少,带宽成本也会降低,因为数据不需要通过昂贵的WAN连接传输到Azure。您还可以构建和测试针对敏感数据的模型,使操作符合本地法规,并将数据置于您的控制之下。

获得GPU支持的不只是Azure Stack Hub。它自己的Azure Stack Edge硬件现在提供了Nvidia T4 Tensor核心gpu。将GPU添加到这些单机架单元非常有意义,尤其是当您计划在边缘计算场景中运行机器学习工作负载时。GPU加速将使其更容易在物联网应用程序中运行预测模型,允许你构建、测试、训练和运行你的机器学习,而无需将基于工业硬件的潜在敏感训练数据集推送到公共云。将这些数据保存在您自己的数据中心和网络边缘可以使您更安全,并有助于控制数据成本和带宽使用。

参见:Multicloud: A cheat sheet(免费PDF)

在网络边缘使用T4 gpu很有意义。你不太可能开发复杂的机器学习模型;相反,您将使用预先构建的模型——要么是您自己的模型,要么是像Microsoft的Cognitive Services这样的容器。把GPU计算像这样放在一个机架上是一个很好的方式,可以把它传送到更小的地铁规模的数据中心,甚至是蜂窝传送器的笼子里。微软还致力于将Azure Stack Edge应用于极端条件下的坚固外壳中,使其能够将ML交付给船舶、石油和天然气平台,甚至作为紧急和灾难响应的一部分。

机器学习是一项越来越重要的技术,但构建和交付自己的ML平台也很困难。利用Azure的工具构建、测试和部署模型到您自己的数据中心和机架的能力是Azure堆栈家族的一个重要优势。您可以使用相同的硬件来改进VDI性能,并从混合现实和移动设备中卸载图像呈现,这是一个额外的好处。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。