Microway Accelerate Research在ORNL提供的NVIDIA DGX-2系统

领先的AI和HPC计算群集,服务器和工作站供应商Microway宣布已向美国能源部的Oak Ridge国家实验室交付了2台NVIDIA DGX-2 AI系统。此后为机器学习和数据密集型计算小组带来了新的机遇和科学成果。

得益于新的NVIDIA DGX-2 AI系统的独特功能以及快速成功的安装,ORNL研究团队能够扩展现有资源并启用整个实验室中具有高级架构的,专注于机器学习和AI的创新项目。

DGX-2系统具有16个NVIDIA V100 GPU的独特密度以及创新的NVIDIA NVSwitch技术,以完全互连所有GPU。自交付以来,它们已被证明是ORNL破纪录的200 petaflop“ Summit”超级计算机的补充。

支持创新项目

这些专门的系统使用户可以解决其他大型GPU解决方案无法解决的独特而又庞大的问题。

“我经常收到来自实验室各处的研究人员和学生的访问这些系统的请求,他们想学习周围最好的硬件。这些要求涵盖了整个用例范围,DGX-2永远不会给人留下深刻的印象。随着口口相传,再加上范围的扩大,我只会看到这些系统的使用率在增加。” ORNL的科学计算和数据环境(CADES)团队的Linux系统工程师Chris Layton说。

分子生物物理中心的博士后研究助理马衡(Heng Ma)分享说,DGX-2系统使按比例扩展到Summit系统的项目变得更加容易和成功。“我们使用机器学习算法来控制分子动力学模拟……对于我当前的项目,我使用DGX-2生成数据原型,之后我们尝试将其迁移到Summit。因此,这个原型就像是概念证明,在我们将其实际投放到Summit之前,它实际上已经起作用。”

ORNL的科学计算和数据环境(CADES)团队寻求这种突破性的新架构来帮助推进他们的研究。然后,ORNL团队决定信任AI和HPC专家Microway的部署。他们获得了两个物理安装,启动和运行的DGX-2系统的奖励,并在打开第一个板条箱后的4小时内进行了基准测试。

部署:在板条箱打开后4小时运行基准测试

作为经验丰富的集群集成商和NVIDIA合作伙伴Network Elite DGX合作伙伴,Microway的角色对于交付一个完整的解决方案至关重要,该解决方案在安装后即可运行。

在交付之前的数周中,Microway专家与ORNL人员和NVIDIA解决方案架构师进行了仔细的系统,存储和网络架构设计以及设计审查,一旦Microway人员到达现场,便能够快速安装和设置。

交付两台新机器还需要进行仔细的高级后勤准备,以确保机房,网络,联系方式,散热和系统管理员都已为安装和启动DGX-2系统做好了准备。在安装之前,ORNL管理员和Microway团队会通过电话,电子邮件和Web进行持续协作,以确保顺利部署。

“ Microway能够通过其安装人员,将DGX-2集成到CADES环境中的过程非常顺利……这是在最后期限之内完成的,他们完美地满足了所有时间表。Microway能够将DGX-2更新到某种程度,以使CADES团队能够开始为最终用户配置它们,” Layton说道。

到达现场后,Microway团队对系统进行了拆封,准备好机架,将系统安装到机架中,运行电源和网络电缆,更新了所有固件,部署了完整的DGX软件堆栈并为系统进行基准测试做好了准备。

走向未来

新的DGX-2系统已经为ORNL团队提供了出乎意料的功能和洞察力,研究人员预计这种情况将持续到将来。

自交付以来,分子生物学,地理数据科学和AI驱动的生物系统建模等各个领域的小组都利用新的硬件部署来推动其科学研究。

该系统已引起整个实验室的关注。ORNL的其他用户已为最近的部署选择了第三个DGX-2。与最初的系统一样,Microway团队确保了平稳的交付体验和快速的启动。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。