HPE与NVIDIA携手为AI训练打造“交钥匙”超算方案-AET-电子技术应用

HPE与NVIDIA携手为AI训练打造“交钥匙”超算方案

日期： 2023-11-14

来源：至顶网计算频道

关键词： HPE NVIDIA AI

HPE与NVIDIA表示正为客户提供构建模块，可用于组装同布里斯托大学Isambard-AI超级计算机同架构的迷你版本，用以训练生成式AI和深度学习项目。但目前价格尚未公布，希望数字友好。

两家公司正联手销售一款基于HPE Cray EX2500架构及NVIDIAGrace Hopper超级芯片的模块化机器，其上运行的则是两家公司共同提供的软件工具栈。

该系统将于本周在科罗拉多州召开的SC23高性能计算（HPC）大会上公开演示，设计目标是通过预配置和预测试的完整技术栈，让组织更轻松地启动并运行AI训练。当然，一切要等价格公布之后才有定论。

根据HPE的介绍，该系统是首款采用四GH200超级芯片节点配置的系统，就是说每个节点将包含4块NVIDIA高端芯片。每块超级芯片都拥有72核Arm架构Grace CPU与Hopper GPU，并配备480 GB的LPDDR5x内存与144 GB HBM3e高带宽内存。

这些节点采用HPE的Slingshot互连技术，这项技术属于以太网的超集，添加了高性能计算（HPC）所必需的诸多功能。

虽然硬件成本相当可观，但HPE表示这套特殊的解决方案允许客户先从小规模起步，随后根据需求灵活扩展。

HPE高性能计算、人工智能与实验室执行副总裁Juston Hotard在采访中表示，“已经有一部分客户发布了搭载Grace Hopper超级芯片的产品，但我们的EX2500仍然独一无二，因为它可作为统一的单位进行部署，全部冷却、供电和计算板件均部署在同一模块之内。”

他解释道，这意味着该系统“不仅为客户提供了非常简单的入门选项，同时还具备广阔的扩展空间。”

作为方案中的软件技术栈，HPE带来了自己的机器学习开发环境（Machine Learning Development Environment）。这是一套用于训练生成式AI模型的平台，主要基于HPE在2021年收购自Defined AI的技术。

方案中还包含NVIDIA的AI Enterprise套件，这是一系列AI工具和框架的集合，包括TensorFlow、PyTorch、NVIDIARAPIDS与TensorRT软件库，以及Triton推理服务器等。客户还可以获得HPE的Cray编程环境，这是一套用于代码开发、移植和调试的工具组合。

Hotard表示，AI训练是目前计算密度最大的工作负载之一，因此对计算架构的要求也比较特殊。

“我们都知道，云架构是围绕单一服务器资源的最大化利用设计而成的。因此在面对工作负载时，这类方案倾向于将任务拆分成一个个较小的部分。”

“但AI工作负载，特别是训练和大规模微调类负载，则有着截然不同的特性。在某些情况下，这些工作负载需要将整座数据中心视为单一计算机来运行。AI工作负载需要运行在几百甚至数千个节点之上，并要求所有计算、互连和存储资源都要像在超级计算机内那样高度一致地规模化运行。”

当然，这套新系统的服务对象仅限那些掌握充足财务预算的组织，不过HPE目前拒绝透露关于成本的具体信息。Hotard表示价格将在不久之后对外公布。

NVIDIA科学项目经理Jack Wells宣称，基准测试结果显示，在使用Llama 2处理大语言模型（LLM）推理工作负载时，基于GH200的单一节点比双至强CPU服务器快100倍。

他声称，“生成式AI正在重构科学计算思路，并带动起极为巨大的市场需求。”他同时强调，HPE与NVIDIA的这款产品已经吸引到多家客户。

其中包括苏黎世联邦理工学院的超级计算机、波兰Cyfronet、洛斯阿拉莫斯国家实验室，以及布里斯托大学的Isambard-AI系统（计划部署5448块NVIDIAGH200超级芯片）。

HPE表示，该服务将从12月登陆30多个国家的市场。除了来自公共部门和研究机构的AI创新中心客户之外，该项目预计还将吸引到不少企业巨头的关注。

电子技术应用微店二维码.jpg

版权声明：本站内容除特别声明的原创文章之外，转载内容只为传递更多信息，并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题，请及时通过电子邮件或电话通知我们，以便迅速采取适当措施，避免给双方造成不必要的经济损失。联系电话：010-82306118；邮箱：aet@chinaaet.com。

HPE与NVIDIA携手为AI训练打造“交钥匙”超算方案

日期： 2023-11-14

来源：至顶网计算频道

相关内容