英伟达详解GPU集群可选追踪技术
可远程查看功耗、温度等,不具备后门、终止开关
2025-12-15
来源:IT之家
12 月 14 日消息,英伟达官方本周(12 月 10 日)在官网发布博文,详细介绍正在开发的可视化 GPU 集群监控方案,可帮助云服务合作伙伴计算 GPU 的正常运行时间。
援引官方新闻稿,该方案由用户自愿选择、客户自行安装,可用于监控 GPU 的使用情况、配置以及错误信息,内含开源的客户端软件代理,旨在帮助客户充分发挥 GPU 系统的价值。
这套软件能进行以下操作:
追踪功耗峰值,在控制能耗预算的同时最大化每瓦性能
监控整个 GPU 集群的利用率、内存带宽以及互联状况
尽早发现热控制问题,避免因过热出现降频、组件老化等风险
确认软件配置与设置的一致性,确保结果可复现、运行可靠
识别错误与异常,提早发现潜在故障部件
官方表示,这套软件可帮助企业和云服务提供商直观了解其 GPU 集群运行状况,解决系统瓶颈,优化生产力,整套服务通过实时监控实现,每个 GPU 系统会与外部云服务通信并共享 GPU 指标。

同时英伟达强调,他们的 GPU 不包含任何硬件追踪技术、远程终止开关或后门。
此外,英伟达计划将客户端软件代理开源,提供更高的透明度和可审计性,整套软件可提供企业 GPU 资产的可视化信息,无法修改 GPU 配置或底层运作方式,只能够提供只读的遥测数据,交由客户自行管理并可按需定制。

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。
