Kaiyun - 中国官方版权服务网站

关闭
英伟达推出云端算力集群监管工具自证GPU无后门
作者:小编 日期:2025-12-12 点击数: 

  英伟达近日发布称,正在开发用于可视化和监测英伟达GPU集群的软件解决方案,为云合作伙伴和企业提供洞察仪表板,帮助他们提高整个计算基础设施的GPU正常运行时间。

  据了解,该服务由客户选择、自行安装和控制,用于监测GPU使用情况、配置和错误。它将包含一个开源客户端软件智能体,这是英伟达持续支持开放、透明软件的一部分,旨在帮助客户最大限度的发挥其GPU系统的性能。

  总体来看,这套工具是一个云端算力集群控制工具,有点类似PC上的任务管理器。客户可以自行决定是否开启,服务由英伟达官网托管。未来这套工具会计划开源。

英伟达推出云端算力集群监管工具自证GPU无后门(图1)

  这项纯软件解决方案不由英伟达控制,用户可自行安装、配置和管理。它仅采集只读遥测数据(如GPU使用、配置和错误指标),绝不修改GPU配置或底层运行机制。通过客户端软件智能体,用户可将节点级数据流式传输至仪表板,实现全球GPU集群的实时可视化——既支持整体状态洞察,也可按计算区域(同一物理或云位置的节点组)细化查看。

  英伟达这套工具的客户端智能体计划开源,提供完整透明度和可审计性。英伟达重申GPU没有硬件跟踪技术,没有GPU终止开关也没有后门。云端算力服务工具只能读遥测数据,无法修改GPU配置或底层运行机制。

  该软件通过直观仪表板,帮助运营商最大化GPU系统性能。数据中心运营商将能够用这套工具能实时看到GPU“偷懒”或者不健康状态,从而及时优化GPU集群工作状态。

  性能检测并实时优化:追踪功耗峰值、集群利用率、内存带宽及互连状况,在不超出能耗预算的前提下最大化单位功耗性能。

  故障预警:及早发现热点、气流问题或异常错误,避免过热降频和组件过早老化,延长正常运行时间。发现错误和异常情况,及早发现故障部件。

  所以这套工具的整体目标,还是帮助客户提升使用GPU集群的ROI。平时使用能让GPU集群工作的更好,小问题及时发现,避免影响数据中心运营商的业务受到影响。

  关于检测范围。英伟达考虑到分布式GPU集群的趋势,这套工具支持客户全球GPU集群的整体状态洞察。让客户不再是每个GPU集群都需要做一套性能监测工具。开云kaiyun

顶部