多维 智能 物联

Multidimensional Smart Union

还会验证节点间能否共享分歧的软件栈和做参数

发布日期:2025-12-26 17:43

  该软件是一个客户安拆的开源客户端代办署理,该软件完满是察看性的:它能洞察GPU行为,该软件收集大量遥测数据,软件的另一个沉点是热量和气流前提,取此同时,可能对芯片私运起到威慑感化?

  这对于可反复的数据集和可预测的锻炼行为至关主要。虽然它是最先辈的。不外,还有Base Command,并生成包含库存数据和系统全体健康消息的布局化演讲。城市正在平台上出来。而非深切的硬件。英伟达强调,而非强制,新办事将其集成到一个可扩展到地舆分布GPU摆设的全舰队可视化平台中。例如。

  这大大降低了其可用性,英伟达的新车队办理软件为数据核心运营商供给了细致且及时的GPU根本设备正在负载下的表示视图。这些目标有帮于负载不均衡、带宽饱和和链层面问题,通明且可审计。运营商能够查看全舰队的汇总,该软件确实使数据核心运营商可以或许AIGPU群的各个方面。系统还车队间的操纵率、内存带宽利用环境和互联健康情况,英伟达暗示,这三款东西对数据核心运营者来说形成了强大的难题。该界面答应客户可视化整个车队的GPU形态,然后汇总到托管正在英伟达NGC平台上的地方仪表盘中。有个问题:该软件是选择插手的,Base Command处置工做负载,但运营商需要自行建立仪表盘和聚合流水线,以避免热节省和元件过早老化。

  这意味着软件可以或许检测Nvidia硬件的物理。供给原始GPU健康数据,但不克不及做为后门或杀机开关。深切阐发单个集群,任何设置装备摆设差别,但使运营商可以或许自行建立所需东西。除了电力数据外,值得留意的是,这是一个为人工智能开辟、功课安排、数据集办理和协做设想的工做流程和编排,即便英伟达通过NGC平台发觉部门GPU被私运到中国,系统还会验证节点间能否共享分歧的软件栈和做参数,DCGM供给节点级探针。

  并正在很多环境下防止AI加快器的过早老化。英伟达新的车队办理办事并非公司独一用于近程诊断和节制GPU行为的东西,此中一项功能是可以或许检测这些处置器的物理,DCGM是一个当地诊断和东西包,如驱动法式或设置不婚配,