该公司表示,Spectrum-XGS 通过引入距离感知网络消除了单一设施的容量限制,可在校园、城市和大洲之间提供可预测的低延迟性能。
该技术主要通过对现有 Spectrum-X 交换机和 ConnectX SuperNIC 进行软件和固件更新来提供,而不是通过新的芯片。 Spectrum-XGS 提供针对长距离链路优化的自动调整拥塞控制、可最大程度减少抖动的精确延迟管理以及全面的端到端遥测,使运营商能够可视化和控制跨多个站点的网络流量。
NVIDIA 报告称,这些改进使多 GPU、多节点训练作业和大规模实验的 NCCL(集体通信库)吞吐量几乎翻了一番,从而提高了分布式 AI 工作负载的效率。NVIDIA 将 Spectrum-XGS 定位为 AI 基础设施的新增长轴:继服务器内部扩展和数据中心内部扩展之后,跨规模扩展将设施连接到统一的计算结构中。
超大规模运营商正准备采用这种方法。CoreWeave 将成为首批将多个设施与 Spectrum-XGS 连接在一起的公司之一。该公司将把其分布式站点用作一台超级计算机,为客户提供更大的聚合容量,并简化千兆级实验和生产训练运行的操作。
Spectrum-XGS 是 Spectrum-X 平台的一部分,并在 Hot Chips 大会上进行了演示。更多细节预计将在 Hot Chips 大会上公布,但大规模、跨洲规模的训练运行已不再是空想。有了 Spectrum-XGS 这样的解决方案,只有天空(和电网)才是极限。
微软资讯推荐
win10系统推荐
系统教程推荐