AI 服务器单节点拓扑¶

背景知识

以 NVIDIA DGX/HGX 产品序列为参考¹，梳理单节点内 CPU、GPU、网络的连接方式与设计权衡。下文以 Hopper 一代参数为基准，Blackwell 的变化见第 4 节。

1. 三条数据通路¶

节点内存在三条带宽差异巨大的数据通路，这直接决定了分布式训练的通信策略：

关键设计决策：NVLink 比 PCIe 快 ~14 倍，这意味着节点内 GPU 间通信必须走 NVLink Switch 全互连，绝不经过 PCIe/CPU 中转。NCCL 等通信库会自动感知这一拓扑，优先使用 NVLink 路径。

8 张 GPU 通过多颗 NVLink Switch 实现非阻塞全互连——任意两张 GPU 之间都有等带宽直连，无需多跳。设计遵循两条原则：

每颗 NVLink Switch 连接所有 GPU：GPU 间通信在 NVLink Switch 内部经 crossbar 一跳完成，所有 GPU 对的带宽完全对称。
尽可能多的 NVLink Switch，用满 GPU 的 NVLink 端口：GPU 的 NVLink 端口均匀分配到多颗 NVLink Switch 上，任意 GPU 对的通信同时经过所有 NVLink Switch 并行传输，聚合带宽随 NVLink Switch 数量线性增长。NVLink Switch 上未被 GPU 占用的剩余端口可用于 NVLink Network 跨节点互联。

两条原则的结果就是"非阻塞"——不管哪些 GPU 对在同时通信，都不会互相抢占带宽（NVLink Switch 架构详见）。

Hopper 一代的网络模块设计解决了一个工程难题：如何在有限的 PCIe 通道下让每张 GPU 都有独立的高速网络出口。

为什么要 1:1 映射？ 集群中所有节点的 GPU 0 连到同一条 Rail（同一组 Leaf Switch），GPU 1 连到另一条 Rail……这样 AllReduce 等集合通信的流量天然分散到 8 个独立网络平面，避免交换机层拥塞。

单节点对外有四种不同用途的网络连接，物理隔离不同类型的流量：

Fabric	网卡	速率	用途
Compute	8x ConnectX-7 单口	400G IB/Eth	GPU 间跨节点通信（NCCL）
Storage	2x ConnectX-7 双口	400G Eth/IB	数据集加载、checkpoint
In-band Mgmt	同 Storage 复用	—	节点监控、编排调度
Out-of-band	1x 1GbE BMC (RJ45)	1G	硬件管理 (IPMI/Redfish)

设计权衡：计算 fabric 和存储 fabric 物理分离确保训练通信不会被数据加载抢占带宽。小规模部署可以复用同一 fabric 通过 QoS 隔离，但大规模集群（如 DGX SuperPOD）始终分开部署。

Blackwell 的关键架构变化：计算网卡从 ConnectX-7 升级为 ConnectX-8 SuperNIC（详见），并新增 BlueField-3 DPU（详见）负责基础设施卸载。

NVIDIA. DGX H100/H200 User Guide. https://docs.nvidia.com/dgx/dgxh100-user-guide/introduction-to-dgxh100.html ↩