跳转至

NVIDIA BlueField DPU 系列

背景知识
  • ConnectX:NVIDIA ASIC SmartNIC,BlueField 的网络前端部分 → 详见
  • RDMA:远程直接内存访问,ConnectX/BlueField 的核心网络能力 → 详见
  • NVMe-oF:NVMe over Fabrics,通过网络访问远程存储 → 详见
  • GPUDirect Storage:存储到 GPU 的直接数据路径 → 详见

BlueField 是 NVIDIA 的 DPU (Data Processing Unit) 产品线1。核心思路:把 ConnectX 网络前端和 Arm SoC 集成到一颗芯片上,形成一台"网卡上的小电脑",将基础设施服务从主机 CPU 卸载到 DPU。


1. 为什么需要 DPU

传统架构中,CPU 同时承担两类工作:

  1. 业务负载:AI 训练/推理的数据预处理、编排调度
  2. 基础设施:网络协议栈、虚拟交换、存储代理、安全策略、遥测采集

在大规模 AI 集群中,基础设施开销可以吃掉 20-30% 的 CPU 资源。DPU 的设计目标:将第二类工作完全移到独立的 Arm SoC 上,释放主机 CPU 给业务负载


2. 架构:ConnectX + Arm SoC

BlueField 不是一个全新设计,而是在 ConnectX 基础上的"叠加":

BlueField-3 SoC
├── ConnectX-7 网络前端       ← 400 Gb/s IB/Eth,RDMA 引擎(与独立 CX-7 相同)
├── 16x Arm Cortex-A78        ← 运行完整 Linux,可部署任意基础设施服务
├── 16 核 Datapath Accel      ← 可编程数据面加速器(BF-3 新增,256 线程)
├── 32 GB DDR5                ← 独立于主机内存
├── PCIe Gen5 Switch          ← 可拆分为最多 16 个下行端口
├── 硬件加密引擎              ← AES、TLS、IPsec 线速卸载
├── NVMe-oF 引擎             ← 存储虚拟化 (SNAP)
└── 板载 SSD(最大 128 GB)   ← 持久化配置和日志

关键设计:ConnectX 网络前端与独立版本完全一致——同样的 RDMA 引擎、同样的 GPUDirect 能力。Arm SoC 是"附加"的基础设施计算域,与主机物理隔离。


3. 代际演进

指标 BlueField-2 BlueField-3 BlueField-4 (Rubin)
Arm 核 8x Cortex-A72 16x Cortex-A78 TBD
网络前端 ConnectX-6 (200 Gb/s) ConnectX-7 (400 Gb/s) ConnectX-8 (800 Gb/s)
PCIe Gen 4 x16 Gen 5 x32 TBD
内存 32 GB DDR4 32 GB DDR5 (双通道) TBD
数据面加速器 16 核 256 线程 TBD
板载 SSD 最大 128 GB TBD

BF-3 的关键突破是可编程数据面加速器:16 核 256 线程的专用处理器,可以对数据包做自定义处理,填补了 ASIC(快但不灵活)和 Arm 核(灵活但慢)之间的空白4


4. 三种运行形态

同一系列硬件有三种截然不同的使用方式,这是理解 NVIDIA 网络产品线的关键:

维度 ConnectX (独立 SmartNIC) BlueField (DPU 模式) BlueField (SuperNIC 模式)
Arm 核 不存在 运行 Linux + 基础设施服务 存在但空闲
定位 高效网络卸载 基础设施计算机 AI 网络加速器
核心价值 RDMA、GPUDirect 多租户隔离、存储虚拟化 极致 RoCE 性能
SDK OFED 驱动 DOCA Spectrum-X 集成
典型场景 IB 训练集群 云厂商多租户 以太网 AI 集群

DPU 模式

Arm 核运行完整 Linux(Ubuntu/CentOS),可部署: - OVS 虚拟交换:网络策略在 DPU 执行,主机无感知 - K8s CNI:容器网络插件运行在 DPU 上 - NVMe-oF 存储代理:DPU 终止远程存储连接,向主机呈现本地 NVMe 设备 - 安全策略引擎:微分段、防火墙规则在 DPU 层执行

SuperNIC 模式

同一块 BlueField-3 硬件,但 Arm 核禁用,所有资源专注于网络加速: - 端点自适应路由:SuperNIC 参与路由决策,不完全依赖交换机 - 精确拥塞控制:硬件级 ECN/PFC 处理,降低尾延迟 - Direct Data Placement:数据直接放入目标内存位置 - 配合 Spectrum-4 交换机组成 Spectrum-X 平台,让以太网接近 InfiniBand 的 AI 训练性能

SuperNIC 存在的意义:InfiniBand 性能最优但生态封闭、成本高。SuperNIC + Spectrum-X 是 NVIDIA 为以太网阵营提供的"接近 IB 性能"的方案2,让已有以太网基础设施的客户不必重建 IB 网络。


5. DOCA:DPU 的"CUDA"

DOCA (Data Center Infrastructure on a Chip Architecture) 是 BlueField 的 SDK,定位类似 CUDA 之于 GPU:

DOCA 组件 功能
DOCA Flow 可编程包处理流水线
DOCA Comm Channel 主机↔DPU 通信通道
DOCA Telemetry 逐流可见性和遥测
DOCA App Shield 安全微分段
DOCA Storage (SNAP) NVMe-oF 存储虚拟化

DOCA 提供高层库和底层 API 两个层次,开发者可以选择抽象程度。


6. 核心使用场景

6.1 多租户 AI 云隔离

┌──────────────────────────────────────────┐
│ 主机 (Host)                              │
│  ┌─────────┐  ┌─────────┐  ┌─────────┐  │
│  │ 租户 A  │  │ 租户 B  │  │ 租户 C  │  │
│  │ GPU 0-1 │  │ GPU 2-3 │  │ GPU 4-7 │  │
│  └─────────┘  └─────────┘  └─────────┘  │
│          看不到基础设施层 ↓               │
├──────────── 物理隔离边界 ─────────────────┤
│ BlueField DPU (Arm Linux)                │
│  ├── OVS 虚拟交换                        │
│  ├── K8s CNI                             │
│  ├── 安全策略引擎                        │
│  └── 存储代理                            │
└──────────────────────────────────────────┘

云控制面运行在 DPU 的 Arm 核上,与租户工作负载物理隔离。租户无法触及基础设施代码3

6.2 存储加速

DPU 终止 NVMe-oF 连接,向主机呈现看似本地的 NVMe 设备。配合 GPUDirect Storage:

远程存储 → 网络 → BlueField NVMe-oF 引擎 → GPUDirect → GPU HBM

全程不经过主机 CPU 内存,延迟和吞吐都优于传统路径。


参考资料


  1. NVIDIA. BlueField-3 DPU Introduction. https://docs.nvidia.com/networking/display/BF3DPUController/Introduction 

  2. NVIDIA Blog. What Is a SuperNIC? https://blogs.nvidia.com/blog/what-is-a-supernic/ 

  3. NVNexus. NVIDIA BlueField-3 DPU Deep Dive. https://nvnexus.com/nvidia-bluefield-3-dpu-deep-dive/ 

  4. KnoxByte. NVIDIA BlueField-2 vs. BlueField-3. https://www.knoxbyte.com/nvidia-bluefield-2-vs-bluefield-3/