基础设施¶

AI 系统的物理层与运营层，聚焦硬件、网络、存储和成本。

AI 基础设施

GPU 加速器、NVLink、InfiniBand/RoCE、GPUDirect Storage
训练范式演进

从 CPU 单卡到 GPU 单卡再到分布式训练的技术演进——以 MNIST 为例
LLM 训练流程

大语言模型的三阶段训练流程——预训练、指令微调、强化学习对齐
分布式训练

数据流、存储、并行策略、检查点机制——从数据加载到梯度更新的完整链路
NCCL 集合通信库

拓扑感知算法选择、Ring/Tree/NVLS 通信算法、LL/LL128/Simple 协议、传输层插件架构
数据并行

数据并行的技术设计——梯度同步、通信优化、常见实现（DDP、FSDP、ZeRO）
流水线并行

流水线并行的调度策略——GPipe、1F1B、Interleaved 1F1B 的技术权衡
推理过程主要阶段

KV Cache 加载、Prefill、Decode——从输入到输出的完整推理流程，以及 MTP、Chunked Prefilling 等优化技术
Lustre 并行文件系统

HPC/AI 超算存储——元数据与数据分离、条带化、LNet
3FS 分布式文件系统

DeepSeek AI 训练存储——CRAQ 强一致性、FoundationDB 元数据、NVMe SSD 集群
推理经济性

GPU 成本、API 定价、盈亏测算
单节点拓扑

单机 8 卡 AI 服务器的硬件结构——NVLink Switch 全互连、PCIe 桥接、Rail-aligned 网络模块
AI 数据管线

数据管线全景——语料工程（去重/过滤/混合）、预处理变换、训练供给（流式/物化/格式选型）、数据反馈环（RLHF/合成数据/飞轮）、开环 vs 闭环差异、场景对比
结构化数据格式与 GPU 亲和性

Parquet、Arrow / Feather、Lance 三种列式格式在 GPU 加速场景下的设计权衡
PyTorch 算子分发机制

从 Python 一行 nn.Linear 到 GPU 上一次 cuBLAS/cuSPARSE 调用的完整分发路径
PyTorch 算子扩展机制

在不修改 PyTorch 源码的前提下，接入新硬件、注册自定义算子、添加融合规则的三种扩展路径