基础设施¶
AI 系统的物理层与运营层,聚焦硬件、网络、存储和成本。
-
GPU 加速器、NVLink、InfiniBand/RoCE、GPUDirect Storage
-
从 CPU 单卡到 GPU 单卡再到分布式训练的技术演进——以 MNIST 为例
-
大语言模型的三阶段训练流程——预训练、指令微调、强化学习对齐
-
数据流、存储、并行策略、检查点机制——从数据加载到梯度更新的完整链路
-
拓扑感知算法选择、Ring/Tree/NVLS 通信算法、LL/LL128/Simple 协议、传输层插件架构
-
数据并行的技术设计——梯度同步、通信优化、常见实现(DDP、FSDP、ZeRO)
-
流水线并行的调度策略——GPipe、1F1B、Interleaved 1F1B 的技术权衡
-
KV Cache 加载、Prefill、Decode——从输入到输出的完整推理流程,以及 MTP、Chunked Prefilling 等优化技术
-
HPC/AI 超算存储——元数据与数据分离、条带化、LNet
-
DeepSeek AI 训练存储——CRAQ 强一致性、FoundationDB 元数据、NVMe SSD 集群
-
GPU 成本、API 定价、盈亏测算
-
单机 8 卡 AI 服务器的硬件结构——NVLink Switch 全互连、PCIe 桥接、Rail-aligned 网络模块
-
数据管线全景——语料工程(去重/过滤/混合)、预处理变换、训练供给(流式/物化/格式选型)、数据反馈环(RLHF/合成数据/飞轮)、开环 vs 闭环差异、场景对比
-
Parquet、Arrow / Feather、Lance 三种列式格式在 GPU 加速场景下的设计权衡
-
从 Python 一行 nn.Linear 到 GPU 上一次 cuBLAS/cuSPARSE 调用的完整分发路径
-
在不修改 PyTorch 源码的前提下,接入新硬件、注册自定义算子、添加融合规则的三种扩展路径