跳转至

基础设施

AI 系统的物理层与运营层,聚焦硬件、网络、存储和成本。

  • AI 基础设施


    GPU 加速器、NVLink、InfiniBand/RoCE、GPUDirect Storage

  • 训练范式演进


    从 CPU 单卡到 GPU 单卡再到分布式训练的技术演进——以 MNIST 为例

  • LLM 训练流程


    大语言模型的三阶段训练流程——预训练、指令微调、强化学习对齐

  • 分布式训练


    数据流、存储、并行策略、检查点机制——从数据加载到梯度更新的完整链路

  • NCCL 集合通信库


    拓扑感知算法选择、Ring/Tree/NVLS 通信算法、LL/LL128/Simple 协议、传输层插件架构

  • 数据并行


    数据并行的技术设计——梯度同步、通信优化、常见实现(DDP、FSDP、ZeRO)

  • 流水线并行


    流水线并行的调度策略——GPipe、1F1B、Interleaved 1F1B 的技术权衡

  • 推理过程主要阶段


    KV Cache 加载、Prefill、Decode——从输入到输出的完整推理流程,以及 MTP、Chunked Prefilling 等优化技术

  • Lustre 并行文件系统


    HPC/AI 超算存储——元数据与数据分离、条带化、LNet

  • 3FS 分布式文件系统


    DeepSeek AI 训练存储——CRAQ 强一致性、FoundationDB 元数据、NVMe SSD 集群

  • 推理经济性


    GPU 成本、API 定价、盈亏测算

  • 单节点拓扑


    单机 8 卡 AI 服务器的硬件结构——NVLink Switch 全互连、PCIe 桥接、Rail-aligned 网络模块

  • AI 数据管线


    数据管线全景——语料工程(去重/过滤/混合)、预处理变换、训练供给(流式/物化/格式选型)、数据反馈环(RLHF/合成数据/飞轮)、开环 vs 闭环差异、场景对比

  • 结构化数据格式与 GPU 亲和性


    Parquet、Arrow / Feather、Lance 三种列式格式在 GPU 加速场景下的设计权衡

  • PyTorch 算子分发机制


    从 Python 一行 nn.Linear 到 GPU 上一次 cuBLAS/cuSPARSE 调用的完整分发路径

  • PyTorch 算子扩展机制


    在不修改 PyTorch 源码的前提下,接入新硬件、注册自定义算子、添加融合规则的三种扩展路径