多模态 AI (Multimodal AI)¶

背景知识

Transformer：基于自注意力的序列模型，输入是 token 序列 → 详见
Tokenization：将原始数据（文本、图像等）切分为模型可处理的离散单元（token）
自回归生成：逐 token 预测下一个，适用于离散序列（文本） → 详见
扩散模型：通过逐步去噪从噪声生成连续信号（图像/视频），当前生成主流 → 详见

本文档聚焦于 Transformer/自回归路线的多模态技术——如何将不同模态转换为 token 序列并用 Transformer 处理，以及跨模态对齐方法。

图像/视频生成主流是扩散模型（非自回归），详见扩散模型。

1. 模态特征一览¶

维度	文本	图像	音频	视频
数据结构	1D 离散序列	2D 连续网格 (H×W×C)	1D 连续波形	3D (2D 空间 + 时间)
信息密度	高——一个词承载大量语义	中——像素级冗余大	低——高采样率，有效信息稀疏	极低——帧间大量重复
天然离散性	是（词表有限）	否（像素连续值）	否（波形连续）	否
典型序列长度	~10³–10⁴ tokens	~10²–10³ patches	~10³–10⁴ codec tokens	~10⁴–10⁶
时间维度	无（或弱顺序）	无	有，高分辨率	有，需帧间一致性

核心差异：文本天然离散、语义密度高；图像/音频/视频是连续信号，需要先tokenization才能送入 Transformer，而 tokenization 策略直接决定模型的效果上限。

2. Tokenization：把连续信号变成 token¶

这是多模态 AI 最核心的技术问题——如何把不同模态统一到 Transformer 能处理的 token 序列。

文本¶

BPE / SentencePiece 等子词切分已是成熟方案，词表大小通常 32k–128k。文本是唯一天然离散的模态，无需额外编码。

图像¶

两条主路线：

路线	代表	原理	权衡
Patch 嵌入	ViT¹	将图像切成 16×16 patch，线性投影为向量	不对称，无法重建图像；简单高效
离散码本	VQ-VAE / VQ-GAN	将图像编码为离散 token（码本索引）	对称（有损）；可用自回归生成，但码本大小限制保真度

ViT（Vision Transformer）原理：把图像切成小块，像处理文本序列一样用 Transformer 处理。

以 224×224 的彩色图像为例： 1. 切块：切成 14×14 = 196 个 16×16 的小块（patch） 2. 展平：每个 patch 有 16×16×3 = 768 个像素值，展平成 768 维向量 3. 投影：通过可学习的线性层投影到固定维度（如 768 维） 4. 加位置编码：给每个 patch 加位置信息（Transformer 本身不知道空间关系） 5. 送入 Transformer：196 个向量序列，就像 196 个"词"

直觉类比：文本把句子拆成 token 序列（"我/喜欢/吃/苹果"），ViT 把图像拆成 patch 序列。区别在于 CNN 靠卷积核滑窗提取局部特征，ViT 用全局注意力，每个 patch 能直接看到所有 patch。

实践中，理解任务多用 patch 嵌入（CLIP、Gemini）。注意：图像生成主流是扩散模型（非自回归），详见扩散模型。

音频¶

路线	代表	原理	权衡
频谱 → patch	Whisper, AST	波形 → mel 频谱图（2D）→ 按 ViT 方式切 patch	不对称，无法重建波形
神经音频编码	EnCodec, SoundStream	将波形压缩为多层离散 token（残差向量量化, RVQ）	对称（有损）；压缩率高，~50–75 token/秒

音频的采样率问题：16kHz 语音 1 秒 = 16,000 个采样点，直接处理不现实。频谱图将时域转为时频域，大幅降低序列长度；神经编码则进一步压缩到 ~50–75 token/秒。

视频¶

视频 = 图像序列 + 时间轴，数据量爆炸。关键是如何压缩时间冗余：

帧采样 + 独立编码：抽关键帧，每帧按图像处理——简单但丢失运动信息
3D patch：将视频切成时空立方体（如 2 帧×16×16），一次编码空间+时间
时间维度单独建模：图像编码后加 temporal attention 层

注意：当前视频生成主流是扩散模型（非自回归），详见扩散模型。

3. 跨模态对齐¶

让不同模态的表示映射到同一向量空间，是多模态理解的基础。

对比学习¶

CLIP²：用大量 (图像, 文本) 对做对比学习——匹配的图文对在向量空间靠近，不匹配的推远。训练后图像和文本共享同一嵌入空间，可以做零样本分类、检索等。

ImageBind (Meta)：将 CLIP 思路扩展到六种模态（图像、文本、音频、深度、热成像、IMU），利用图像作为"锚点"桥接所有模态。

投影层拼接¶

早期多模态模型（LLaVA 等）的做法：

图像 → 冻结的视觉编码器 (CLIP ViT) → 线性投影 → 拼入 LLM token 序列

简单有效，但视觉编码器和 LLM 分别训练，跨模态理解存在 gap。

原生多模态训练¶

Gemini、GPT-4o 的做法：从预训练开始就混合多种模态数据联合训练，模型内部学习对齐。好处是跨模态理解更自然，代价是训练数据工程和算力成本极高。

4. 开放问题¶

多模态幻觉：模型"看到"图像中不存在的内容（物体计数错误、空间关系误判）——比纯文本幻觉更难检测
评估：缺乏统一的跨模态评估基准，图像/音频/视频的质量难以用同一把尺子衡量
长视频理解：当前模型对短片段理解不错，但对几分钟以上视频的长程推理仍困难
统一生成：一个模型同时用自回归方式生成所有模态仍处早期，跨模态生成质量不均衡

参考资料¶

Dosovitskiy et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. 2020. https://arxiv.org/abs/2010.11929 ↩
Radford et al. Learning Transferable Visual Models From Natural Language Supervision. 2021. https://arxiv.org/abs/2103.00020 ↩