OneVL：双模态 Latent CoT 的视觉-语言-动作框架

属性	值
开发者	Xiaomi Research
开源协议	Apache 2.0
GitHub	xiaomi-research/onevl
论文	arXiv:2604.18486
模型权重	HuggingFace

一句话定位：首个在驾驶任务上超越显式 CoT 的 latent CoT 方法，通过双模态辅助解码器将 Emu3.5 视觉 tokenizer 与 Qwen3-VL 语言模型集成，实现 answer-only 延迟下的最优性能。

背景知识

VLA（Vision-Language-Action）模型：融合视觉、语言和动作的多模态模型，用于具身智能任务
Chain-of-Thought（CoT）推理：通过显式的推理链提升模型性能，但会增加推理延迟
Latent CoT：将推理过程压缩到 latent space 中以减少延迟，但通常性能不如显式 CoT
Emu3³：BAAI 提出的基于 next-token prediction 的多模态模型，使用统一的视觉 tokenizer
Qwen3-VL⁴：阿里巴巴推出的视觉-语言模型，具有强大的多模态理解能力

核心问题：Latent CoT 的性能困境¶

在自动驾驶轨迹预测任务中，Chain-of-Thought（CoT）推理能显著提升准确性，但其自回归性质带来的延迟成本对于实时部署是不可接受的。Latent CoT 方法试图通过将推理压缩到连续隐状态中来减少延迟，但在驾驶任务上一致性地表现不佳，甚至不如不使用 CoT 的基线。

OneVL 论文¹指出，这一根本性缺陷的原因是：纯语言 latent 表示压缩的是世界的符号化抽象，而非实际驾驶的因果动力学。一个只压缩语言的 latent 向量仅仅是在压缩对世界的抽象描述，而非底层的物理结构。

技术亮点¶

双模态辅助解码器架构¶

OneVL 的核心创新在于引入双模态辅助解码器，同时约束 latent space 的语义和物理维度：

语言辅助解码器：从语言 latent hidden states 重构人类可读的 CoT 文本，将 bottleneck 建立在语义意图上（场景解释、对象分析、驾驶决策）
视觉辅助解码器：从视觉 latent hidden states 预测未来帧的视觉 tokens（t+0.5s 和 t+1.0s），作为 world model 监督信号，将 bottleneck 建立在物理场景动力学上

两个解码器共同约束 latent space，使其同时编码语义意图和物理动力学，这是 OneVL 能够超越显式 CoT 的关键。

Emu3.5 与 Qwen3-VL 的深度集成¶

OneVL 不是简单地将两个模型拼接，而是通过精心设计的接口将 Emu3.5 的视觉能力嵌入到 Qwen3-VL 的语言理解框架中：

输入图像 → Emu3.5 IBQ (131k codebook) → 视觉 tokens → Qwen3-VL 扩展词汇表 → 轨迹预测
                                                              ↓
                                                        latent tokens
                                                              ↓
                                            ┌─────────────────┴─────────────────┐
                                            ↓                                   ↓
                                    语言辅助解码器                      视觉辅助解码器
                                    (重构 CoT 文本)                    (预测未来帧 tokens)
                                            ↓                                   ↓
                                    可解释的推理                        物理场景动力学

视觉 Tokenizer 层¶

直接使用 Emu3.5 的 IBQ（Index-Based Quantization） 模型作为视觉 tokenizer，利用其预训练的 131k codebook，无需从头训练视觉量化模块。

词汇表扩展策略¶

扩展 Qwen3-VL 的 tokenizer 以支持 131k 个视觉 tokens： - 视觉令牌格式：<<|visual token XXXXXX|>（6 位数字，共 131k 个） - 令牌 ID 范围：从 151674 开始 - 实现方式：避免使用 Qwen3-VL 的 added_tokens 机制（慢），直接操作 model.vocab（快），用 NUL byte（\x00）作为占位符，后处理中替换为真实视觉令牌 ID

视觉 Token Embedding 初始化¶

新增的视觉 token embedding 不是随机初始化，而是从训练好的检查点中加载，基于 Emu3.5 的预训练知识。

Prefill Inference 策略¶

训练时：辅助解码器监督 latent tokens 的学习
推理时：丢弃辅助解码器，latent tokens 预填充到上下文，单次并行处理
效果：推理延迟与 answer-only 相当，但性能超越显式 CoT

这种策略使得 OneVL 在保持推理效率的同时，获得了超越显式 CoT 的性能。

三阶段渐进式训练¶

为确保主模型、语言辅助解码器和视觉辅助解码器能够稳定地联合优化，OneVL 采用三阶段训练流程：

Stage 0（主模型预热）：训练主模型端到端进行轨迹预测，在每个训练样本中嵌入 latent tokens
Stage 1（辅助解码器预热）：冻结主模型，单独训练辅助解码器与稳定的 latent 表示对齐
Stage 2（联合端到端微调）：解冻所有组件，同时训练，两个解码器的梯度回流到主模型，形成良性循环

分阶段训练是必需的——消融实验显示，没有分阶段训练性能会崩溃到 67.13。

为什么值得知道¶

首个超越显式 CoT 的 Latent CoT 方法¶

OneVL 是首个在所有基准测试中超越显式 CoT 的 latent CoT 方法：

基准测试	OneVL	显式 CoT	提升
NAVSIM PDM-score	88.84	88.29	+0.55
ROADWork ADE	12.49	13.18	-5.2%
Impromptu ADE	1.34	1.42	-5.6%
APR1 ADE	2.62	2.99	-12.4%

同时保持 answer-only 的推理速度，在 NAVSIM 和 ROADWork 上同时实现了最低延迟和最佳指标。

模型集成的工程范例¶

OneVL²展示了如何巧妙地集成两个不同的预训练模型：

不重新训练视觉 tokenizer：直接使用 Emu3.5 预训练的 IBQ
最小化架构修改：仅扩展词汇表和添加辅助解码器
统一检查点管理：所有权重存储在同一 safetensors 文件中，通过前缀区分

这种集成策略为其他多模态模型融合提供了参考。

压缩驱动泛化的验证¶

OneVL 的实验结果验证了一个重要假设：通过合适的监督信号（world model），压缩后的表示可以比 verbose 的 token-by-token 推理更具泛化性。这对 latent CoT 的研究方向具有重要启示。

局限性¶

架构复杂度：双模态辅助解码器增加了训练和部署的复杂度
内存需求：推理时如需使用辅助解码器，需要 ≥16GB VRAM
领域特定：当前专注于自动驾驶场景，泛化到其他 VLA 任务需验证

参考资料¶

Jinghui Lu et al. Xiaomi OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation. arXiv:2604.18486. 2026. https://arxiv.org/abs/2604.18486 ↩
Xiaomi Research. OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanations. GitHub. 2025. https://github.com/xiaomi-research/onevl ↩
BAAI. Emu3: Next-Token Prediction is All You Need. GitHub. 2024. https://github.com/baaivision/Emu3 ↩
Qwen Team. Qwen3-VL: The Most Powerful Vision-Language Model in the Qwen Series. GitHub. 2025. https://github.com/QwenLM/Qwen3-VL ↩