StarVLA：模块化 VLA 研究平台与极简基线¶

背景知识

具身智能数据类型：机器人学习的通用四元组（图像、本体感知、动作、语言指令） → 详见
Flow Matching：条件流匹配，通过学习从噪声到目标分布的连续向量场来生成样本 → 详见
OpenPI：Physical Intelligence 的 VLA 框架，StarVLA 对标复现的核心方法之一 → 详见
具身智能数据归一化：state/action 的 z-score / min-max / 分位数方案 → 详见

属性	值
开发者	StarVLA Community / Von Neumann Institute, HKUST
GitHub	starVLA/starVLA（2K+ stars）
论文	arXiv:2604.05014（平台）、arXiv:2604.11757（StarVLA-α）
支持骨干	Qwen2.5-VL / Qwen3-VL（VLM）、Cosmos-Predict2 / Wan（World Model）
许可	CC BY 4.0

一句话定位：VLA 领域的「统一实验台」——将所有 VLA 方法分解为可独立替换的 Backbone + Action Head，四种动作解码范式共享同一数据接口和训练基础设施；StarVLA-α 在此平台上系统性验证「强 VLM + 极简 MLP head 即可匹敌复杂架构」¹²。

与预训练框架的区别：StarVLA 本身是研究代码框架，不是像 OpenPI / GR00T 那样提供重度预训练的 checkpoint。用户的典型工作流是：选一个现成 VLM（如 Qwen3-VL-4B）做 Backbone → 选一种 Action Head → 在目标任务数据上训练。StarVLA-α 的核心发现正是支撑这一定位的：强 VLM 本身已是足够好的初始化，不需要额外的大规模机器人预训练。不同机器人硬件原则上需要分别训练，但 Generalist 模式（动作向量 zero-pad 到统一维度联合训练）也能达到接近 Specialist 的效果。

核心设计：Backbone–Action Head 解耦¶

为什么需要解耦¶

VLA 领域存在严重碎片化：各方法架构不兼容、代码库紧耦合、评测协议不统一。StarVLA 提出一个统一抽象——将所有 VLA 方法分解为两个标准化组件，通过表征契约连接：

flowchart LR
    subgraph "VL Backbone"
        direction TB
        A["原始图像 + 语言指令"]
        B["hidden states<br/>[B, seq_len, D]"]
        A --> B
    end

    subgraph "Action Head"
        direction TB
        C["hidden states"]
        D["动作序列<br/>[B, chunk_len, action_dim]"]
        C --> D
    end

    B -->|"标准化表征契约"| C

关键设计决策：

统一 I/O 接口：training 和 inference 都消费与部署时完全一致的原始传感器数据（raw RGB + 语言字符串），避免 train/test 分布不匹配
双向模块化：Backbone 和 Action Head 各自可独立替换——换 Backbone 不影响 Action Head，反之亦然
统一训练目标：\(\mathcal{L} = \mathcal{L}_{\text{action}} + \mathcal{L}_{\text{aux}}\)，不同范式只是 \(\mathcal{L}_{\text{aux}}\) 的形式不同（VLM-based 加语言辅助目标，World-Model-based 加视频预测目标，Direct VLA 令 \(\mathcal{L}_{\text{aux}} = 0\)）

这个形式化引出 Generalized VLA 视角：VLM-based 和 World-Model-based 方法并非根本不同的范式，而是同一策略框架下不同归纳偏置的变体。

四种 Action Head 范式¶

所有变体共享相同的数据接口和基础设施，仅 Action Head 不同：

变体	解码方式	读取 VLM 层数	推理方式	对标
StarVLA-OFT	MLP 并行连续回归（L1 loss）	仅最后层	单次前向，最快	OpenVLA-OFT
StarVLA-FAST	自回归离散 token 预测	复用 VLM 自身	K 步自回归	π₀-FAST
StarVLA-π	逐层 Cross-DiT Flow Matching	所有层	T 步去噪，最慢	π₀
StarVLA-GR00T	单层 DiT Flow Matching（双系统）	仅最后层	T 步去噪	GR00T N1.5

技术要点：

OFT：VLM 序列中插入可学习 action query tokens，前向传播后提取其 hidden states，经 MLPResNet（24 blocks）直接回归连续动作向量
FAST：扩展 VLM 词表加入 FAST action tokens（如 Qwen3-VL-4B-Action），复用 LM head 自回归生成离散 token ID，再由 FAST tokenizer 解码回连续动作
GR00T：VLM hidden states 通过 cross-attention 条件注入独立的 DiT，DiT 对拼接的 state embedding + learnable future tokens + action embedding 做 flow matching 去噪。噪声用 Beta 分布采样，训练目标为 velocity field MSE
PI：与 GR00T 类似但更重——DiT 的每一层 block 分别与 VLM 对应层的 hidden states 做 cross-attention，浅层获得低级视觉特征，深层获得高级语义

World Model 骨干支持¶

同一 Action Head 抽象也适用于 World Model 骨干（Cosmos-Predict2、Wan 2.2）。此时 VL Backbone 替换为视频扩散 DiT，Action Head 读取 DiT 的中间表示而非 VLM hidden states，形成 7 种组合（3 种 head × 2 种 WM backbone + 1 种通用 WM-OFT）。

StarVLA-α：极简基线的反直觉发现¶

StarVLA-α 刻意最小化架构复杂度——Qwen3-VL-4B + MLP action head + z-score 归一化 + 无额外预训练——然后沿三个轴做系统性消融²。

发现一：Action Head 复杂度收益有限¶

方法	LIBERO avg	SimplerEnv WidowX	RoboTwin clean	RoboCasa-GR1
StarVLA-α (MLP)	98.8	64.6	88.2	53.8
StarVLA-α-FAST	97.8	35.6	72.5	45.0
StarVLA-α-GR00T	98.7	65.3	88.0	52.8
StarVLA-α-π	98.1	65.9	88.1	48.9

结论：连续动作预测一致优于离散 token（FAST 落后明显）。但三种连续 head（MLP / GR00T / PI）表现相近——VLM backbone 足够强时，轻量 MLP 就是高效且有竞争力的默认选择，额外的 Flow Matching 迭代去噪没有"雕刻"出更多有用信号。

发现二：Robot-Specific 预训练是双刃剑¶

预训练数据	RoboTwin Clean	RoboCasa-GR1
无预训练（直接微调 Qwen3-VL）	88.2	53.8
+ OXE（大规模跨域异构）	83.6	27.8
+ InternData-A1（部分同域）	88.6	35.4
+ RoboTwin-Rand（完全同域）	88.8	33.3

结论：OXE 跨域预训练反而损害性能。同域预训练在低数据场景有帮助，但会损害跨 embodiment 泛化（RoboCasa 大幅下降）。强 VLM 本身已是足够好的初始化，额外的 action-specific 预训练需审慎权衡。

发现三：数据工程在充足数据下收益消失¶

技术	LIBERO avg	RoboTwin (+500 Random)	RoboCasa (24×1000)
基线（无工程）	98.8	88.2	53.8
+ 本体感觉输入	98.5	88.0	54.2
+ 历史帧堆叠	97.8	87.4	52.6
+ Delta action	98.1	85.6	54.8
+ Relative action	98.7	87.3	55.5

结论：Proprioception、history frames、delta/relative action 在低数据时有小幅提升，但数据充足时几乎无额外收益。

跨 Embodiment 泛化：极简方案胜出¶

StarVLA-α 不使用 RDT Action space 或 Multi-Action Head，而是将所有 embodiment 的动作向量 zero-pad 到统一 32 维。这个极简策略在 RoboCasa-GR1 和 Google VM 上分别比复杂方案高 4.8% 和 2.9%：

方法	LIBERO avg	Google VM	RoboCasa-GR1
RDT Action	97.2	71.4	52.3
Multi Action Head	97.2	67.8	53.5
Simple Padding	97.8	74.3	57.3

其他发现¶

模型规模：4B 参数即足够，8B 相比 4B 提升 < 1%
Batch size 关键：512+ 的大 batch 防止局部最优，是泛化的关键因素
真实世界：单一 generalist 模型在 RoboChallenge（ARX5 机器人，11 个任务）上达到 33.6% SR / 54.5 progress score，大幅超越 π₀.₅（12.7% / 27.6）

Model Zoo 与命名规则¶

命名格式¶

Checkpoint 命名遵循 {Backbone}-{ActionHead}-{训练数据} 格式，所有模型托管在 HuggingFace StarVLA 组织下（27 个模型）。其中训练数据名称来自 VLA 领域的标准数据集：

Bridge：BridgeData V2（UC Berkeley），53,896 条轨迹，WidowX 250 桌面机械臂，24 种环境
RT-1（又名 Fractal）：Google DeepMind 的 RT-1 数据集（内部代号 fractal20220817_data），~130k 条轨迹，Google Robot 移动平台，700+ 种任务
LIBERO-4in1：LIBERO 仿真 benchmark 的四个子集联合训练（libero_10 + goal + object + spatial）
Robotwin2 / RoboTwin2-All：RoboTwin 2.0 双臂仿真 benchmark
Calvin_D_D：CALVIN 长时序桌面操控 benchmark

VLM Backbone 变体¶

FAST action head 需要扩展 VLM 词表以加入 action tokens，StarVLA 提供了两个修改版 VLM（权重不变，仅扩词表）：

HuggingFace ID	说明
`StarVLA/Qwen2.5-VL-3B-Instruct-Action`	Qwen2.5-VL + 2048 action tokens
`StarVLA/Qwen3-VL-4B-Instruct-Action`	Qwen3-VL + 2048 action tokens

VLM-based Checkpoints（代表性）¶

HuggingFace ID	Backbone	Action Head	训练数据
`StarVLA/QWen2.5-FAST-Bridge-RT-1`	Qwen2.5-VL	FAST	Bridge + Fractal
`StarVLA/QWen2.5-OFT-Bridge-RT-1`	Qwen2.5-VL	OFT (MLP)	Bridge + Fractal
`StarVLA/QWen2.5-PI-Bridge-RT-1`	Qwen2.5-VL	PI	Bridge + Fractal
`StarVLA/QWen2.5-GR00T-Bridge-RT-1`	Qwen2.5-VL	GR00T	Bridge + Fractal
`StarVLA/QWen3VL-OFT-Bridge-RT-1`	Qwen3-VL	OFT (MLP)	Bridge + Fractal
`StarVLA/QWen3VL-GR00T-Bridge-RT-1`	Qwen3-VL	GR00T	Bridge + Fractal
`StarVLA/Qwen3VL-PI_v3-Bridge-RT_1`	Qwen3-VL	PI v3	Bridge + Fractal
`StarVLA/Qwen3-VL-OFT-LIBERO-4in1`	Qwen3-VL	OFT (MLP)	LIBERO 4-in-1
`StarVLA/Qwen3-VL-PI-LIBERO-4in1`	Qwen3-VL	PI	LIBERO 4-in-1
`StarVLA/Qwen3-VL-OFT-RoboTwin2-All`	Qwen3-VL	OFT (MLP)	RoboTwin 2.0

World Model-based Checkpoints¶

HuggingFace ID	Backbone	Action Head	训练数据
`StarVLA/WM4A-CosmoPredict-GR00T-LIBERO-4in1`	Cosmos-Predict2-2B	GR00T	LIBERO 4-in-1

这些 checkpoint 是在特定 benchmark 上训练的示例配方，用于复现论文结果和作为下游研究的起点，不是通用部署模型。

与现有框架的定位对比¶

维度	OpenPI	τ₀-WM	StarVLA
核心定位	预训练 VLA 的微调框架	视频-动作联合世界模型	VLA 方法的统一实验平台
Backbone	PaliGemma（固定）	Wan 2.2（固定）	Qwen-VL / Cosmos / Wan（可换）
Action Head	Flow Matching / FAST（固定）	Layer-wise cross-attn（固定）	四种可插拔
模块化	数据管线模块化	模态级监督掩码	Backbone + Head 双向可替换
核心贡献	微调管线 + 位置语义	异构数据利用 + 推理时计算	统一抽象 + 消融发现

参考资料¶

StarVLA Community. StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing. 2026. https://arxiv.org/abs/2604.05014 ↩
Ye et al. StarVLA-α: Reducing Complexity in Vision-Language-Action Systems. 2026. https://arxiv.org/abs/2604.11757 ↩↩