具身智能新突破:让AI从“看懂”到“做对”
从“看懂”到“做对”:具身智能的决策跃迁
长久以来,人工智能在视觉理解领域取得了显著进展,从识别物体到解析场景,模型已经能够“看懂”世界。然而,真正的挑战在于如何让 AI 不仅理解环境,还能在此基础上做出合理决策——这正是具身智能(Embodied AI)的核心目标。近日,北京大学与星源智团队联合推出的 EQA-Decision 数据集与 RoboDecision 训练框架,为这一难题提供了突破性解决方案,首次将具身问答从静态感知拓展至动态决策,实现了“先想后做”的智能跃迁。
四大推理维度:构建完整的具身认知链条
传统具身问答数据集往往存在“偏科”问题:有的专注于空间关系识别,有的侧重任务流程描述,却鲜有能同时覆盖场景理解、空间推理、任务动态推理和实时决策的系统性数据。EQA-Decision 的出现填补了这一空白。该数据集包含超过 400 万对多模态问答样本,来源涵盖模拟环境、图像、第一人称视频及真实机器人轨迹,确保数据的多样性与现实贴近性。
更重要的是,数据被划分为四个递进式推理模块:
- 静态场景构建:识别物体是否存在、状态如何、数量多少及位置分布;
- 空间理解:从深度方向、定位指代、行动可行性三个角度解析空间关系;
- 任务动态推理:引入时间维度,支持子任务规划、状态跟踪与进度估计;
- 即时决策:聚焦机器人在动态环境中的实时动作选择。
其中,任务动态推理与即时决策是此前研究几乎未触及的领域。这意味着模型不再只是回答“这是什么”,而是学会思考“接下来该做什么”。
三阶段训练:让模型学会“先想后做”
仅有高质量数据并不足以训练出强决策能力。为此,团队提出 RoboDecision 框架,以 Qwen3-VL-8B 为基座,设计了三阶段渐进式训练流程,逐步引导模型从“感知”走向“决策”。
第一阶段:监督微调(SFT)
通过在四大模块上均匀采样数据,并使用 LoRA 技术微调语言与融合层,模型初步掌握具身任务的基本知识结构。
第二阶段:思维链监督微调(CoT-SFT)
团队从数据集中抽取约 10% 的样本,利用 Gemini-2.5-Pro 生成包含完整推理路径的思维链标注。这一过程迫使模型显式地展示“如何从观察推导出答案”,从而建立多步逻辑推理能力。
第三阶段:强化学习微调(GRPO)
这是最具创新性的环节。团队设计了一个混合奖励函数,包含三项关键指标:
- 推理奖励:衡量生成推理链与参考答案的语义一致性;
- 答案奖励:对自由文本采用语义相似度,对结构化输出(如坐标)采用规则匹配;
- 视觉一致性奖励:利用 OpenCLIP 确保推理过程与图像内容对齐,防止模型依赖文本先验“脑补”答案。
这套机制有效抑制了“幻觉式推理”,使模型真正基于视觉输入做出判断,实现“看图决策”。
性能碾压:RoboDecision-8B 全面领先
在包含 2118 条样本的 EQA-Decision Benchmark 上,RoboDecision-8B 取得了 68.06 分的综合成绩,远超 Qwen3-VL-8B-Instruct 的 48.84 分,甚至接近 RoboBrain-7B-2.0 的两倍。更令人瞩目的是,在指代定位任务中,RoboDecision 得分高达 68.12,而 Qwen3-VL-8B-Thinking 仅为 23.14——差距源于视觉一致性奖励强制模型锚定像素信息,而非依赖语言模式猜测。
在最具挑战性的即时决策任务中,RoboDecision 以 69.93 分超越 GPT-5 的 62.25 分,证明其在动态环境下的决策能力已具备国际领先水平。此外,在 RoboVQA、ERQA、Where2Place 等外部基准测试中,该模型同样表现优异,展现出强大的泛化能力。
结语:迈向“感知-决策”一体化的新范式
EQA-Decision 与 RoboDecision 的提出,标志着具身智能研究正从“静态体检”迈向“动态实战”。通过系统整合四大推理维度,并引入融合视觉一致性的强化学习机制,这项工作不仅提供了一个高质量的大规模数据集,更构建了一套可复用的训练范式。
未来,随着更多类似框架的出现,“从感知到决策”的一体化训练很可能成为具身智能研究的标配。当 AI 不仅能看懂世界,还能在复杂环境中自主规划、实时响应时,我们距离真正意义上的智能体又近了一步。
标签: 具身智能 EQA-Decision RoboDecision 多模态推理 强化学习微调