当前位置:首页 > AI资讯 > 正文内容

具身智能新突破:让AI从“看懂”到“做对”

admin2小时前AI资讯17

从“看懂”到“做对”:具身智能的决策跃迁

长久以来,人工智能在视觉理解领域取得了显著进展,从识别物体到解析场景,模型已经能够“看懂”世界。然而,真正的挑战在于如何让 AI 不仅理解环境,还能在此基础上做出合理决策——这正是具身智能(Embodied AI)的核心目标。近日,北京大学与星源智团队联合推出的 EQA-Decision 数据集与 RoboDecision 训练框架,为这一难题提供了突破性解决方案,首次将具身问答从静态感知拓展至动态决策,实现了“先想后做”的智能跃迁。

四大推理维度:构建完整的具身认知链条

传统具身问答数据集往往存在“偏科”问题:有的专注于空间关系识别,有的侧重任务流程描述,却鲜有能同时覆盖场景理解、空间推理、任务动态推理和实时决策的系统性数据。EQA-Decision 的出现填补了这一空白。该数据集包含超过 400 万对多模态问答样本,来源涵盖模拟环境、图像、第一人称视频及真实机器人轨迹,确保数据的多样性与现实贴近性。

更重要的是,数据被划分为四个递进式推理模块:

  • 静态场景构建:识别物体是否存在、状态如何、数量多少及位置分布;
  • 空间理解:从深度方向、定位指代、行动可行性三个角度解析空间关系;
  • 任务动态推理:引入时间维度,支持子任务规划、状态跟踪与进度估计;
  • 即时决策:聚焦机器人在动态环境中的实时动作选择。

其中,任务动态推理与即时决策是此前研究几乎未触及的领域。这意味着模型不再只是回答“这是什么”,而是学会思考“接下来该做什么”。

三阶段训练:让模型学会“先想后做”

仅有高质量数据并不足以训练出强决策能力。为此,团队提出 RoboDecision 框架,以 Qwen3-VL-8B 为基座,设计了三阶段渐进式训练流程,逐步引导模型从“感知”走向“决策”。

第一阶段:监督微调(SFT)
通过在四大模块上均匀采样数据,并使用 LoRA 技术微调语言与融合层,模型初步掌握具身任务的基本知识结构。

第二阶段:思维链监督微调(CoT-SFT)
团队从数据集中抽取约 10% 的样本,利用 Gemini-2.5-Pro 生成包含完整推理路径的思维链标注。这一过程迫使模型显式地展示“如何从观察推导出答案”,从而建立多步逻辑推理能力。

第三阶段:强化学习微调(GRPO)
这是最具创新性的环节。团队设计了一个混合奖励函数,包含三项关键指标:
- 推理奖励:衡量生成推理链与参考答案的语义一致性;
- 答案奖励:对自由文本采用语义相似度,对结构化输出(如坐标)采用规则匹配;
- 视觉一致性奖励:利用 OpenCLIP 确保推理过程与图像内容对齐,防止模型依赖文本先验“脑补”答案。

这套机制有效抑制了“幻觉式推理”,使模型真正基于视觉输入做出判断,实现“看图决策”。

性能碾压:RoboDecision-8B 全面领先

在包含 2118 条样本的 EQA-Decision Benchmark 上,RoboDecision-8B 取得了 68.06 分的综合成绩,远超 Qwen3-VL-8B-Instruct 的 48.84 分,甚至接近 RoboBrain-7B-2.0 的两倍。更令人瞩目的是,在指代定位任务中,RoboDecision 得分高达 68.12,而 Qwen3-VL-8B-Thinking 仅为 23.14——差距源于视觉一致性奖励强制模型锚定像素信息,而非依赖语言模式猜测。

在最具挑战性的即时决策任务中,RoboDecision 以 69.93 分超越 GPT-5 的 62.25 分,证明其在动态环境下的决策能力已具备国际领先水平。此外,在 RoboVQA、ERQA、Where2Place 等外部基准测试中,该模型同样表现优异,展现出强大的泛化能力。

结语:迈向“感知-决策”一体化的新范式

EQA-Decision 与 RoboDecision 的提出,标志着具身智能研究正从“静态体检”迈向“动态实战”。通过系统整合四大推理维度,并引入融合视觉一致性的强化学习机制,这项工作不仅提供了一个高质量的大规模数据集,更构建了一套可复用的训练范式。

未来,随着更多类似框架的出现,“从感知到决策”的一体化训练很可能成为具身智能研究的标配。当 AI 不仅能看懂世界,还能在复杂环境中自主规划、实时响应时,我们距离真正意义上的智能体又近了一步。

标签: 具身智能 EQA-Decision RoboDecision 多模态推理 强化学习微调

相关文章

腾讯云一键部署Hermes Agent智能体模板

云端智能体部署进入“一键时代”:腾讯轻量云首发 Hermes Agent 模板在 AI 应用快速落地的当下,开发者面临的最大挑战之一,是如何将前沿的智能体框架高效、低成本地部署到生产环境中。4 月 1...

机器人迎来GPT-3时刻:π0.7实现自主思考

机器人终于迎来了它的“GPT-3时刻” 当人们还在争论具身智能是否真的能走向通用时,Physical Intelligence(PI)用一款名为 π0.7 的VLA(视觉-语言-动作)模型,给出了一个...

谷歌开源Gemma 4重塑轻量级智能体生态

谷歌开源新里程碑:Gemma 4 如何重塑轻量级智能体生态 在开源大模型领域,谷歌再次迈出关键一步。最新发布的 Gemma 4 系列不仅延续了前代对轻量化与高性能的追求,更通过引入多模态能力、智能体原...

广汽2026科技日发布星灵架构4.0

从底层重构智能出行:广汽2026科技日的硬核突破 当智能汽车竞争进入深水区,真正的较量早已不是单一功能的堆砌,而是底层架构与核心技术的系统性突破。4月12日,2026广汽科技日在番禺总部拉开帷幕,以“...

高德发布全球首款开放环境全自主具身机器人

从地图到机器人:高德如何用“ABot”打开AGI新世界的大门? 在大多数人眼中,高德地图是导航、是出行助手,是城市交通的智能“大脑”。但4月19日,在北京亦庄机器人半程马拉松的赛场上,高德用一场震撼的...

AI自主玩手机!ClawGUI打通训练评测部署全流程

当AI开始“玩手机”:从消消乐到真机操控的跨越 你见过AI自己玩消消乐吗?没有脚本、没有人工干预,它只是静静地看着屏幕,识别图案、规划路径、点击消除——整个过程流畅得如同一个熟练的玩家。更令人惊讶的是...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。