当前位置：首页 > AI资讯 > 正文内容

谷歌Gemini Robotics-ER 1.6重塑工业机器人认知能力

admin3个月前 (04-17)AI资讯217

从“看见”到“看懂”：谷歌新一代机器人模型如何重塑工业场景

当波士顿动力的机器狗Spot在工厂中缓步前行，精准地停在压力表前，读取指针刻度并准确报出数值时，这不再是一场炫技的演示，而是机器人认知能力的一次质变。Google DeepMind最新发布的Gemini Robotics-ER 1.6，正是这场变革的核心引擎。作为主打空间推理的第三代模型，ER 1.6不仅让机器人“看见”世界，更让它们真正“看懂”世界。

看懂仪表：从拍照到理解

在过去，Spot能走到设备前拍下照片，但无法解读仪表盘上的数字。如今，ER 1.6通过三步实现精准读数：放大细节、定位指针与刻度、结合世界知识进行语义解释。例如，它能识别压力表上的微小刻度，计算出指针所指的精确值，并判断这是否超出安全阈值。

这一能力的关键突破在于成功率的大幅提升——从ER 1.5的23%跃升至93%。这背后是Agentic Vision技术的加持，使模型不仅能“看”，还能主动“思考”如何看。波士顿动力副总裁Marco da Silva指出，这种能力让Spot具备了在复杂工业环境中自主监控的潜力，真正实现“观察—理解—响应”的闭环。

Pointing：空间推理的基石

仪表识别的突破，依赖于ER系列长期打磨的核心能力——Pointing。简单来说，Pointing是让模型用“点”来精确表达其对空间中物体位置、数量和状态的认知。

在测试中，ER 1.5面对一张工具图时，错误地多算了一把锤子，漏掉了剪刀，甚至“虚构”出一辆手推车。而ER 1.6不仅能准确识别2把锤子、1把剪刀、6把钳子，还能拒绝指认图中不存在的事物。这种“不幻觉”的能力，是机器人可靠性的关键。

Pointing不仅是计数工具，更是机器人规划动作的基础。例如，当机械臂需要抓取某个物体时，ER 1.6能通过Pointing判断最佳抓取点，避免碰撞或滑脱。这种细粒度的空间理解，让机器人在真实世界中的操作更加稳健。

成功检测：知道何时“停下”

自主性的另一面，是知道何时停止。ER 1.6引入了多视角成功检测机制，能综合机器人头部、手腕等多个摄像头的画面，判断任务是否真正完成。

以“将蓝色笔放入黑色笔筒”为例，传统系统可能在笔尖刚接触笔筒时就判定成功。而ER 1.6会分析笔是否完全进入、是否倾斜、是否被遮挡，从而做出更可靠的判断。这种能力在工业质检、装配等场景中至关重要——错误的中止可能导致产品缺陷或设备损坏。

更值得称道的是，ER 1.6在安全性上的进步。它能通过空间推理判断是否涉及液体处理、是否搬运超重物体，并主动拒绝执行高风险指令。在对抗性测试中，其对安全规则的遵循度显著优于前代模型，成为谷歌迄今最安全的机器人“大脑”。

从“卖狗”到“回归”：谷歌的机器人战略转身

有趣的是，Spot与谷歌的关系颇具戏剧性。2013年谷歌收购波士顿动力，2017年因“缺乏商业闭环”将其出售。九年后，随着前CTO Aaron Saunders加入DeepMind，双方在现代汽车发布会上宣布合作，目标是将Gemini Robotics部署到Atlas人形机器人上。

哈萨比斯曾言，谷歌不做硬件，要成为“机器人领域的Android”。ER 1.6的发布，正是这一战略的落地——提供通用的高层推理能力，让不同厂商的机器人都能“聪明起来”。这种“大脑+身体”的分工模式，或将加速机器人技术的规模化应用。

从工厂巡检到危险环境作业，从物流分拣到家庭服务，ER 1.6所代表的空间推理能力，正在为机器人打开通往真实世界的大门。当机器不仅能执行指令，还能理解环境、判断状态、自主决策时，我们距离“具身智能”的真正落地，又近了一步。

标签： 人工智能 机器人 空间推理 谷歌DeepMind 具身智能

标签: 机器人 Gemini 空间推理工业AI 视觉理解

返回列表

上一篇：荣耀MagicBook开箱即用AI养虾本

下一篇：极氪8X量产中国首款Grok+FSD车型

玖捌肆贰

谷歌Gemini Robotics-ER 1.6重塑工业机器人认知能力

从“看见”到“看懂”：谷歌新一代机器人模型如何重塑工业场景

看懂仪表：从拍照到理解

Pointing：空间推理的基石

成功检测：知道何时“停下”

从“卖狗”到“回归”：谷歌的机器人战略转身

相关文章

腾讯混元3D模型2.0开启AI空间智能新纪元

阿里云Qwen3.6-Max-Preview登顶国产大模型榜首

Kimi K2.6工程化突破：从做题到造系统

谷歌Gemini发布两款自主研究智能体

百度AI开发者大会聚焦智能体规模化落地

Hermes Agent：首个能自主成长的AI员工

发表评论

Copyright 玖捌肆贰（9842.cn） Rights Reserved.
豫ICP备06015505号-10

Powered By Z-BlogPHP. Theme by TOYEAN.

玖捌肆贰

谷歌Gemini Robotics-ER 1.6重塑工业机器人认知能力

从“看见”到“看懂”：谷歌新一代机器人模型如何重塑工业场景

看懂仪表：从拍照到理解

Pointing：空间推理的基石

成功检测：知道何时“停下”

从“卖狗”到“回归”：谷歌的机器人战略转身

相关文章

腾讯混元3D模型2.0开启AI空间智能新纪元

阿里云Qwen3.6-Max-Preview登顶国产大模型榜首

Kimi K2.6工程化突破：从做题到造系统

谷歌Gemini发布两款自主研究智能体

百度AI开发者大会聚焦智能体规模化落地

Hermes Agent：首个能自主成长的AI员工

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论