当前位置:首页 > AI资讯 > 正文内容

谷歌Gemini Robotics-ER 1.6重塑工业机器人认知能力

admin2个月前 (04-17)AI资讯136

从“看见”到“看懂”:谷歌新一代机器人模型如何重塑工业场景

当波士顿动力的机器狗Spot在工厂中缓步前行,精准地停在压力表前,读取指针刻度并准确报出数值时,这不再是一场炫技的演示,而是机器人认知能力的一次质变。Google DeepMind最新发布的Gemini Robotics-ER 1.6,正是这场变革的核心引擎。作为主打空间推理的第三代模型,ER 1.6不仅让机器人“看见”世界,更让它们真正“看懂”世界。

看懂仪表:从拍照到理解

在过去,Spot能走到设备前拍下照片,但无法解读仪表盘上的数字。如今,ER 1.6通过三步实现精准读数:放大细节、定位指针与刻度、结合世界知识进行语义解释。例如,它能识别压力表上的微小刻度,计算出指针所指的精确值,并判断这是否超出安全阈值。

这一能力的关键突破在于成功率的大幅提升——从ER 1.5的23%跃升至93%。这背后是Agentic Vision技术的加持,使模型不仅能“看”,还能主动“思考”如何看。波士顿动力副总裁Marco da Silva指出,这种能力让Spot具备了在复杂工业环境中自主监控的潜力,真正实现“观察—理解—响应”的闭环。

Pointing:空间推理的基石

仪表识别的突破,依赖于ER系列长期打磨的核心能力——Pointing。简单来说,Pointing是让模型用“点”来精确表达其对空间中物体位置、数量和状态的认知。

在测试中,ER 1.5面对一张工具图时,错误地多算了一把锤子,漏掉了剪刀,甚至“虚构”出一辆手推车。而ER 1.6不仅能准确识别2把锤子、1把剪刀、6把钳子,还能拒绝指认图中不存在的事物。这种“不幻觉”的能力,是机器人可靠性的关键。

Pointing不仅是计数工具,更是机器人规划动作的基础。例如,当机械臂需要抓取某个物体时,ER 1.6能通过Pointing判断最佳抓取点,避免碰撞或滑脱。这种细粒度的空间理解,让机器人在真实世界中的操作更加稳健。

成功检测:知道何时“停下”

自主性的另一面,是知道何时停止。ER 1.6引入了多视角成功检测机制,能综合机器人头部、手腕等多个摄像头的画面,判断任务是否真正完成。

以“将蓝色笔放入黑色笔筒”为例,传统系统可能在笔尖刚接触笔筒时就判定成功。而ER 1.6会分析笔是否完全进入、是否倾斜、是否被遮挡,从而做出更可靠的判断。这种能力在工业质检、装配等场景中至关重要——错误的中止可能导致产品缺陷或设备损坏。

更值得称道的是,ER 1.6在安全性上的进步。它能通过空间推理判断是否涉及液体处理、是否搬运超重物体,并主动拒绝执行高风险指令。在对抗性测试中,其对安全规则的遵循度显著优于前代模型,成为谷歌迄今最安全的机器人“大脑”。

从“卖狗”到“回归”:谷歌的机器人战略转身

有趣的是,Spot与谷歌的关系颇具戏剧性。2013年谷歌收购波士顿动力,2017年因“缺乏商业闭环”将其出售。九年后,随着前CTO Aaron Saunders加入DeepMind,双方在现代汽车发布会上宣布合作,目标是将Gemini Robotics部署到Atlas人形机器人上。

哈萨比斯曾言,谷歌不做硬件,要成为“机器人领域的Android”。ER 1.6的发布,正是这一战略的落地——提供通用的高层推理能力,让不同厂商的机器人都能“聪明起来”。这种“大脑+身体”的分工模式,或将加速机器人技术的规模化应用。

从工厂巡检到危险环境作业,从物流分拣到家庭服务,ER 1.6所代表的空间推理能力,正在为机器人打开通往真实世界的大门。当机器不仅能执行指令,还能理解环境、判断状态、自主决策时,我们距离“具身智能”的真正落地,又近了一步。

标签: 人工智能 机器人 空间推理 谷歌DeepMind 具身智能

相关文章

浏览器进化为AI智能代理

浏览器进化史:从信息窗口到智能代理曾几何时,浏览器只是我们打开网页、浏览信息的工具。输入网址,点击跳转,获取内容——这就是它的全部使命。然而,随着人工智能的迅猛发展,浏览器正悄然经历一场深刻的变革:它...

腾讯混元3D模型2.0开启AI空间智能新纪元

从文字到世界:腾讯混元3D模型2.0开启空间智能新纪元 当一段文字描述“一座漂浮在云海中的未来城市,建筑由发光晶体构成,空中穿梭着磁悬浮列车”,你脑海中或许能浮现出模糊的画面。但如今,AI不仅能“看见...

阿里HappyOyster开启AI世界模型新纪元

从“生成”到“演化”:阿里HappyOyster开启世界模型新纪元 当大多数AI模型还在专注于“生成一段视频”时,阿里巴巴用一款名为HappyOyster(快乐生蚝)的产品,悄然将AI内容创作推向了下...

AI编程助手竟成黑客入口

当AI开始“听话”:一场由PR标题引发的安全风暴 在AI编程助手逐渐渗透开发流程的今天,我们正面临一个令人不安的现实:最危险的攻击,可能不是来自代码本身,而是来自一条看似无害的Pull Request...

JiuwenClaw开启协同工程新时代

从“驯服”到“协同”:AI工程范式的下一站 AI工程的发展正经历一场静默却深刻的范式迁移。从早期的 Prompt Engineering,到强调上下文构建的 Context Engineering,再...

ISC.AI 2026大赛开启智能体创新新纪元

智能体浪潮下的创新沙盒:ISC.AI 2026大赛开启AI生态新纪元 当人工智能从“模型竞争”迈向“智能体落地”,一场关于技术、安全与生态的深层变革正在悄然展开。4月20日,ISC.AI 2026创新...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。