当前位置:首页 > AI资讯 > 正文内容

谷歌Gemini Robotics-ER 1.6重塑工业机器人认知能力

admin4小时前AI资讯13

从“看见”到“看懂”:谷歌新一代机器人模型如何重塑工业场景

当波士顿动力的机器狗Spot在工厂中缓步前行,精准地停在压力表前,读取指针刻度并准确报出数值时,这不再是一场炫技的演示,而是机器人认知能力的一次质变。Google DeepMind最新发布的Gemini Robotics-ER 1.6,正是这场变革的核心引擎。作为主打空间推理的第三代模型,ER 1.6不仅让机器人“看见”世界,更让它们真正“看懂”世界。

看懂仪表:从拍照到理解

在过去,Spot能走到设备前拍下照片,但无法解读仪表盘上的数字。如今,ER 1.6通过三步实现精准读数:放大细节、定位指针与刻度、结合世界知识进行语义解释。例如,它能识别压力表上的微小刻度,计算出指针所指的精确值,并判断这是否超出安全阈值。

这一能力的关键突破在于成功率的大幅提升——从ER 1.5的23%跃升至93%。这背后是Agentic Vision技术的加持,使模型不仅能“看”,还能主动“思考”如何看。波士顿动力副总裁Marco da Silva指出,这种能力让Spot具备了在复杂工业环境中自主监控的潜力,真正实现“观察—理解—响应”的闭环。

Pointing:空间推理的基石

仪表识别的突破,依赖于ER系列长期打磨的核心能力——Pointing。简单来说,Pointing是让模型用“点”来精确表达其对空间中物体位置、数量和状态的认知。

在测试中,ER 1.5面对一张工具图时,错误地多算了一把锤子,漏掉了剪刀,甚至“虚构”出一辆手推车。而ER 1.6不仅能准确识别2把锤子、1把剪刀、6把钳子,还能拒绝指认图中不存在的事物。这种“不幻觉”的能力,是机器人可靠性的关键。

Pointing不仅是计数工具,更是机器人规划动作的基础。例如,当机械臂需要抓取某个物体时,ER 1.6能通过Pointing判断最佳抓取点,避免碰撞或滑脱。这种细粒度的空间理解,让机器人在真实世界中的操作更加稳健。

成功检测:知道何时“停下”

自主性的另一面,是知道何时停止。ER 1.6引入了多视角成功检测机制,能综合机器人头部、手腕等多个摄像头的画面,判断任务是否真正完成。

以“将蓝色笔放入黑色笔筒”为例,传统系统可能在笔尖刚接触笔筒时就判定成功。而ER 1.6会分析笔是否完全进入、是否倾斜、是否被遮挡,从而做出更可靠的判断。这种能力在工业质检、装配等场景中至关重要——错误的中止可能导致产品缺陷或设备损坏。

更值得称道的是,ER 1.6在安全性上的进步。它能通过空间推理判断是否涉及液体处理、是否搬运超重物体,并主动拒绝执行高风险指令。在对抗性测试中,其对安全规则的遵循度显著优于前代模型,成为谷歌迄今最安全的机器人“大脑”。

从“卖狗”到“回归”:谷歌的机器人战略转身

有趣的是,Spot与谷歌的关系颇具戏剧性。2013年谷歌收购波士顿动力,2017年因“缺乏商业闭环”将其出售。九年后,随着前CTO Aaron Saunders加入DeepMind,双方在现代汽车发布会上宣布合作,目标是将Gemini Robotics部署到Atlas人形机器人上。

哈萨比斯曾言,谷歌不做硬件,要成为“机器人领域的Android”。ER 1.6的发布,正是这一战略的落地——提供通用的高层推理能力,让不同厂商的机器人都能“聪明起来”。这种“大脑+身体”的分工模式,或将加速机器人技术的规模化应用。

从工厂巡检到危险环境作业,从物流分拣到家庭服务,ER 1.6所代表的空间推理能力,正在为机器人打开通往真实世界的大门。当机器不仅能执行指令,还能理解环境、判断状态、自主决策时,我们距离“具身智能”的真正落地,又近了一步。

标签: 人工智能 机器人 空间推理 谷歌DeepMind 具身智能

返回列表

上一篇:荣耀MagicBook开箱即用AI养虾本

没有最新的文章了...

相关文章

AI组队干活时代:Harness成关键引擎

当AI开始“组队干活”:Harness为何成为多智能体落地的关键引擎?在AI领域,一场静默却深刻的变革正在发生。从单智能体到群体协作,从“会写代码”到“能管项目”,AI Agent的能力边界正在被重新...

智算赋能教育:校企协同培养AI人才新范式

智算赋能教育:校企协同推动人工智能人才培养新范式在人工智能技术迅猛发展的今天,算力已不再是单纯的硬件指标,而是驱动科研创新与教育变革的核心引擎。4月9日,一场意义深远的合作在中国人民大学立德楼悄然落地...

OpenAI智能体新突破:自主执行与沙箱安全

从工具调用到自主执行:OpenAI 推动智能体开发新范式在人工智能技术不断演进的今天,智能体(Agents)正从简单的自动化脚本,迈向具备自主决策与复杂任务执行能力的“数字员工”。OpenAI 近期对...

腾讯混元3D模型2.0开启AI空间智能新纪元

从文字到世界:腾讯混元3D模型2.0开启空间智能新纪元 当一段文字描述“一座漂浮在云海中的未来城市,建筑由发光晶体构成,空中穿梭着磁悬浮列车”,你脑海中或许能浮现出模糊的画面。但如今,AI不仅能“看见...

中国AI日均调用量破140万亿

日均140万亿词元调用背后:中国AI商业化进入“高速车道” 4月16日,国家统计局在国新办新闻发布会上公布了一组令人瞩目的数据:截至今年3月,我国人工智能日均词元(Token)调用量已突破140万亿,...

2026年资本回归理性,谁真正被选中?

资本回归理性:2026年,谁真正被“选中”? 当潮水退去,谁在裸泳一目了然。2026年的创投市场,早已不再是那个靠PPT讲故事、靠烧钱抢份额的时代。资本褪去浮躁,回归理性;概念让位于落地,实效成为行业...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。