当前位置:首页 > AI资讯 > 正文内容

百度DuMate登顶全球智能体榜单

admin2小时前AI资讯3

智能体时代的“执行力”之争:百度DuMate为何能登顶全球榜单?

在人工智能从“能说会道”迈向“能做事、办成事”的关键转折点上,一场关于智能体真实能力的较量正在悄然展开。5月8日凌晨,百度推出的AI助手“搭子”(DuMate)在智能体评测基准PinchBench中强势登顶,以93.3%和93.2%的综合成绩包揽前两名,并在前五席位中占据三席,一举超越Anthropic和OpenAI等国际顶尖团队,夺得“全球龙虾执行争霸赛”冠军。更令人瞩目的是,在另一项权威评测DeepResearch Bench中,DuMate同样位列第一。这不仅是技术实力的体现,更标志着智能体发展进入“执行力为王”的新阶段。

评测标准之变:从“语言能力”到“任务闭环”

过去,大模型的竞争焦点集中在语言理解、生成流畅度等“软实力”上,而如今,真正决定AI能否落地的,是其能否在复杂场景中完成多步推理、调用工具并实现任务闭环的“硬实力”。PinchBench正是为此而生——它模拟23个真实工作场景,涵盖147个具体任务,重点考察智能体在成功率、执行速度和成本效率三个维度的综合表现。

与传统评测不同,PinchBench强调“端到端”的任务完成能力。例如,用户提出“帮我整理上周会议纪要,并同步给项目组成员”,系统不仅需要理解指令,还需调用文档解析、信息提取、邮件发送等多个工具,并在过程中保持上下文连贯。这种“多跳推理+工具协同”的复杂流程,正是当前大多数AI助手难以逾越的鸿沟。

而DuMate以接近满分的成绩通过考验,说明其在任务拆解、工具调度与执行反馈机制上已具备行业领先水平。

端云协同架构:让模型“各司其职”

DuMate之所以能在相同底层模型条件下实现超越原生表现,关键在于其创新的端云协同Harness架构。这一系统并非简单地将计算任务全部上云,而是通过智能路由机制,实现“敏感操作本地化、复杂推理云端化”的动态分配。

当用户发起请求时,Harness首先进行意图识别与敏感度判断:涉及隐私的数据(如本地通讯录、相册)由设备端模型直接处理,确保信息安全;而需要大规模知识库支持或复杂逻辑推演的任务(如撰写行业分析报告),则无缝切换至云端高性能模型执行。整个过程无需用户干预,实现“无感切换”。

更重要的是,该系统具备上下文按需组装能力。它不会机械地加载全部历史对话,而是根据当前任务语义和用户行为模式,智能预判并注入最相关的背景信息。例如,在用户连续处理多个项目文档时,系统会自动关联近期修改记录、协作人员变动等关键信息,显著提升任务准确率。

这种“精准供给+动态调度”的机制,不仅降低了延迟与成本,更让不同规模的底层模型都能在接近其能力上限的状态下稳定运行。

深度研究引擎:从信息检索到洞察生成

在DeepResearch Bench评测中,DuMate以58.03分的综合成绩领跑,其背后是百度自研的双引擎架构——Deep Search与Deep Research。

Deep Search负责跨平台语义检索,能够穿透网页、PDF、数据库等多种格式,精准定位高价值信息片段;而Deep Research则在此基础上进行多轮推理与因果分析,将碎片化信息整合为结构化的研究报告,并附带逻辑链条与数据支撑。

例如,当用户提出“分析新能源汽车在欧洲市场的政策风险”时,系统不仅能快速抓取欧盟最新法规文本、行业白皮书和媒体报道,还能识别政策演变趋势、评估对产业链的影响,并生成具备可读性的分析摘要。这种“检索-分析-表达”一体化能力,正是当前多数AI工具所欠缺的。

持续进化与安全合规并重

自2026年3月上线以来,DuMate保持着“一天一版”的迭代节奏,展现出极强的工程化落地能力。更值得称道的是,其已通过中国信通院两项权威安全测评,均获得最高等级认证,体现了百度在AI安全治理方面的深厚积累。

在AI从“玩具”走向“生产力工具”的今天,DuMate的成功不仅是一次技术突破,更预示着智能体竞争的核心已从“谁更会聊天”转向“谁能真正解决问题”。未来,随着更多企业接入DuMate框架,一个高效、安全、可信赖的智能协作生态正在加速成型。

标签: 人工智能 智能体 百度DuMate PinchBench 端云协同

相关文章

阿里HappyOyster开启AI世界模型新纪元

从“生成”到“演化”:阿里HappyOyster开启世界模型新纪元 当大多数AI模型还在专注于“生成一段视频”时,阿里巴巴用一款名为HappyOyster(快乐生蚝)的产品,悄然将AI内容创作推向了下...

物理AI时代汽车芯片的颠覆性革命

从“控制轮子”到“整车智能体”:物理AI时代的芯片革命 当智能汽车从“会说话的轮子”迈向真正的“物理AI智能体”,一场底层架构的范式转移正在悄然发生。过去十年,智能驾驶的核心任务是“感知环境、规划路径...

机器人迎来GPT-3时刻:π0.7实现自主思考

机器人终于迎来了它的“GPT-3时刻” 当人们还在争论具身智能是否真的能走向通用时,Physical Intelligence(PI)用一款名为 π0.7 的VLA(视觉-语言-动作)模型,给出了一个...

Cursor 3重塑开发范式:智能体成代码主力

从“写代码”到“管智能体”:Cursor 3 如何重塑开发范式 当开发者还在适应 AI 辅助编程的“副驾驶”模式时,Anysphere 已经将 Cursor 推向了一个更激进的阶段——智能体优先。最新...

AI自主玩手机!ClawGUI打通训练评测部署全流程

当AI开始“玩手机”:从消消乐到真机操控的跨越 你见过AI自己玩消消乐吗?没有脚本、没有人工干预,它只是静静地看着屏幕,识别图案、规划路径、点击消除——整个过程流畅得如同一个熟练的玩家。更令人惊讶的是...

AI算力竞赛白热化:芯片到模型全面爆发

AI算力竞赛白热化:从芯片到模型的全面爆发 过去一周,全球人工智能领域迎来密集的技术突破与产业动态。从芯片巨头台积电的产能预警,到中国大模型企业DeepSeek估值破百亿,再到阿里、MiniMax等国...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。