百度DuMate登顶全球智能体榜单
智能体时代的“执行力”之争:百度DuMate为何能登顶全球榜单?
在人工智能从“能说会道”迈向“能做事、办成事”的关键转折点上,一场关于智能体真实能力的较量正在悄然展开。5月8日凌晨,百度推出的AI助手“搭子”(DuMate)在智能体评测基准PinchBench中强势登顶,以93.3%和93.2%的综合成绩包揽前两名,并在前五席位中占据三席,一举超越Anthropic和OpenAI等国际顶尖团队,夺得“全球龙虾执行争霸赛”冠军。更令人瞩目的是,在另一项权威评测DeepResearch Bench中,DuMate同样位列第一。这不仅是技术实力的体现,更标志着智能体发展进入“执行力为王”的新阶段。
评测标准之变:从“语言能力”到“任务闭环”
过去,大模型的竞争焦点集中在语言理解、生成流畅度等“软实力”上,而如今,真正决定AI能否落地的,是其能否在复杂场景中完成多步推理、调用工具并实现任务闭环的“硬实力”。PinchBench正是为此而生——它模拟23个真实工作场景,涵盖147个具体任务,重点考察智能体在成功率、执行速度和成本效率三个维度的综合表现。
与传统评测不同,PinchBench强调“端到端”的任务完成能力。例如,用户提出“帮我整理上周会议纪要,并同步给项目组成员”,系统不仅需要理解指令,还需调用文档解析、信息提取、邮件发送等多个工具,并在过程中保持上下文连贯。这种“多跳推理+工具协同”的复杂流程,正是当前大多数AI助手难以逾越的鸿沟。
而DuMate以接近满分的成绩通过考验,说明其在任务拆解、工具调度与执行反馈机制上已具备行业领先水平。
端云协同架构:让模型“各司其职”
DuMate之所以能在相同底层模型条件下实现超越原生表现,关键在于其创新的端云协同Harness架构。这一系统并非简单地将计算任务全部上云,而是通过智能路由机制,实现“敏感操作本地化、复杂推理云端化”的动态分配。
当用户发起请求时,Harness首先进行意图识别与敏感度判断:涉及隐私的数据(如本地通讯录、相册)由设备端模型直接处理,确保信息安全;而需要大规模知识库支持或复杂逻辑推演的任务(如撰写行业分析报告),则无缝切换至云端高性能模型执行。整个过程无需用户干预,实现“无感切换”。
更重要的是,该系统具备上下文按需组装能力。它不会机械地加载全部历史对话,而是根据当前任务语义和用户行为模式,智能预判并注入最相关的背景信息。例如,在用户连续处理多个项目文档时,系统会自动关联近期修改记录、协作人员变动等关键信息,显著提升任务准确率。
这种“精准供给+动态调度”的机制,不仅降低了延迟与成本,更让不同规模的底层模型都能在接近其能力上限的状态下稳定运行。
深度研究引擎:从信息检索到洞察生成
在DeepResearch Bench评测中,DuMate以58.03分的综合成绩领跑,其背后是百度自研的双引擎架构——Deep Search与Deep Research。
Deep Search负责跨平台语义检索,能够穿透网页、PDF、数据库等多种格式,精准定位高价值信息片段;而Deep Research则在此基础上进行多轮推理与因果分析,将碎片化信息整合为结构化的研究报告,并附带逻辑链条与数据支撑。
例如,当用户提出“分析新能源汽车在欧洲市场的政策风险”时,系统不仅能快速抓取欧盟最新法规文本、行业白皮书和媒体报道,还能识别政策演变趋势、评估对产业链的影响,并生成具备可读性的分析摘要。这种“检索-分析-表达”一体化能力,正是当前多数AI工具所欠缺的。
持续进化与安全合规并重
自2026年3月上线以来,DuMate保持着“一天一版”的迭代节奏,展现出极强的工程化落地能力。更值得称道的是,其已通过中国信通院两项权威安全测评,均获得最高等级认证,体现了百度在AI安全治理方面的深厚积累。
在AI从“玩具”走向“生产力工具”的今天,DuMate的成功不仅是一次技术突破,更预示着智能体竞争的核心已从“谁更会聊天”转向“谁能真正解决问题”。未来,随着更多企业接入DuMate框架,一个高效、安全、可信赖的智能协作生态正在加速成型。
标签: 人工智能 智能体 百度DuMate PinchBench 端云协同