当前位置:首页 > AI资讯 > 正文内容

大模型刷爆考试,为何离真正智能更远?

admin2小时前AI资讯6

当大模型刷爆考试,我们却离真正的智能更远了

2025年,AI领域最吊诡的一幕正在上演:大模型在各类标准化测试中屡破纪录,从SAT到律师资格考试,几乎“刷爆”所有人类基准。然而,当被问及“9.11和9.9哪个大”时,它仍可能自信地回答“9.11更大”——因为“11比9大”。这看似荒诞的答案,恰恰撕开了当前AI发展路径的深层裂痕:我们正用规模堆砌出“伪智能”,却离真正的通用人工智能(AGI)越来越远。

AGI的“罗夏墨迹测试”:谁在定义终点?

黄仁勋说五年内实现AGI,马斯克宣称明年就能达成。这些豪言壮语背后,隐藏着一个令人不安的事实:AGI至今没有一把公认的“尺子”。OpenAI与微软的秘密协议中,AGI被定义为“能创造千亿美元利润的系统”;而在公众讨论中,它又常被简化为“像人一样思考的机器”。这种定义的混乱,正如罗夏墨迹测试——每个人看到的,只是自己心中的投影。

澳大利亚国立大学研究员Michael Timothy Bennett在近期论文中指出,当前AGI研究陷入了一种“人类中心主义”的陷阱:我们总在问“它像不像人”,却忘了智能的本质是在有限资源下适应新环境的能力。他提出,真正的AGI不应是“超级人类”,而应是一个“人工科学家”——能主动探索、理解因果、权衡探索与利用,并在现实约束下持续进化。

为什么大模型“高分低能”?

当前主流大模型的训练逻辑,本质上是“规模最大化的近似”:用海量数据和算力,把尽可能多的任务答案“预存”在神经网络权重中。这种模式在训练分布内表现惊艳,但一旦遇到分布外问题(如数字比较、逻辑推理),便立刻暴露其“知其然不知其所以然”的缺陷。

更关键的是,大模型缺乏主动能力。它无法像科学家一样设计实验、验证假设,也无法在“继续探索新知识”与“利用已有知识解决问题”之间做出权衡。它只是一个被动的模式匹配器,而非主动的认知主体。当环境变化时,它既不能自主获取新信息,也无法构建因果链条来解释异常现象。

Bennett强调,真正的智能必须包含三个核心维度:
1. 主动实验:能自主规划行动以获取关键信息;
2. 因果理解:能区分相关性与因果性,建立可解释的推理链条;
3. 资源权衡:在计算、记忆与能量限制下,动态分配资源以平衡探索与利用。

告别Scaling Law:通往AGI的新路径

基于上述框架,Bennett将当前AI发展路径拆解为三类元方法:
- Scale-maxing(规模最大化):依赖参数、数据与算力的无限堆叠,效率低下且不可持续;
- Simp-maxing(简单性最大化):追求极简模型,但牺牲了适应复杂任务的能力;
- Adapt-maxing(适应最大化):以“人工科学家”为目标,强调在约束条件下的主动适应能力。

显然,第三条路径才是通向AGI的正道。它不追求“全能”,而是聚焦于智能的本质功能——在不确定环境中持续学习与进化。这意味着未来的AI系统需要具备更强的因果推理模块、主动交互机制,以及资源感知的决策能力。

更重要的是,Bennett将“能量限制”写入AGI定义,划清了智能与算力的界限:一个需要消耗一座核电站才能解决新问题的系统,不过是昂贵的计算器,而非真正的智能体。

重绘起跑线:从模仿到创造

2025年,我们正站在AGI定义的十字路口。旧的标准——图灵测试、人类基准测试——已被大模型“刷爆”,却无法衡量真正的通用智能。Bennett提出的“人工科学家”框架,为行业提供了一把更具科学性和可操作性的新尺子。

它提醒我们:AGI不是更聪明的鹦鹉,而是能提出新问题、设计新实验、发现新规律的认知伙伴。未来的突破,或许不在于更大的模型,而在于更聪明的架构——那些能主动探索世界、理解因果关系,并在资源约束下优雅适应的系统。

当大模型仍在背诵答案时,真正的智能,已经开始思考“为什么”。

标签: AGI 人工智能 因果推理 主动学习 智能定义

相关文章

阿里HappyOyster开启AI世界模型新纪元

从“生成”到“演化”:阿里HappyOyster开启世界模型新纪元 当大多数AI模型还在专注于“生成一段视频”时,阿里巴巴用一款名为HappyOyster(快乐生蚝)的产品,悄然将AI内容创作推向了下...

物理AI时代汽车芯片的颠覆性革命

从“控制轮子”到“整车智能体”:物理AI时代的芯片革命 当智能汽车从“会说话的轮子”迈向真正的“物理AI智能体”,一场底层架构的范式转移正在悄然发生。过去十年,智能驾驶的核心任务是“感知环境、规划路径...

亚马逊云科技推出Agent注册表破解多云治理难题

当AI Agent泛滥成灾:亚马逊云科技用“注册表”破局多云治理难题 在AI驱动的数字化转型浪潮中,企业正以前所未有的速度构建和部署AI Agent。从客服助手到财务分析工具,从代码生成到跨系统自动化...

AI算力竞赛白热化:芯片到模型全面爆发

AI算力竞赛白热化:从芯片到模型的全面爆发 过去一周,全球人工智能领域迎来密集的技术突破与产业动态。从芯片巨头台积电的产能预警,到中国大模型企业DeepSeek估值破百亿,再到阿里、MiniMax等国...

Kimi K2.6工程化突破:从做题到造系统

从“做题”到“造系统”:Kimi K2.6 的工程化跃迁 4月20日深夜,月之暗面悄然发布并开源了其最新旗舰模型 Kimi K2.6。这并非一次常规的模型迭代,而是一场关于 AI 能力边界的重新定义。...

Qwen3.6-27B重塑本地AI编程新范式

稠密模型的“质变”时刻:Qwen3.6-27B 如何重塑本地 AI 编程的未来 在 AI 大模型领域,参数规模的军备竞赛曾一度主导行业叙事。然而,随着模型部署成本与推理效率的矛盾日益突出,“智能密度”...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。