大模型刷爆考试,为何离真正智能更远?
当大模型刷爆考试,我们却离真正的智能更远了
2025年,AI领域最吊诡的一幕正在上演:大模型在各类标准化测试中屡破纪录,从SAT到律师资格考试,几乎“刷爆”所有人类基准。然而,当被问及“9.11和9.9哪个大”时,它仍可能自信地回答“9.11更大”——因为“11比9大”。这看似荒诞的答案,恰恰撕开了当前AI发展路径的深层裂痕:我们正用规模堆砌出“伪智能”,却离真正的通用人工智能(AGI)越来越远。
AGI的“罗夏墨迹测试”:谁在定义终点?
黄仁勋说五年内实现AGI,马斯克宣称明年就能达成。这些豪言壮语背后,隐藏着一个令人不安的事实:AGI至今没有一把公认的“尺子”。OpenAI与微软的秘密协议中,AGI被定义为“能创造千亿美元利润的系统”;而在公众讨论中,它又常被简化为“像人一样思考的机器”。这种定义的混乱,正如罗夏墨迹测试——每个人看到的,只是自己心中的投影。
澳大利亚国立大学研究员Michael Timothy Bennett在近期论文中指出,当前AGI研究陷入了一种“人类中心主义”的陷阱:我们总在问“它像不像人”,却忘了智能的本质是在有限资源下适应新环境的能力。他提出,真正的AGI不应是“超级人类”,而应是一个“人工科学家”——能主动探索、理解因果、权衡探索与利用,并在现实约束下持续进化。
为什么大模型“高分低能”?
当前主流大模型的训练逻辑,本质上是“规模最大化的近似”:用海量数据和算力,把尽可能多的任务答案“预存”在神经网络权重中。这种模式在训练分布内表现惊艳,但一旦遇到分布外问题(如数字比较、逻辑推理),便立刻暴露其“知其然不知其所以然”的缺陷。
更关键的是,大模型缺乏主动能力。它无法像科学家一样设计实验、验证假设,也无法在“继续探索新知识”与“利用已有知识解决问题”之间做出权衡。它只是一个被动的模式匹配器,而非主动的认知主体。当环境变化时,它既不能自主获取新信息,也无法构建因果链条来解释异常现象。
Bennett强调,真正的智能必须包含三个核心维度:
1. 主动实验:能自主规划行动以获取关键信息;
2. 因果理解:能区分相关性与因果性,建立可解释的推理链条;
3. 资源权衡:在计算、记忆与能量限制下,动态分配资源以平衡探索与利用。
告别Scaling Law:通往AGI的新路径
基于上述框架,Bennett将当前AI发展路径拆解为三类元方法:
- Scale-maxing(规模最大化):依赖参数、数据与算力的无限堆叠,效率低下且不可持续;
- Simp-maxing(简单性最大化):追求极简模型,但牺牲了适应复杂任务的能力;
- Adapt-maxing(适应最大化):以“人工科学家”为目标,强调在约束条件下的主动适应能力。
显然,第三条路径才是通向AGI的正道。它不追求“全能”,而是聚焦于智能的本质功能——在不确定环境中持续学习与进化。这意味着未来的AI系统需要具备更强的因果推理模块、主动交互机制,以及资源感知的决策能力。
更重要的是,Bennett将“能量限制”写入AGI定义,划清了智能与算力的界限:一个需要消耗一座核电站才能解决新问题的系统,不过是昂贵的计算器,而非真正的智能体。
重绘起跑线:从模仿到创造
2025年,我们正站在AGI定义的十字路口。旧的标准——图灵测试、人类基准测试——已被大模型“刷爆”,却无法衡量真正的通用智能。Bennett提出的“人工科学家”框架,为行业提供了一把更具科学性和可操作性的新尺子。
它提醒我们:AGI不是更聪明的鹦鹉,而是能提出新问题、设计新实验、发现新规律的认知伙伴。未来的突破,或许不在于更大的模型,而在于更聪明的架构——那些能主动探索世界、理解因果关系,并在资源约束下优雅适应的系统。
当大模型仍在背诵答案时,真正的智能,已经开始思考“为什么”。
标签: AGI 人工智能 因果推理 主动学习 智能定义