当前位置:首页 > AI资讯 > 正文内容

22岁开发者逆推Claude Mythos架构

admin2个月前 (04-21)AI资讯95

当“堆参数”遇上“循环思考”:22岁开发者逆推Claude Mythos架构

在AI大模型领域,“更大即更好”曾是颠扑不破的真理。千亿参数、万亿参数……模型规模一路狂飙,算力成本也随之水涨船高。然而,当Anthropic的Claude系列凭借高效推理能力引发关注,其内部代号为“Mythos”的神秘架构却始终笼罩在迷雾之中。直到最近,一位年仅22岁的开发者Kye Gomez,用一场大胆的开源行动,撕开了这层神秘面纱的一角。

他发布的OpenMythos项目,并非官方泄露,而是一次基于公开研究与主流推测的“逆向工程”。更令人惊讶的是,这套被业界猜测为“过于危险而被封印”的架构,其核心思想竟如此简洁而深刻:不堆参数,堆循环

循环深度Transformer:让模型“多想几遍”

传统Transformer架构依赖上百层堆叠,每层学习不同特征,参数量呈指数级增长。而Kye Gomez提出的循环深度Transformer(Recurrent-Depth Transformer, RDT),彻底颠覆了这一范式。

RDT的核心机制极为巧妙:仅用几层基础结构,通过最多16次循环迭代,完成原本需要上百层才能实现的深度推理。每一次循环,模型都基于前一轮的结果进行再计算,形成“思考—反馈—再思考”的闭环。这种设计不仅大幅降低参数量,还让模型具备了“逐步深化理解”的能力。

更关键的是,这16次循环并非简单重复。每次迭代中,系统会通过混合专家(MoE)路由机制激活不同的专家子网络。这意味着,每一次“思考”都走的是不同的知识路径,从而避免陷入无效循环。

MoE + 循环:广度与深度的双重突破

RDT的成功,离不开对DeepSeekMoE架构的借鉴与优化。Kye Gomez采用了细粒度专家+共享专家的设计:大量专家负责处理特定领域任务,少数共享专家则始终在线,确保基础语义连贯性。

这种设计实现了“MoE提供领域知识的广度,循环提供推理的深度”的协同效应。例如,在回答一个复杂逻辑问题时,模型可能第一轮调用数学专家,第二轮调用语言推理专家,第三轮调用常识验证专家——每一次循环都像一次“思维跃迁”。

此外,为防止循环过程中出现数值发散或不稳定,RDT引入了来自UCSD与Together AI的研究成果——LTI稳定循环注入机制。该机制通过数学约束确保每轮迭代收敛,使模型在长时间循环中仍能保持稳定输出。

潜在空间推理:告别“边想边说”

与当前流行的Chain-of-Thought(思维链)不同,RDT的推理过程完全在潜在空间(latent space)中完成。模型不会生成任何中间token,而是将16轮思考全部压缩在hidden state向量中,直到最终才输出完整答案。

这种“想完再说”的模式,避免了传统CoT中“边想边暴露思路”的弊端。它不仅提升了推理效率,也增强了模型的鲁棒性——因为中间过程不受外部干扰,也不会因过早输出错误信息而误导后续判断。

实验数据显示,一个仅770M参数的RDT模型,在多项基准测试中追平了1.3B参数的标准Transformer,参数量减少近一半,效果却毫不逊色。

循环Transformer的“超能力”:系统性泛化与深度外推

Kye Gomez还引用了俄亥俄州立大学的最新研究,揭示了循环架构的两大优势:

其一,系统性泛化能力。在面对训练中从未见过的知识组合时,循环Transformer能正确推理并作答,而标准模型则完全失败。这说明循环并非简单记忆,而是真正实现了“理解重组”。

其二,深度外推能力。当测试任务的推理链长度超过训练时的最大跳数(如训练20跳,测试30跳),循环模型可通过增加迭代次数自适应应对,而标准模型则直接崩溃。

这些发现暗示:当前大模型的瓶颈或许不在“知道多少”,而在“能否灵活组合已知”。而循环机制,可能正是解锁这一能力的关键钥匙。

从“更大”到“更聪明”:AI scaling的新方向

OpenMythos的出现,不仅是一次技术复现,更是一场思想启蒙。它让我们重新思考:Scaling Law的未来,是否应从“训练更大的模型”转向“让现有模型在推理时多想几遍”?

如果循环Transformer的潜力被进一步验证,我们将迎来一个更高效、更节能、更具推理深度的AI新时代。届时,模型的“智能密度”将比“参数规模”更为重要。

而这一切的起点,竟来自一位22岁开发者的开源项目。或许,真正的创新,从来不拘于年龄,而在于敢于质疑主流、重构范式的勇气。

标签: 循环Transformer MoE架构 OpenMythos 推理优化 AI scaling

相关文章

Claude Opus 4.7:AI从聊天走向自主做事

从“会聊天”到“能做事”:Claude Opus 4.7 的范式跃迁 人工智能的竞争正在悄然转向。过去,我们衡量大模型优劣的标准往往是“对话是否流畅”“回答是否自然”,而如今,真正的分水岭已落在“它能...

物理AI时代汽车芯片的颠覆性革命

从“控制轮子”到“整车智能体”:物理AI时代的芯片革命 当智能汽车从“会说话的轮子”迈向真正的“物理AI智能体”,一场底层架构的范式转移正在悄然发生。过去十年,智能驾驶的核心任务是“感知环境、规划路径...

广汽2026科技日发布星灵架构4.0

从底层重构智能出行:广汽2026科技日的硬核突破 当智能汽车竞争进入深水区,真正的较量早已不是单一功能的堆砌,而是底层架构与核心技术的系统性突破。4月12日,2026广汽科技日在番禺总部拉开帷幕,以“...

曦望S3专芯重塑AI推理算力格局

推理时代的算力革命:曦望如何用“专芯”重构AI基础设施 2026年,AI产业正式迈入“推理落地、智能体普及”的新纪元。当大模型不再只是“会聊天的助手”,而是进化为能思考、会执行的数字员工,一场围绕推理...

AI让孕期可视化,奇世智能重塑母婴体验

从“听胎心”到“见成长”:AI如何重塑母婴智能硬件生态 当95后、00后逐渐成为育儿主力军,他们对科学育儿、情感陪伴与效率提升的追求,正在推动母婴行业进入一个全新的智能化时代。在这一背景下,专注于AI...

多模态AI全面开放,算力竞争白热化

多模态AI普及加速,算力与生态竞争进入深水区 4月22日,全球AI领域迎来密集的技术与战略动态。从OpenAI全面开放多模态图像生成能力,到Meta、英伟达、英特尔等巨头在算力、图形AI与端侧智能上的...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。