当前位置:首页 > AI资讯 > 正文内容

多模态大模型SFT竟成RL绊脚石

admin1小时前AI资讯2

多模态大模型的“隐形伤”:SFT之后,RL真的在进步吗?

在人工智能领域,多模态大模型(MLLM)的训练范式长期以来被简化为一条看似高效的流水线:先通过监督微调(SFT)让模型“学会说话”,再通过强化学习(RL)让它“说得更好”。从DeepSeek到Qwen,从GRPO到DAPO,业界不断打磨RL算法的稳定性与效率,却鲜有人质疑这条路径的起点是否真的稳固。

然而,最新研究《Beyond SFT-to-RL》(PRISM团队)揭示了一个令人警醒的事实:SFT不仅没有为RL铺路,反而在悄悄挖坑。许多模型在SFT阶段就已经“带伤训练”,而后续的强化学习,可能只是在努力“还债”,而非真正提升能力。

SFT的“副作用”:性能为何不升反降?

一组来自Qwen3-VL系列模型的实验数据极具说服力。在7个主流多模态基准测试中,模型在SFT后的平均准确率不增反降:

  • Qwen3-VL-4B:从59.7%降至56.8%(-3.0)
  • Qwen3-VL-8B:从63.3%降至58.1%(-5.2)

更令人惊讶的是,即使后续引入GRPO强化学习,8B模型也仅勉强回升至63.3%——刚好回到原始Instruct模型的水平。这意味着,RL阶段所做的努力,可能只是弥补了SFT造成的损伤,而非实现真正的能力跃迁。

这种现象并非个例。研究发现,当SFT使用的数据分布与基座模型原有能力分布不一致时(例如使用GPT或Gemini生成的蒸馏数据),模型极易出现“能力覆盖”问题:新知识挤占了旧知识的表达空间,而真正关键的推理能力却被稀释

两类被忽视的偏差:SFT为何“好心办坏事”?

SFT在多模态场景下的问题,源于两种深层偏差:

偏差一:表面模仿 vs 真实推理

SFT的优化目标是在token级别上最小化损失,这意味着模型对“推理过程”和“输出格式”一视同仁。例如,模型可能更倾向于学习“因为A所以B”这类模板化表达,而非真正理解图像中的视觉线索与逻辑链条。结果是:模型学会了“看起来正确”,而非“真正正确”

偏差二:感知漂移与推理漂移的混淆

多模态模型的失败模式具有双重性:

  • 感知漂移:模型“看错了”,例如误判图像中的物体位置或属性。
  • 推理漂移:模型“想歪了”,例如逻辑推导错误或因果颠倒。

这两种问题成因不同,纠正方式也应不同。但SFT用一个统一的token loss同时拟合,导致模型在感知和推理两端同时偏移,形成“既看不准、又想不对”的复合缺陷。

RL的局限:跑得快,但起点在坑里

当前主流的RL算法(如GRPO、DAPO、GSPO)确实在采样效率、梯度稳定性等方面取得了显著进步。但它们的核心假设是:模型已经处于一个合理的分布起点

现实却是,SFT已将模型推离了最优起点。这就像百米赛跑中,选手被SFT向后推了50米,而RL算法只关心如何跑得更快,却没人把他拉回起跑线。

PRISM的破局之道:三阶段流水线

PRISM团队提出了一种全新的三阶段训练范式:

SFT → 分布对齐(PRISM)→ RLVR

其核心创新在于中间的“分布对齐”阶段,旨在修复SFT引入的分布偏移。

混合专家判别器(MoE Discriminator)

PRISM引入了一个双专家判别器,分别针对感知漂移和推理漂移进行建模:

  • 感知专家:专注于视觉 grounding 的准确性,判断模型是否“看对了”。
  • 推理专家:评估逻辑链条的合理性,判断模型是否“想对了”。

通过这两个专家的协同判断,PRISM能够精准识别模型在哪个环节出错,并引导后续训练进行针对性修复,避免“一刀切”式的优化。

此外,PRISM还采用了一种动态重加权机制,在训练过程中自动调整不同样本的损失权重,优先纠正分布偏移最严重的样本,从而加速模型回归到真实能力分布。

结语:训练范式需要重新校准

多模态大模型的训练远非“SFT+RL”的简单叠加。当模型能力越强,SFT带来的分布偏移风险就越高。PRISM的研究提醒我们:在追求RL效率之前,必须先填平SFT挖下的“隐形断层”

未来的后训练范式,不应只是“跑得更快”,而应首先确保“站在正确的起点”。唯有如此,强化学习才能真正释放其潜力,而非沦为一场漫长的“还债之旅”。

标签: 多模态大模型 SFT 强化学习 分布偏移 PRISM

相关文章

浏览器进化为AI智能代理

浏览器进化史:从信息窗口到智能代理曾几何时,浏览器只是我们打开网页、浏览信息的工具。输入网址,点击跳转,获取内容——这就是它的全部使命。然而,随着人工智能的迅猛发展,浏览器正悄然经历一场深刻的变革:它...

中国AI换道超车:Agent时代的新突破

从“追赶者”到“领跑者”:中国AI的换道超车 当2026年第一季度的数据浮出水面,一个令人震惊的事实浮出水面:中国大模型的Token日均调用量首次超越美国。这一数字背后,不是用户基数的爆发,而是单个用...

谷歌Gemini Robotics-ER 1.6重塑工业机器人认知能力

从“看见”到“看懂”:谷歌新一代机器人模型如何重塑工业场景 当波士顿动力的机器狗Spot在工厂中缓步前行,精准地停在压力表前,读取指针刻度并准确报出数值时,这不再是一场炫技的演示,而是机器人认知能力的...

广汽2026科技日发布星灵架构4.0

从底层重构智能出行:广汽2026科技日的硬核突破 当智能汽车竞争进入深水区,真正的较量早已不是单一功能的堆砌,而是底层架构与核心技术的系统性突破。4月12日,2026广汽科技日在番禺总部拉开帷幕,以“...

阿里云Qwen3.6-Max-Preview登顶国产大模型榜首

千问再进化:Qwen3.6-Max-Preview 如何重塑国产大模型格局 4月20日,阿里云正式发布新一代旗舰级大模型 Qwen3.6-Max-Preview 的早期预览版本。这一消息迅速在AI圈引...

腾讯QClaw用5天打开全球AI智能体市场

从“养虾”到出海:腾讯QClaw如何用5天打开全球AI智能体新市场 4月20日晚,一条来自QClaw团队X账号的简短公告,悄然拉开了中国AI智能体产品走向全球的序幕——QClaw海外版正式开启内测,为...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。