多模态大模型SFT竟成RL绊脚石
多模态大模型的“隐形伤”:SFT之后,RL真的在进步吗?
在人工智能领域,多模态大模型(MLLM)的训练范式长期以来被简化为一条看似高效的流水线:先通过监督微调(SFT)让模型“学会说话”,再通过强化学习(RL)让它“说得更好”。从DeepSeek到Qwen,从GRPO到DAPO,业界不断打磨RL算法的稳定性与效率,却鲜有人质疑这条路径的起点是否真的稳固。
然而,最新研究《Beyond SFT-to-RL》(PRISM团队)揭示了一个令人警醒的事实:SFT不仅没有为RL铺路,反而在悄悄挖坑。许多模型在SFT阶段就已经“带伤训练”,而后续的强化学习,可能只是在努力“还债”,而非真正提升能力。
SFT的“副作用”:性能为何不升反降?
一组来自Qwen3-VL系列模型的实验数据极具说服力。在7个主流多模态基准测试中,模型在SFT后的平均准确率不增反降:
- Qwen3-VL-4B:从59.7%降至56.8%(-3.0)
- Qwen3-VL-8B:从63.3%降至58.1%(-5.2)
更令人惊讶的是,即使后续引入GRPO强化学习,8B模型也仅勉强回升至63.3%——刚好回到原始Instruct模型的水平。这意味着,RL阶段所做的努力,可能只是弥补了SFT造成的损伤,而非实现真正的能力跃迁。
这种现象并非个例。研究发现,当SFT使用的数据分布与基座模型原有能力分布不一致时(例如使用GPT或Gemini生成的蒸馏数据),模型极易出现“能力覆盖”问题:新知识挤占了旧知识的表达空间,而真正关键的推理能力却被稀释。
两类被忽视的偏差:SFT为何“好心办坏事”?
SFT在多模态场景下的问题,源于两种深层偏差:
偏差一:表面模仿 vs 真实推理
SFT的优化目标是在token级别上最小化损失,这意味着模型对“推理过程”和“输出格式”一视同仁。例如,模型可能更倾向于学习“因为A所以B”这类模板化表达,而非真正理解图像中的视觉线索与逻辑链条。结果是:模型学会了“看起来正确”,而非“真正正确”。
偏差二:感知漂移与推理漂移的混淆
多模态模型的失败模式具有双重性:
- 感知漂移:模型“看错了”,例如误判图像中的物体位置或属性。
- 推理漂移:模型“想歪了”,例如逻辑推导错误或因果颠倒。
这两种问题成因不同,纠正方式也应不同。但SFT用一个统一的token loss同时拟合,导致模型在感知和推理两端同时偏移,形成“既看不准、又想不对”的复合缺陷。
RL的局限:跑得快,但起点在坑里
当前主流的RL算法(如GRPO、DAPO、GSPO)确实在采样效率、梯度稳定性等方面取得了显著进步。但它们的核心假设是:模型已经处于一个合理的分布起点。
现实却是,SFT已将模型推离了最优起点。这就像百米赛跑中,选手被SFT向后推了50米,而RL算法只关心如何跑得更快,却没人把他拉回起跑线。
PRISM的破局之道:三阶段流水线
PRISM团队提出了一种全新的三阶段训练范式:
SFT → 分布对齐(PRISM)→ RLVR
其核心创新在于中间的“分布对齐”阶段,旨在修复SFT引入的分布偏移。
混合专家判别器(MoE Discriminator)
PRISM引入了一个双专家判别器,分别针对感知漂移和推理漂移进行建模:
- 感知专家:专注于视觉 grounding 的准确性,判断模型是否“看对了”。
- 推理专家:评估逻辑链条的合理性,判断模型是否“想对了”。
通过这两个专家的协同判断,PRISM能够精准识别模型在哪个环节出错,并引导后续训练进行针对性修复,避免“一刀切”式的优化。
此外,PRISM还采用了一种动态重加权机制,在训练过程中自动调整不同样本的损失权重,优先纠正分布偏移最严重的样本,从而加速模型回归到真实能力分布。
结语:训练范式需要重新校准
多模态大模型的训练远非“SFT+RL”的简单叠加。当模型能力越强,SFT带来的分布偏移风险就越高。PRISM的研究提醒我们:在追求RL效率之前,必须先填平SFT挖下的“隐形断层”。
未来的后训练范式,不应只是“跑得更快”,而应首先确保“站在正确的起点”。唯有如此,强化学习才能真正释放其潜力,而非沦为一场漫长的“还债之旅”。
标签: 多模态大模型 SFT 强化学习 分布偏移 PRISM