多模态大模型SFT竟成RL绊脚石

admin2小时前3
最新研究揭示:SFT阶段可能损害多模态大模型能力,导致RL强化学习效果受限。Qwen3-VL等模型实验显示SFT后性能下降,暴露训练范式深层问题,挑战业界对‘SFT+RL’路径的盲目信任。...