玖捌肆贰

多模态大模型SFT竟成RL绊脚石

admin2个月前 (05-17)95

最新研究揭示：SFT阶段可能损害多模态大模型能力，导致RL强化学习效果受限。Qwen3-VL等模型实验显示SFT后性能下降，暴露训练范式深层问题，挑战业界对‘SFT+RL’路径的盲目信任。...