当前位置：首页 > AI资讯 > 正文内容

AI医学图像分割新突破：边看边想更精准

admin3个月前 (04-23)AI资讯158

医学图像分割的新范式：当AI学会“边看边想”

在医学影像分析领域，精准分割病灶区域是疾病诊断与治疗规划的关键前提。然而，传统多模态大模型（MLLM）在处理这类任务时，往往陷入“一步到位”的困境：输入图像，输出掩膜（mask），看似高效，却在面对模糊边界、复杂结构或细微病灶时频频失准。更深层的问题是，为了赋予模型分割能力，现有方法普遍引入隐式分割token（如 <SEG>），这不仅侵占模型的文本输出空间，还导致语言推理能力退化，形成“功能越加越弱”的怪圈。

如今，这一困局被一项来自浙江大学与上海人工智能实验室的联合研究打破。他们提出的 IBISAgent 框架，成功将医学图像分割从“单次推理”推向“多轮交互”的新范式，并斩获CVPR 2026的认可。

从“一次性输出”到“迭代式决策”

人类专家在标注医学图像时，从不是一眼定乾坤。他们会先扫视全局，锁定可疑区域，再通过反复点击正负样本，根据每一步生成的mask形态不断调整策略——这是一个典型的“观察-思考-行动-再观察”的闭环过程。

IBISAgent正是受此启发，将分割任务重新定义为多步马尔可夫决策过程（MDP）。它摒弃了传统的隐式token设计，转而采用“文本推理 + 空间点击动作”的交错模式。每一步包含三个核心环节：

推理（Textual Thinking）：模型分析当前分割状态，例如“当前mask偏左，需在右侧肿瘤边缘补充正向点击”。
行动（Action）：输出结构化点击指令，包括目标类别、正负属性及归一化坐标，支持单步多点击。
观测（Observation）：点击传入交互式分割工具MedSAM2，生成新mask并叠加回原图，作为下一步视觉输入。

这一设计实现了视觉感知与语言推理的深度融合。模型每一步都能“看到”自己上一步的结果，从而自主判断是否需要修正、如何修正，真正模拟了人类专家的决策逻辑。

两阶段训练：从模仿到超越

要让模型学会这种复杂的多步推理，仅靠现有数据集远远不够——它们通常只提供最终mask，缺乏逐步交互的轨迹记录。为此，研究团队构建了包含 456K条高质量推理轨迹 的冷启动数据集。

该数据集基于BiomedParseData（340万图像-mask对）自动生成：通过规则化策略模拟点击序列，并借助Gemini-2.5-Pro为每步生成自然语言推理。更关键的是，团队还合成了两类自我反思轨迹：一是错误自纠正（检测到错误后回溯重做），二是指令不一致纠正（发现与初始目标冲突时主动放弃并重分）。这为模型提供了“犯错-反思-修正”的完整学习路径。

在此基础上，IBISAgent采用两阶段训练框架：

冷启动监督微调（SFT）：在合成轨迹上训练模型建立像素级推理先验；
Agentic强化学习（RL）：引入细粒度奖励机制，驱动模型自主探索更优策略。

RL阶段采用GRPO算法，在888K个VQA样本上优化。其核心创新在于设计了区域点击奖励与渐进式分割改进奖励：前者确保每次点击落在语义有效区域，后者强制每步行动必须带来实质性分割提升，从而杜绝冗余操作与来回震荡。

无需改模型、不加token的“涌现”能力

值得一提的是，IBISAgent并未引入任何新模型组件或隐式token。其分割能力完全从MLLM内在的视觉推理中“涌现”出来，既保留了完整的语言理解与生成能力，又天然支持从头分割与mask精化两类任务。这种“轻改造、强能力”的设计，极大提升了模型的泛化性与实用性。

更重要的是，该方法打破了“分割必须依赖专用token”的固有思维，证明通过合理的任务建模与训练策略，大模型完全可以在不牺牲语言能力的前提下，掌握复杂的视觉操作技能。

这一突破不仅为医学图像分析带来了更高精度与更强鲁棒性，也为通用AI Agent在专业领域的落地提供了新思路——真正的智能，或许不在于一次性给出答案，而在于懂得如何一步步逼近真相。

标签： 医学AI 多模态大模型 图像分割 Agent智能体 CVPR2026

返回列表

上一篇：库克卸任CEO转任执行董事长，苹果平稳过渡

下一篇：蚂蚁Ling-2.6-flash：十之一成本实现更强智能

玖捌肆贰

AI医学图像分割新突破：边看边想更精准

医学图像分割的新范式：当AI学会“边看边想”

从“一次性输出”到“迭代式决策”

两阶段训练：从模仿到超越

无需改模型、不加token的“涌现”能力

相关文章

物理AI时代汽车芯片的颠覆性革命

广汽2026科技日发布星灵架构4.0

AI算力竞赛白热化：芯片到模型全面爆发

JiuwenClaw开启协同工程新时代

谷歌Gemini发布两款自主研究智能体

库克卸任CEO转任执行董事长，苹果平稳过渡

发表评论

Copyright 玖捌肆贰（9842.cn） Rights Reserved.
豫ICP备06015505号-10

Powered By Z-BlogPHP. Theme by TOYEAN.

玖捌肆贰

AI医学图像分割新突破：边看边想更精准

医学图像分割的新范式：当AI学会“边看边想”

从“一次性输出”到“迭代式决策”

两阶段训练：从模仿到超越

无需改模型、不加token的“涌现”能力

相关文章

物理AI时代汽车芯片的颠覆性革命

广汽2026科技日发布星灵架构4.0

AI算力竞赛白热化：芯片到模型全面爆发

JiuwenClaw开启协同工程新时代

谷歌Gemini发布两款自主研究智能体

库克卸任CEO转任执行董事长，苹果平稳过渡

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论