当前位置:首页 > AI资讯 > 正文内容

AI医学图像分割新突破:边看边想更精准

admin3小时前AI资讯4

医学图像分割的新范式:当AI学会“边看边想”

在医学影像分析领域,精准分割病灶区域是疾病诊断与治疗规划的关键前提。然而,传统多模态大模型(MLLM)在处理这类任务时,往往陷入“一步到位”的困境:输入图像,输出掩膜(mask),看似高效,却在面对模糊边界、复杂结构或细微病灶时频频失准。更深层的问题是,为了赋予模型分割能力,现有方法普遍引入隐式分割token(如 <SEG>),这不仅侵占模型的文本输出空间,还导致语言推理能力退化,形成“功能越加越弱”的怪圈。

如今,这一困局被一项来自浙江大学与上海人工智能实验室的联合研究打破。他们提出的 IBISAgent 框架,成功将医学图像分割从“单次推理”推向“多轮交互”的新范式,并斩获CVPR 2026的认可。

从“一次性输出”到“迭代式决策”

人类专家在标注医学图像时,从不是一眼定乾坤。他们会先扫视全局,锁定可疑区域,再通过反复点击正负样本,根据每一步生成的mask形态不断调整策略——这是一个典型的“观察-思考-行动-再观察”的闭环过程。

IBISAgent正是受此启发,将分割任务重新定义为多步马尔可夫决策过程(MDP)。它摒弃了传统的隐式token设计,转而采用“文本推理 + 空间点击动作”的交错模式。每一步包含三个核心环节:

  • 推理(Textual Thinking):模型分析当前分割状态,例如“当前mask偏左,需在右侧肿瘤边缘补充正向点击”。
  • 行动(Action):输出结构化点击指令,包括目标类别、正负属性及归一化坐标,支持单步多点击。
  • 观测(Observation):点击传入交互式分割工具MedSAM2,生成新mask并叠加回原图,作为下一步视觉输入。

这一设计实现了视觉感知与语言推理的深度融合。模型每一步都能“看到”自己上一步的结果,从而自主判断是否需要修正、如何修正,真正模拟了人类专家的决策逻辑。

两阶段训练:从模仿到超越

要让模型学会这种复杂的多步推理,仅靠现有数据集远远不够——它们通常只提供最终mask,缺乏逐步交互的轨迹记录。为此,研究团队构建了包含 456K条高质量推理轨迹 的冷启动数据集。

该数据集基于BiomedParseData(340万图像-mask对)自动生成:通过规则化策略模拟点击序列,并借助Gemini-2.5-Pro为每步生成自然语言推理。更关键的是,团队还合成了两类自我反思轨迹:一是错误自纠正(检测到错误后回溯重做),二是指令不一致纠正(发现与初始目标冲突时主动放弃并重分)。这为模型提供了“犯错-反思-修正”的完整学习路径。

在此基础上,IBISAgent采用两阶段训练框架

  1. 冷启动监督微调(SFT):在合成轨迹上训练模型建立像素级推理先验;
  2. Agentic强化学习(RL):引入细粒度奖励机制,驱动模型自主探索更优策略。

RL阶段采用GRPO算法,在888K个VQA样本上优化。其核心创新在于设计了区域点击奖励渐进式分割改进奖励:前者确保每次点击落在语义有效区域,后者强制每步行动必须带来实质性分割提升,从而杜绝冗余操作与来回震荡。

无需改模型、不加token的“涌现”能力

值得一提的是,IBISAgent并未引入任何新模型组件或隐式token。其分割能力完全从MLLM内在的视觉推理中“涌现”出来,既保留了完整的语言理解与生成能力,又天然支持从头分割与mask精化两类任务。这种“轻改造、强能力”的设计,极大提升了模型的泛化性与实用性。

更重要的是,该方法打破了“分割必须依赖专用token”的固有思维,证明通过合理的任务建模与训练策略,大模型完全可以在不牺牲语言能力的前提下,掌握复杂的视觉操作技能。

这一突破不仅为医学图像分析带来了更高精度与更强鲁棒性,也为通用AI Agent在专业领域的落地提供了新思路——真正的智能,或许不在于一次性给出答案,而在于懂得如何一步步逼近真相。

标签: 医学AI 多模态大模型 图像分割 Agent智能体 CVPR2026

相关文章

MaxHermes云端沙箱开启AI自主进化新纪元

从“执行者”到“进化者”:MaxHermes开启AI助手新纪元在人工智能技术迅猛发展的今天,AI助手早已不再是简单的问答工具或任务执行者。它们正逐步演变为具备自主学习与持续进化能力的智能体。近日,Mi...

中国AI日均调用量破140万亿

日均140万亿词元调用背后:中国AI商业化进入“高速车道” 4月16日,国家统计局在国新办新闻发布会上公布了一组令人瞩目的数据:截至今年3月,我国人工智能日均词元(Token)调用量已突破140万亿,...

中国AI换道超车:Agent时代的新突破

从“追赶者”到“领跑者”:中国AI的换道超车 当2026年第一季度的数据浮出水面,一个令人震惊的事实浮出水面:中国大模型的Token日均调用量首次超越美国。这一数字背后,不是用户基数的爆发,而是单个用...

阿里HappyOyster开启AI世界模型新纪元

从“生成”到“演化”:阿里HappyOyster开启世界模型新纪元 当大多数AI模型还在专注于“生成一段视频”时,阿里巴巴用一款名为HappyOyster(快乐生蚝)的产品,悄然将AI内容创作推向了下...

无人车与机器人重塑物流闭环

从“最后1公里”到“最后10米”:无人车与机器人如何重塑物流闭环 4月16日,一则看似低调却意味深长的合作官宣,悄然拉开了智能物流新阶段的序幕。自动驾驶企业佑驾创新(2431.HK)与全球知名智能终端...

AI原生电商操作系统颠覆传统运营模式

从“人操作”到“AI驱动”:电商操作系统进入AI原生时代 当电商行业还在为流量成本攀升、转化率波动而焦虑时,店匠科技(Shoplazza)用一场技术发布,为行业撕开了一道通往未来的口子。其正式推出的全...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。