当前位置:首页 > AI资讯 > 正文内容

AI医学图像分割新突破:边看边想更精准

admin2个月前 (04-23)AI资讯77

医学图像分割的新范式:当AI学会“边看边想”

在医学影像分析领域,精准分割病灶区域是疾病诊断与治疗规划的关键前提。然而,传统多模态大模型(MLLM)在处理这类任务时,往往陷入“一步到位”的困境:输入图像,输出掩膜(mask),看似高效,却在面对模糊边界、复杂结构或细微病灶时频频失准。更深层的问题是,为了赋予模型分割能力,现有方法普遍引入隐式分割token(如 <SEG>),这不仅侵占模型的文本输出空间,还导致语言推理能力退化,形成“功能越加越弱”的怪圈。

如今,这一困局被一项来自浙江大学与上海人工智能实验室的联合研究打破。他们提出的 IBISAgent 框架,成功将医学图像分割从“单次推理”推向“多轮交互”的新范式,并斩获CVPR 2026的认可。

从“一次性输出”到“迭代式决策”

人类专家在标注医学图像时,从不是一眼定乾坤。他们会先扫视全局,锁定可疑区域,再通过反复点击正负样本,根据每一步生成的mask形态不断调整策略——这是一个典型的“观察-思考-行动-再观察”的闭环过程。

IBISAgent正是受此启发,将分割任务重新定义为多步马尔可夫决策过程(MDP)。它摒弃了传统的隐式token设计,转而采用“文本推理 + 空间点击动作”的交错模式。每一步包含三个核心环节:

  • 推理(Textual Thinking):模型分析当前分割状态,例如“当前mask偏左,需在右侧肿瘤边缘补充正向点击”。
  • 行动(Action):输出结构化点击指令,包括目标类别、正负属性及归一化坐标,支持单步多点击。
  • 观测(Observation):点击传入交互式分割工具MedSAM2,生成新mask并叠加回原图,作为下一步视觉输入。

这一设计实现了视觉感知与语言推理的深度融合。模型每一步都能“看到”自己上一步的结果,从而自主判断是否需要修正、如何修正,真正模拟了人类专家的决策逻辑。

两阶段训练:从模仿到超越

要让模型学会这种复杂的多步推理,仅靠现有数据集远远不够——它们通常只提供最终mask,缺乏逐步交互的轨迹记录。为此,研究团队构建了包含 456K条高质量推理轨迹 的冷启动数据集。

该数据集基于BiomedParseData(340万图像-mask对)自动生成:通过规则化策略模拟点击序列,并借助Gemini-2.5-Pro为每步生成自然语言推理。更关键的是,团队还合成了两类自我反思轨迹:一是错误自纠正(检测到错误后回溯重做),二是指令不一致纠正(发现与初始目标冲突时主动放弃并重分)。这为模型提供了“犯错-反思-修正”的完整学习路径。

在此基础上,IBISAgent采用两阶段训练框架

  1. 冷启动监督微调(SFT):在合成轨迹上训练模型建立像素级推理先验;
  2. Agentic强化学习(RL):引入细粒度奖励机制,驱动模型自主探索更优策略。

RL阶段采用GRPO算法,在888K个VQA样本上优化。其核心创新在于设计了区域点击奖励渐进式分割改进奖励:前者确保每次点击落在语义有效区域,后者强制每步行动必须带来实质性分割提升,从而杜绝冗余操作与来回震荡。

无需改模型、不加token的“涌现”能力

值得一提的是,IBISAgent并未引入任何新模型组件或隐式token。其分割能力完全从MLLM内在的视觉推理中“涌现”出来,既保留了完整的语言理解与生成能力,又天然支持从头分割与mask精化两类任务。这种“轻改造、强能力”的设计,极大提升了模型的泛化性与实用性。

更重要的是,该方法打破了“分割必须依赖专用token”的固有思维,证明通过合理的任务建模与训练策略,大模型完全可以在不牺牲语言能力的前提下,掌握复杂的视觉操作技能。

这一突破不仅为医学图像分析带来了更高精度与更强鲁棒性,也为通用AI Agent在专业领域的落地提供了新思路——真正的智能,或许不在于一次性给出答案,而在于懂得如何一步步逼近真相。

标签: 医学AI 多模态大模型 图像分割 Agent智能体 CVPR2026

相关文章

腾讯混元3D世界模型2.0开启AI造世界新纪元

AI 迈入“造世界”时代:腾讯混元世界模型 2.0 开启 3D 创作新纪元 当 AI 还在“画图”“对话”“生成视频”的赛道上激烈竞争时,腾讯已经悄然将战场推向了更宏大的维度——创造完整、可交互的 3...

阿里HappyOyster开启AI世界模型新纪元

从“生成”到“演化”:阿里HappyOyster开启世界模型新纪元 当大多数AI模型还在专注于“生成一段视频”时,阿里巴巴用一款名为HappyOyster(快乐生蚝)的产品,悄然将AI内容创作推向了下...

字节跳动补强AI Agent底层架构

字节补上AI Agent的“底层骨架” 在AI大模型竞争进入深水区的2026年,人才争夺战早已不是简单的薪资比拼,而是战略卡位的关键一步。当DeepSeek前核心成员郭达雅的去向尘埃落定,字节跳动成为...

Kimi K2.6工程化突破:从做题到造系统

从“做题”到“造系统”:Kimi K2.6 的工程化跃迁 4月20日深夜,月之暗面悄然发布并开源了其最新旗舰模型 Kimi K2.6。这并非一次常规的模型迭代,而是一场关于 AI 能力边界的重新定义。...

AI听懂猫狗语:PettiChat用世界模型破译宠物心声

当AI开始“听懂”猫言狗语:PettiChat如何用世界模型打破人宠沟通壁垒 在通用人工智能(AGI)席卷人类语言世界的今天,一个长期被忽视的沟通场景正悄然迎来技术破局——人类与宠物之间的交流。尽管全...

AI模型建微信群:协作新革命

当大模型建起了「微信群」:一场 AI 协作的范式革命 4 月的大模型战场,硝烟弥漫。从 ChatGPT 到 DeepSeek,从腾讯混元到阿里通义,各家蓄势待发,准备在两周内轮番亮剑。然而,就在这波技...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。