当前位置:首页 > AI资讯 > 正文内容

医学AI视觉觉醒:从被动看图到主动思考

admin2小时前AI资讯3

医学AI的“视觉觉醒”:从被动看图到主动思考

长久以来,医学AI的发展似乎陷入了一种“解释幻觉”——模型可以流畅地输出诊断依据和推理过程,但这些文字背后,是否真的“看到”了关键病灶?一个微小的钙化点、一段几秒钟的血管异常搏动,往往决定着生死判断。然而,传统多模态模型只是将影像“喂”给大模型,再生成答案与解释,这种“被动接收”的机制,极易导致看错区域、漏看病灶、误判结构

如今,这一局面正在被打破。上海创智学院 LeapQuest 团队联合浙江大学、上海交通大学、复旦大学,在 ICML 2026 上连续发表两篇重磅论文,首次将 “Think with Images” 与 “Think with Videos” 范式引入医学AI领域。他们提出:视觉不应只是输入,而应成为推理过程的一部分。模型不再只是“看完再解释”,而是在思考中主动“决定看哪里、怎么看、看完如何修正”。

这一突破,标志着医学AI智能体正迎来关键拐点。

从“写解释”到“用证据思考”

传统医学多模态模型的运作逻辑,类似于一个“视觉翻译官”:它将CT、MRI或超声视频编码成特征向量,再交给大模型生成诊断结论与解释。问题在于,这种流程中,视觉信息是一次性输入的静态快照。模型无法在推理过程中“回头再看一眼”某个可疑区域,也无法主动放大、分割或定位关键结构。

而 LeapQuest 团队提出的 Ophiuchus(面向医学图像)和 MedScope(面向临床长视频)两个系统,彻底改变了这一模式。它们将大模型改造成一个能与视觉工具协同工作的智能体,在推理链中动态调用外部工具,获取新的视觉证据,并据此修正判断。

以 Ophiuchus 为例,它在诊断过程中可以主动调用 SAM2 进行病灶分割、使用 BiomedParse 根据文字提示定位特定解剖结构,或通过 Zoom-in 放大可疑区域。这些工具调用的结果,不是孤立的数据,而是以“observation”(观察)的形式反馈回推理链,推动模型重新评估之前的假设。

这意味着,模型不再只是“会写解释”,而是真正开始“用视觉证据思考”。

7B 模型为何能击败 o3 与 GPT-5?

令人惊讶的是,在多个医学视觉问答(VQA)基准测试中,仅拥有 70 亿参数的 Ophiuchus-7B,平均得分达到 68.0,超越了 OpenAI-o3(62.2)、Gemini 2.5 Pro(61.8)和 GPT-5(59.9)。更关键的是,其工具调用准确率高达 97.9%

这一结果揭示了医学AI的一个深层规律:在真正依赖细粒度视觉证据的任务中,模型规模并非决定性因素。o3 和 GPT-5 虽然语言能力更强,但在“看”的能力上,仍受限于被动输入机制。它们可能“说得头头是道”,却未必“看得清清楚楚”。

而 Ophiuchus 的优势,正在于它让模型学会了“何时看、看哪里、怎么看”。例如,在面对一张肺部CT时,模型可能先初步判断“疑似结节”,但随即调用分割工具确认边界是否清晰,再放大观察密度变化。这种“边想边看”的闭环推理,极大提升了诊断的可靠性。

“回看关键时刻”:长视频诊断的新可能

如果说 Ophiuchus 解决了静态图像的“精细观察”问题,那么 MedScope 则将这一范式延伸至动态场景——临床长视频,如内窥镜手术录像、超声心动图等。

在这些场景中,关键信息往往只出现在几秒钟内。传统模型一次性编码整个视频,极易遗漏短暂但关键的异常动作或结构变化。MedScope 的突破在于,它允许模型在推理过程中主动“回看”特定时间段,重新分析某一段视频帧,甚至逐帧比对。

例如,在判断心脏瓣膜是否反流时,模型可能先基于整体视频做出初步判断,随后调用“回看”工具聚焦于舒张期,观察血流方向是否异常。这种“时间维度的视觉推理”,使得模型能够捕捉到人类医生依赖经验才能发现的细微动态变化。

医学AI的新范式:视觉即推理

Ophiuchus 与 MedScope 的共同贡献,不仅是技术上的创新,更在于提出了一种全新的医学AI范式:让视觉证据进入模型的中间思考过程

过去,解释是事后的语言包装;如今,解释是推理中的证据查证。模型不再“假装理解”,而是通过工具交互,真正“看见”并“验证”关键信息。这种从“被动接收”到“主动探索”的转变,正是医学AI迈向临床可用的关键一步。

未来,随着更多视觉工具的集成(如3D重建、多模态对齐、实时反馈),医学AI智能体将不再只是辅助诊断的“黑箱”,而成为医生真正的“视觉协作者”——不仅能看,还能问:“这里是不是有问题?我们再仔细看看。”

标签: 医学AI 多模态模型 视觉推理 智能体 ICML2026

相关文章

AI原生电商操作系统颠覆传统运营模式

从“人操作”到“AI驱动”:电商操作系统进入AI原生时代 当电商行业还在为流量成本攀升、转化率波动而焦虑时,店匠科技(Shoplazza)用一场技术发布,为行业撕开了一道通往未来的口子。其正式推出的全...

企业AI竞争新战场:操作系统层才是关键

企业AI的真正分水岭:从“调用服务”到“操作系统层” 当前,关于企业人工智能的讨论仍聚焦于模型能力本身——GPT与Gemini谁更强?推理分数是否领先?参数规模是否足够庞大?这些技术指标固然重要,但它...

极氪8X量产中国首款Grok+FSD车型

从实验室到方向盘:中国首个“Grok+FSD”体验正式落地 2026年4月17日,极氪全新旗舰SUV极氪8X正式量产上市,一个更具里程碑意义的消息随之揭晓——搭载阶跃Step 3.5 Flash等核心...

谷歌开源Gemma 4重塑轻量级智能体生态

谷歌开源新里程碑:Gemma 4 如何重塑轻量级智能体生态 在开源大模型领域,谷歌再次迈出关键一步。最新发布的 Gemma 4 系列不仅延续了前代对轻量化与高性能的追求,更通过引入多模态能力、智能体原...

高德发布全球首款开放环境全自主具身机器人

从地图到机器人:高德如何用“ABot”打开AGI新世界的大门? 在大多数人眼中,高德地图是导航、是出行助手,是城市交通的智能“大脑”。但4月19日,在北京亦庄机器人半程马拉松的赛场上,高德用一场震撼的...

谷歌Gemini发布两款自主研究智能体

Gemini 的深夜反击:谷歌押注“自主研究智能体”新战场 在 AI 赛道上,谷歌近期的动作愈发密集。继联合创始人谢尔盖·布林亲自督战、组建精英团队追赶 Anthropic 等对手后,谷歌深夜发布重磅...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。