医学AI视觉觉醒:从被动看图到主动思考
医学AI的“视觉觉醒”:从被动看图到主动思考
长久以来,医学AI的发展似乎陷入了一种“解释幻觉”——模型可以流畅地输出诊断依据和推理过程,但这些文字背后,是否真的“看到”了关键病灶?一个微小的钙化点、一段几秒钟的血管异常搏动,往往决定着生死判断。然而,传统多模态模型只是将影像“喂”给大模型,再生成答案与解释,这种“被动接收”的机制,极易导致看错区域、漏看病灶、误判结构。
如今,这一局面正在被打破。上海创智学院 LeapQuest 团队联合浙江大学、上海交通大学、复旦大学,在 ICML 2026 上连续发表两篇重磅论文,首次将 “Think with Images” 与 “Think with Videos” 范式引入医学AI领域。他们提出:视觉不应只是输入,而应成为推理过程的一部分。模型不再只是“看完再解释”,而是在思考中主动“决定看哪里、怎么看、看完如何修正”。
这一突破,标志着医学AI智能体正迎来关键拐点。
从“写解释”到“用证据思考”
传统医学多模态模型的运作逻辑,类似于一个“视觉翻译官”:它将CT、MRI或超声视频编码成特征向量,再交给大模型生成诊断结论与解释。问题在于,这种流程中,视觉信息是一次性输入的静态快照。模型无法在推理过程中“回头再看一眼”某个可疑区域,也无法主动放大、分割或定位关键结构。
而 LeapQuest 团队提出的 Ophiuchus(面向医学图像)和 MedScope(面向临床长视频)两个系统,彻底改变了这一模式。它们将大模型改造成一个能与视觉工具协同工作的智能体,在推理链中动态调用外部工具,获取新的视觉证据,并据此修正判断。
以 Ophiuchus 为例,它在诊断过程中可以主动调用 SAM2 进行病灶分割、使用 BiomedParse 根据文字提示定位特定解剖结构,或通过 Zoom-in 放大可疑区域。这些工具调用的结果,不是孤立的数据,而是以“observation”(观察)的形式反馈回推理链,推动模型重新评估之前的假设。
这意味着,模型不再只是“会写解释”,而是真正开始“用视觉证据思考”。
7B 模型为何能击败 o3 与 GPT-5?
令人惊讶的是,在多个医学视觉问答(VQA)基准测试中,仅拥有 70 亿参数的 Ophiuchus-7B,平均得分达到 68.0,超越了 OpenAI-o3(62.2)、Gemini 2.5 Pro(61.8)和 GPT-5(59.9)。更关键的是,其工具调用准确率高达 97.9%。
这一结果揭示了医学AI的一个深层规律:在真正依赖细粒度视觉证据的任务中,模型规模并非决定性因素。o3 和 GPT-5 虽然语言能力更强,但在“看”的能力上,仍受限于被动输入机制。它们可能“说得头头是道”,却未必“看得清清楚楚”。
而 Ophiuchus 的优势,正在于它让模型学会了“何时看、看哪里、怎么看”。例如,在面对一张肺部CT时,模型可能先初步判断“疑似结节”,但随即调用分割工具确认边界是否清晰,再放大观察密度变化。这种“边想边看”的闭环推理,极大提升了诊断的可靠性。
“回看关键时刻”:长视频诊断的新可能
如果说 Ophiuchus 解决了静态图像的“精细观察”问题,那么 MedScope 则将这一范式延伸至动态场景——临床长视频,如内窥镜手术录像、超声心动图等。
在这些场景中,关键信息往往只出现在几秒钟内。传统模型一次性编码整个视频,极易遗漏短暂但关键的异常动作或结构变化。MedScope 的突破在于,它允许模型在推理过程中主动“回看”特定时间段,重新分析某一段视频帧,甚至逐帧比对。
例如,在判断心脏瓣膜是否反流时,模型可能先基于整体视频做出初步判断,随后调用“回看”工具聚焦于舒张期,观察血流方向是否异常。这种“时间维度的视觉推理”,使得模型能够捕捉到人类医生依赖经验才能发现的细微动态变化。
医学AI的新范式:视觉即推理
Ophiuchus 与 MedScope 的共同贡献,不仅是技术上的创新,更在于提出了一种全新的医学AI范式:让视觉证据进入模型的中间思考过程。
过去,解释是事后的语言包装;如今,解释是推理中的证据查证。模型不再“假装理解”,而是通过工具交互,真正“看见”并“验证”关键信息。这种从“被动接收”到“主动探索”的转变,正是医学AI迈向临床可用的关键一步。
未来,随着更多视觉工具的集成(如3D重建、多模态对齐、实时反馈),医学AI智能体将不再只是辅助诊断的“黑箱”,而成为医生真正的“视觉协作者”——不仅能看,还能问:“这里是不是有问题?我们再仔细看看。”
标签: 医学AI 多模态模型 视觉推理 智能体 ICML2026