当前位置：首页 > AI资讯 > 正文内容

医学AI视觉觉醒：从被动看图到主动思考

admin2个月前 (05-28)AI资讯1048

医学AI的“视觉觉醒”：从被动看图到主动思考

长久以来，医学AI的发展似乎陷入了一种“解释幻觉”——模型可以流畅地输出诊断依据和推理过程，但这些文字背后，是否真的“看到”了关键病灶？一个微小的钙化点、一段几秒钟的血管异常搏动，往往决定着生死判断。然而，传统多模态模型只是将影像“喂”给大模型，再生成答案与解释，这种“被动接收”的机制，极易导致看错区域、漏看病灶、误判结构。

如今，这一局面正在被打破。上海创智学院 LeapQuest 团队联合浙江大学、上海交通大学、复旦大学，在 ICML 2026 上连续发表两篇重磅论文，首次将 “Think with Images” 与 “Think with Videos” 范式引入医学AI领域。他们提出：视觉不应只是输入，而应成为推理过程的一部分。模型不再只是“看完再解释”，而是在思考中主动“决定看哪里、怎么看、看完如何修正”。

这一突破，标志着医学AI智能体正迎来关键拐点。

从“写解释”到“用证据思考”

传统医学多模态模型的运作逻辑，类似于一个“视觉翻译官”：它将CT、MRI或超声视频编码成特征向量，再交给大模型生成诊断结论与解释。问题在于，这种流程中，视觉信息是一次性输入的静态快照。模型无法在推理过程中“回头再看一眼”某个可疑区域，也无法主动放大、分割或定位关键结构。

而 LeapQuest 团队提出的 Ophiuchus（面向医学图像）和 MedScope（面向临床长视频）两个系统，彻底改变了这一模式。它们将大模型改造成一个能与视觉工具协同工作的智能体，在推理链中动态调用外部工具，获取新的视觉证据，并据此修正判断。

以 Ophiuchus 为例，它在诊断过程中可以主动调用 SAM2 进行病灶分割、使用 BiomedParse 根据文字提示定位特定解剖结构，或通过 Zoom-in 放大可疑区域。这些工具调用的结果，不是孤立的数据，而是以“observation”（观察）的形式反馈回推理链，推动模型重新评估之前的假设。

这意味着，模型不再只是“会写解释”，而是真正开始“用视觉证据思考”。

7B 模型为何能击败 o3 与 GPT-5？

令人惊讶的是，在多个医学视觉问答（VQA）基准测试中，仅拥有 70 亿参数的 Ophiuchus-7B，平均得分达到 68.0，超越了 OpenAI-o3（62.2）、Gemini 2.5 Pro（61.8）和 GPT-5（59.9）。更关键的是，其工具调用准确率高达 97.9%。

这一结果揭示了医学AI的一个深层规律：在真正依赖细粒度视觉证据的任务中，模型规模并非决定性因素。o3 和 GPT-5 虽然语言能力更强，但在“看”的能力上，仍受限于被动输入机制。它们可能“说得头头是道”，却未必“看得清清楚楚”。

而 Ophiuchus 的优势，正在于它让模型学会了“何时看、看哪里、怎么看”。例如，在面对一张肺部CT时，模型可能先初步判断“疑似结节”，但随即调用分割工具确认边界是否清晰，再放大观察密度变化。这种“边想边看”的闭环推理，极大提升了诊断的可靠性。

“回看关键时刻”：长视频诊断的新可能

如果说 Ophiuchus 解决了静态图像的“精细观察”问题，那么 MedScope 则将这一范式延伸至动态场景——临床长视频，如内窥镜手术录像、超声心动图等。

在这些场景中，关键信息往往只出现在几秒钟内。传统模型一次性编码整个视频，极易遗漏短暂但关键的异常动作或结构变化。MedScope 的突破在于，它允许模型在推理过程中主动“回看”特定时间段，重新分析某一段视频帧，甚至逐帧比对。

例如，在判断心脏瓣膜是否反流时，模型可能先基于整体视频做出初步判断，随后调用“回看”工具聚焦于舒张期，观察血流方向是否异常。这种“时间维度的视觉推理”，使得模型能够捕捉到人类医生依赖经验才能发现的细微动态变化。

医学AI的新范式：视觉即推理

Ophiuchus 与 MedScope 的共同贡献，不仅是技术上的创新，更在于提出了一种全新的医学AI范式：让视觉证据进入模型的中间思考过程。

过去，解释是事后的语言包装；如今，解释是推理中的证据查证。模型不再“假装理解”，而是通过工具交互，真正“看见”并“验证”关键信息。这种从“被动接收”到“主动探索”的转变，正是医学AI迈向临床可用的关键一步。

未来，随着更多视觉工具的集成（如3D重建、多模态对齐、实时反馈），医学AI智能体将不再只是辅助诊断的“黑箱”，而成为医生真正的“视觉协作者”——不仅能看，还能问：“这里是不是有问题？我们再仔细看看。”

标签： 医学AI 多模态模型 视觉推理 智能体 ICML2026

标签: 医学AI 智能诊断多模态学习影像分析视频推理

返回列表

上一篇：AI重构游戏未来：腾讯发布会揭秘三大原生产品

下一篇：智象未来：原生多模态通往AGI的World模型

玖捌肆贰

医学AI视觉觉醒：从被动看图到主动思考

医学AI的“视觉觉醒”：从被动看图到主动思考

从“写解释”到“用证据思考”

7B 模型为何能击败 o3 与 GPT-5？

“回看关键时刻”：长视频诊断的新可能

医学AI的新范式：视觉即推理

相关文章

Claude Opus 4.7：AI从聊天走向自主做事

广汽2026科技日发布星灵架构4.0

AI自主玩手机！ClawGUI打通训练评测部署全流程

AI算力重构与商业航天共振

AI顶尖人才回流大厂背后的战略逻辑

腾讯QClaw用5天打开全球AI智能体市场

发表评论

Copyright 玖捌肆贰（9842.cn） Rights Reserved.
豫ICP备06015505号-10

Powered By Z-BlogPHP. Theme by TOYEAN.

玖捌肆贰

医学AI视觉觉醒：从被动看图到主动思考

医学AI的“视觉觉醒”：从被动看图到主动思考

从“写解释”到“用证据思考”

7B 模型为何能击败 o3 与 GPT-5？

“回看关键时刻”：长视频诊断的新可能

医学AI的新范式：视觉即推理

相关文章

Claude Opus 4.7：AI从聊天走向自主做事

广汽2026科技日发布星灵架构4.0

AI自主玩手机！ClawGUI打通训练评测部署全流程

AI算力重构与商业航天共振

AI顶尖人才回流大厂背后的战略逻辑

腾讯QClaw用5天打开全球AI智能体市场

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论