当前位置:首页 > AI资讯 > 正文内容

商汤开源多模态新范式,告别拼接架构

admin2个月前 (04-29)AI资讯79

从拼接走向原生:商汤开源多模态新范式

在人工智能迈向通用智能的征途中,多模态能力一直是核心挑战之一。长期以来,主流的多模态模型大多采用“视觉编码器 + 语言模型 + 适配器”的拼接式架构,将图像与文本分别处理后再进行融合。这种方式虽行之有效,却如同让一群语言不通的专家协作——信息在模块间反复翻译,导致效率损耗、语义失真,最终不得不依赖超大参数量来弥补性能短板。

如今,这一范式正被打破。商汤科技正式开源其最新研发的日日新 SenseNova U1 系列模型,基于自主研发的 NEO-unify 架构,首次实现了原生理解与生成的统一,标志着多模态 AI 进入“一个大脑,全知全能”的新阶段。

原生统一:告别“翻译式”多模态

传统多模态模型的核心问题在于“模态割裂”。图像先由视觉编码器转化为中间表示,再通过适配器“翻译”为语言模型可理解的 token;生成时又需反向操作,将语言指令“转译”为图像生成信号。这一过程不仅计算冗余,更因多次信息转换导致细节丢失,尤其在复杂图文生成任务中表现乏力。

而 SenseNova U1 的 NEO-unify 架构彻底摒弃了这种拼接逻辑。它移除独立的视觉编码器(VE)和变分自编码器(VAE),重新构建了一个统一的表征空间,使语言与视觉信息从一开始就在同一套计算框架中被建模。这意味着模型不再“先看图、再理解、再画图”,而是像人类一样,在同一个思维过程中同步处理图像与文本,实现真正的端到端多模态理解与生成。

这种“原生统一”的设计,使得信息流转更高效、语义保留更完整。实验表明,即使在仅 8B 参数的轻量版本中,SenseNova U1 Lite 也能在图像理解、生成、空间推理等任务上达到甚至超越部分大型闭源商业模型的表现,真正实现“以小搏大”。

极致效率:开源即 SOTA

效率是 NEO-unify 架构的核心优势。由于省去了模态间反复转换的开销,SenseNova U1 在保持高保真输出的同时,显著提升了推理速度。在通用图像生成测试中,其生成质量可媲美 Qwen-Image 2.0 Pro、Seedream 4.5 等商业级模型,而在响应速度上更具优势。

更令人惊艳的是其在复杂信息图生成任务中的表现。开源模型在此类任务中历来表现不佳,常出现排版错乱、文字错位等问题。而 SenseNova U1 Lite 凭借统一的表征能力,能精准控制图文布局与语义一致性,输出接近专业设计水准的结果。这得益于模型对“图文复合体”的整体建模能力——它不是分别处理图和文,而是将其视为一个有机整体进行创作。

此次开源的 SenseNova U1 Lite 包含两个版本:
- SenseNova-U1-8B-MoT:基于稠密骨干网络,适合通用场景;
- SenseNova-U1-A3B-MoT:基于混合专家(MoE)架构,在特定任务上具备更高效率。

两者均可在 GitHub 和 Hugging Face 平台免费获取,为研究者和开发者提供了强大的开源工具。

连续创作:单次调用,完整输出

SenseNova U1 的另一项突破是实现了业内首个连续性图文创作输出。传统流程中,生成一篇图文并茂的文章往往需要多次模型调用:先由语言模型撰写文本,再由图像模型生成配图,最后人工或额外模型进行排版整合。而 SenseNova U1 可在单次前向传播中完成从理解到生成的完整链条,直接输出结构完整、语义连贯的图文作品。

这一能力得益于 NEO-unify 架构对图文底层信号的深度融合。模型不仅能“看懂”图文关系,还能“想清楚”如何组织它们。未来,这一技术有望广泛应用于内容创作、教育课件生成、智能客服等领域,大幅提升自动化内容生产的效率与质量。

迈向具身智能:统一模型的未来图景

SenseNova U1 的潜力不止于内容生成。其统一架构为具身智能(Embodied AI)提供了关键基础。想象一个机器人,它需要同时感知环境(视觉)、理解指令(语言)、推理路径(逻辑)并执行动作(生成控制信号)。传统方法需多个专用模型协同,而 SenseNova U1 的架构允许在单一模型内完成从感知到决策再到执行的闭环,真正实现“一个大脑驱动全身”。

商汤表示,未来将继续沿此路径扩展模型规模,目标是“以更低的计算成本达到国际顶尖水平”。这不仅是技术的跃迁,更是推动 AI 普惠的重要一步。

标签: 多模态AI 开源模型 商汤科技 具身智能 NEO-unify

相关文章

智算赋能教育:校企协同培养AI人才新范式

智算赋能教育:校企协同推动人工智能人才培养新范式在人工智能技术迅猛发展的今天,算力已不再是单纯的硬件指标,而是驱动科研创新与教育变革的核心引擎。4月9日,一场意义深远的合作在中国人民大学立德楼悄然落地...

DeepSeek融资破戒:理想主义遭遇资本现实

资本入场,理想退场:DeepSeek 的“破戒”时刻 在 AI 大模型的竞技场中,DeepSeek 一直以“技术理想主义”的姿态特立独行。创始人梁文锋曾立下铁律:不接受外部融资,不稀释股权,不被商业时...

曦望S3专芯重塑AI推理算力格局

推理时代的算力革命:曦望如何用“专芯”重构AI基础设施 2026年,AI产业正式迈入“推理落地、智能体普及”的新纪元。当大模型不再只是“会聊天的助手”,而是进化为能思考、会执行的数字员工,一场围绕推理...

AI顶尖人才回流大厂背后的战略逻辑

从独立研究到平台赋能:顶尖AI人才的“回流”逻辑 在AI大模型竞争白热化的当下,人才流动往往被视为行业风向标。近期,前DeepSeek核心研究员、V3与R1模型的核心作者郭达雅确认加入字节跳动Seed...

华为星钻手镯表打破珠宝与智能二选一困局

当珠宝遇见智能:华为星钻手镯表如何打破高端腕表的“二选一”困局长久以来,高端女性在腕间配饰的选择上,始终面临一道艰难的二选一:是选择传统高奢珠宝腕表,彰显身份与美学品味?还是拥抱智能穿戴设备,享受健康...

ISC.AI 2026大赛开启智能体创新新纪元

智能体浪潮下的创新沙盒:ISC.AI 2026大赛开启AI生态新纪元 当人工智能从“模型竞争”迈向“智能体落地”,一场关于技术、安全与生态的深层变革正在悄然展开。4月20日,ISC.AI 2026创新...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。