当前位置:首页 > AI资讯 > 正文内容

商汤开源多模态新范式,告别拼接架构

admin2小时前AI资讯3

从拼接走向原生:商汤开源多模态新范式

在人工智能迈向通用智能的征途中,多模态能力一直是核心挑战之一。长期以来,主流的多模态模型大多采用“视觉编码器 + 语言模型 + 适配器”的拼接式架构,将图像与文本分别处理后再进行融合。这种方式虽行之有效,却如同让一群语言不通的专家协作——信息在模块间反复翻译,导致效率损耗、语义失真,最终不得不依赖超大参数量来弥补性能短板。

如今,这一范式正被打破。商汤科技正式开源其最新研发的日日新 SenseNova U1 系列模型,基于自主研发的 NEO-unify 架构,首次实现了原生理解与生成的统一,标志着多模态 AI 进入“一个大脑,全知全能”的新阶段。

原生统一:告别“翻译式”多模态

传统多模态模型的核心问题在于“模态割裂”。图像先由视觉编码器转化为中间表示,再通过适配器“翻译”为语言模型可理解的 token;生成时又需反向操作,将语言指令“转译”为图像生成信号。这一过程不仅计算冗余,更因多次信息转换导致细节丢失,尤其在复杂图文生成任务中表现乏力。

而 SenseNova U1 的 NEO-unify 架构彻底摒弃了这种拼接逻辑。它移除独立的视觉编码器(VE)和变分自编码器(VAE),重新构建了一个统一的表征空间,使语言与视觉信息从一开始就在同一套计算框架中被建模。这意味着模型不再“先看图、再理解、再画图”,而是像人类一样,在同一个思维过程中同步处理图像与文本,实现真正的端到端多模态理解与生成。

这种“原生统一”的设计,使得信息流转更高效、语义保留更完整。实验表明,即使在仅 8B 参数的轻量版本中,SenseNova U1 Lite 也能在图像理解、生成、空间推理等任务上达到甚至超越部分大型闭源商业模型的表现,真正实现“以小搏大”。

极致效率:开源即 SOTA

效率是 NEO-unify 架构的核心优势。由于省去了模态间反复转换的开销,SenseNova U1 在保持高保真输出的同时,显著提升了推理速度。在通用图像生成测试中,其生成质量可媲美 Qwen-Image 2.0 Pro、Seedream 4.5 等商业级模型,而在响应速度上更具优势。

更令人惊艳的是其在复杂信息图生成任务中的表现。开源模型在此类任务中历来表现不佳,常出现排版错乱、文字错位等问题。而 SenseNova U1 Lite 凭借统一的表征能力,能精准控制图文布局与语义一致性,输出接近专业设计水准的结果。这得益于模型对“图文复合体”的整体建模能力——它不是分别处理图和文,而是将其视为一个有机整体进行创作。

此次开源的 SenseNova U1 Lite 包含两个版本:
- SenseNova-U1-8B-MoT:基于稠密骨干网络,适合通用场景;
- SenseNova-U1-A3B-MoT:基于混合专家(MoE)架构,在特定任务上具备更高效率。

两者均可在 GitHub 和 Hugging Face 平台免费获取,为研究者和开发者提供了强大的开源工具。

连续创作:单次调用,完整输出

SenseNova U1 的另一项突破是实现了业内首个连续性图文创作输出。传统流程中,生成一篇图文并茂的文章往往需要多次模型调用:先由语言模型撰写文本,再由图像模型生成配图,最后人工或额外模型进行排版整合。而 SenseNova U1 可在单次前向传播中完成从理解到生成的完整链条,直接输出结构完整、语义连贯的图文作品。

这一能力得益于 NEO-unify 架构对图文底层信号的深度融合。模型不仅能“看懂”图文关系,还能“想清楚”如何组织它们。未来,这一技术有望广泛应用于内容创作、教育课件生成、智能客服等领域,大幅提升自动化内容生产的效率与质量。

迈向具身智能:统一模型的未来图景

SenseNova U1 的潜力不止于内容生成。其统一架构为具身智能(Embodied AI)提供了关键基础。想象一个机器人,它需要同时感知环境(视觉)、理解指令(语言)、推理路径(逻辑)并执行动作(生成控制信号)。传统方法需多个专用模型协同,而 SenseNova U1 的架构允许在单一模型内完成从感知到决策再到执行的闭环,真正实现“一个大脑驱动全身”。

商汤表示,未来将继续沿此路径扩展模型规模,目标是“以更低的计算成本达到国际顶尖水平”。这不仅是技术的跃迁,更是推动 AI 普惠的重要一步。

标签: 多模态AI 开源模型 商汤科技 具身智能 NEO-unify

相关文章

VAKRA智能代理的推理与工具能力解析

探索VAKRA:智能代理的推理、工具使用与失败模式解析在人工智能快速发展的今天,智能代理(AI Agents)正逐步从理论走向实践,承担起复杂任务的执行角色。IBM Research 近期发布的 VA...

智象未来打造原生全模态世界模型

从多模态到世界模型:智象未来的AI进化之路 在人工智能技术快速迭代的当下,生成式AI正从单一模态的“工具型”应用,迈向融合视觉、听觉、语言乃至物理逻辑的“认知型”系统。近日,国内多模态生成式AI企业智...

Claude Opus 4.7:AI从聊天走向自主做事

从“会聊天”到“能做事”:Claude Opus 4.7 的范式跃迁 人工智能的竞争正在悄然转向。过去,我们衡量大模型优劣的标准往往是“对话是否流畅”“回答是否自然”,而如今,真正的分水岭已落在“它能...

极氪8X量产中国首款Grok+FSD车型

从实验室到方向盘:中国首个“Grok+FSD”体验正式落地 2026年4月17日,极氪全新旗舰SUV极氪8X正式量产上市,一个更具里程碑意义的消息随之揭晓——搭载阶跃Step 3.5 Flash等核心...

机器人迎来GPT-3时刻:π0.7实现自主思考

机器人终于迎来了它的“GPT-3时刻” 当人们还在争论具身智能是否真的能走向通用时,Physical Intelligence(PI)用一款名为 π0.7 的VLA(视觉-语言-动作)模型,给出了一个...

生成式AI ROI达49%,智能体如何落地变现

从试验田到生产线:生成式 AI 与智能体的 ROI 兑现之路 过去几年,生成式 AI 的风潮席卷全球,企业纷纷投入资源进行试点探索。然而,随着技术逐渐成熟,讨论的焦点已从“AI 能做什么”转向“AI...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。