商汤开源多模态新范式,告别拼接架构
从拼接走向原生:商汤开源多模态新范式
在人工智能迈向通用智能的征途中,多模态能力一直是核心挑战之一。长期以来,主流的多模态模型大多采用“视觉编码器 + 语言模型 + 适配器”的拼接式架构,将图像与文本分别处理后再进行融合。这种方式虽行之有效,却如同让一群语言不通的专家协作——信息在模块间反复翻译,导致效率损耗、语义失真,最终不得不依赖超大参数量来弥补性能短板。
如今,这一范式正被打破。商汤科技正式开源其最新研发的日日新 SenseNova U1 系列模型,基于自主研发的 NEO-unify 架构,首次实现了原生理解与生成的统一,标志着多模态 AI 进入“一个大脑,全知全能”的新阶段。
原生统一:告别“翻译式”多模态
传统多模态模型的核心问题在于“模态割裂”。图像先由视觉编码器转化为中间表示,再通过适配器“翻译”为语言模型可理解的 token;生成时又需反向操作,将语言指令“转译”为图像生成信号。这一过程不仅计算冗余,更因多次信息转换导致细节丢失,尤其在复杂图文生成任务中表现乏力。
而 SenseNova U1 的 NEO-unify 架构彻底摒弃了这种拼接逻辑。它移除独立的视觉编码器(VE)和变分自编码器(VAE),重新构建了一个统一的表征空间,使语言与视觉信息从一开始就在同一套计算框架中被建模。这意味着模型不再“先看图、再理解、再画图”,而是像人类一样,在同一个思维过程中同步处理图像与文本,实现真正的端到端多模态理解与生成。
这种“原生统一”的设计,使得信息流转更高效、语义保留更完整。实验表明,即使在仅 8B 参数的轻量版本中,SenseNova U1 Lite 也能在图像理解、生成、空间推理等任务上达到甚至超越部分大型闭源商业模型的表现,真正实现“以小搏大”。
极致效率:开源即 SOTA
效率是 NEO-unify 架构的核心优势。由于省去了模态间反复转换的开销,SenseNova U1 在保持高保真输出的同时,显著提升了推理速度。在通用图像生成测试中,其生成质量可媲美 Qwen-Image 2.0 Pro、Seedream 4.5 等商业级模型,而在响应速度上更具优势。
更令人惊艳的是其在复杂信息图生成任务中的表现。开源模型在此类任务中历来表现不佳,常出现排版错乱、文字错位等问题。而 SenseNova U1 Lite 凭借统一的表征能力,能精准控制图文布局与语义一致性,输出接近专业设计水准的结果。这得益于模型对“图文复合体”的整体建模能力——它不是分别处理图和文,而是将其视为一个有机整体进行创作。
此次开源的 SenseNova U1 Lite 包含两个版本:
- SenseNova-U1-8B-MoT:基于稠密骨干网络,适合通用场景;
- SenseNova-U1-A3B-MoT:基于混合专家(MoE)架构,在特定任务上具备更高效率。
两者均可在 GitHub 和 Hugging Face 平台免费获取,为研究者和开发者提供了强大的开源工具。
连续创作:单次调用,完整输出
SenseNova U1 的另一项突破是实现了业内首个连续性图文创作输出。传统流程中,生成一篇图文并茂的文章往往需要多次模型调用:先由语言模型撰写文本,再由图像模型生成配图,最后人工或额外模型进行排版整合。而 SenseNova U1 可在单次前向传播中完成从理解到生成的完整链条,直接输出结构完整、语义连贯的图文作品。
这一能力得益于 NEO-unify 架构对图文底层信号的深度融合。模型不仅能“看懂”图文关系,还能“想清楚”如何组织它们。未来,这一技术有望广泛应用于内容创作、教育课件生成、智能客服等领域,大幅提升自动化内容生产的效率与质量。
迈向具身智能:统一模型的未来图景
SenseNova U1 的潜力不止于内容生成。其统一架构为具身智能(Embodied AI)提供了关键基础。想象一个机器人,它需要同时感知环境(视觉)、理解指令(语言)、推理路径(逻辑)并执行动作(生成控制信号)。传统方法需多个专用模型协同,而 SenseNova U1 的架构允许在单一模型内完成从感知到决策再到执行的闭环,真正实现“一个大脑驱动全身”。
商汤表示,未来将继续沿此路径扩展模型规模,目标是“以更低的计算成本达到国际顶尖水平”。这不仅是技术的跃迁,更是推动 AI 普惠的重要一步。
标签: 多模态AI 开源模型 商汤科技 具身智能 NEO-unify