当前位置：首页 > AI资讯 > 正文内容

商汤开源多模态新范式，告别拼接架构

admin2小时前AI资讯3

从拼接走向原生：商汤开源多模态新范式

在人工智能迈向通用智能的征途中，多模态能力一直是核心挑战之一。长期以来，主流的多模态模型大多采用“视觉编码器 + 语言模型 + 适配器”的拼接式架构，将图像与文本分别处理后再进行融合。这种方式虽行之有效，却如同让一群语言不通的专家协作——信息在模块间反复翻译，导致效率损耗、语义失真，最终不得不依赖超大参数量来弥补性能短板。

如今，这一范式正被打破。商汤科技正式开源其最新研发的日日新 SenseNova U1 系列模型，基于自主研发的 NEO-unify 架构，首次实现了原生理解与生成的统一，标志着多模态 AI 进入“一个大脑，全知全能”的新阶段。

原生统一：告别“翻译式”多模态

传统多模态模型的核心问题在于“模态割裂”。图像先由视觉编码器转化为中间表示，再通过适配器“翻译”为语言模型可理解的 token；生成时又需反向操作，将语言指令“转译”为图像生成信号。这一过程不仅计算冗余，更因多次信息转换导致细节丢失，尤其在复杂图文生成任务中表现乏力。

而 SenseNova U1 的 NEO-unify 架构彻底摒弃了这种拼接逻辑。它移除独立的视觉编码器（VE）和变分自编码器（VAE），重新构建了一个统一的表征空间，使语言与视觉信息从一开始就在同一套计算框架中被建模。这意味着模型不再“先看图、再理解、再画图”，而是像人类一样，在同一个思维过程中同步处理图像与文本，实现真正的端到端多模态理解与生成。

这种“原生统一”的设计，使得信息流转更高效、语义保留更完整。实验表明，即使在仅 8B 参数的轻量版本中，SenseNova U1 Lite 也能在图像理解、生成、空间推理等任务上达到甚至超越部分大型闭源商业模型的表现，真正实现“以小搏大”。

极致效率：开源即 SOTA

效率是 NEO-unify 架构的核心优势。由于省去了模态间反复转换的开销，SenseNova U1 在保持高保真输出的同时，显著提升了推理速度。在通用图像生成测试中，其生成质量可媲美 Qwen-Image 2.0 Pro、Seedream 4.5 等商业级模型，而在响应速度上更具优势。

更令人惊艳的是其在复杂信息图生成任务中的表现。开源模型在此类任务中历来表现不佳，常出现排版错乱、文字错位等问题。而 SenseNova U1 Lite 凭借统一的表征能力，能精准控制图文布局与语义一致性，输出接近专业设计水准的结果。这得益于模型对“图文复合体”的整体建模能力——它不是分别处理图和文，而是将其视为一个有机整体进行创作。

此次开源的 SenseNova U1 Lite 包含两个版本：
- SenseNova-U1-8B-MoT：基于稠密骨干网络，适合通用场景；
- SenseNova-U1-A3B-MoT：基于混合专家（MoE）架构，在特定任务上具备更高效率。

两者均可在 GitHub 和 Hugging Face 平台免费获取，为研究者和开发者提供了强大的开源工具。

连续创作：单次调用，完整输出

SenseNova U1 的另一项突破是实现了业内首个连续性图文创作输出。传统流程中，生成一篇图文并茂的文章往往需要多次模型调用：先由语言模型撰写文本，再由图像模型生成配图，最后人工或额外模型进行排版整合。而 SenseNova U1 可在单次前向传播中完成从理解到生成的完整链条，直接输出结构完整、语义连贯的图文作品。

这一能力得益于 NEO-unify 架构对图文底层信号的深度融合。模型不仅能“看懂”图文关系，还能“想清楚”如何组织它们。未来，这一技术有望广泛应用于内容创作、教育课件生成、智能客服等领域，大幅提升自动化内容生产的效率与质量。

迈向具身智能：统一模型的未来图景

SenseNova U1 的潜力不止于内容生成。其统一架构为具身智能（Embodied AI）提供了关键基础。想象一个机器人，它需要同时感知环境（视觉）、理解指令（语言）、推理路径（逻辑）并执行动作（生成控制信号）。传统方法需多个专用模型协同，而 SenseNova U1 的架构允许在单一模型内完成从感知到决策再到执行的闭环，真正实现“一个大脑驱动全身”。

商汤表示，未来将继续沿此路径扩展模型规模，目标是“以更低的计算成本达到国际顶尖水平”。这不仅是技术的跃迁，更是推动 AI 普惠的重要一步。

标签： 多模态AI 开源模型 商汤科技 具身智能 NEO-unify

标签: 商汤多模态 AI开源 NEO-unify SenseNova

返回列表

上一篇：马斯克起诉OpenAI：AI伦理与商业利益的世纪审判

下一篇：MemoraX AI突破内生记忆技术瓶颈

玖捌肆贰

商汤开源多模态新范式，告别拼接架构

从拼接走向原生：商汤开源多模态新范式

原生统一：告别“翻译式”多模态

极致效率：开源即 SOTA

连续创作：单次调用，完整输出

迈向具身智能：统一模型的未来图景

相关文章

VAKRA智能代理的推理与工具能力解析

智象未来打造原生全模态世界模型

Claude Opus 4.7：AI从聊天走向自主做事

极氪8X量产中国首款Grok+FSD车型

机器人迎来GPT-3时刻：π0.7实现自主思考

生成式AI ROI达49%，智能体如何落地变现

发表评论

Copyright 玖捌肆贰（9842.cn） Rights Reserved.
豫ICP备06015505号-10

Powered By Z-BlogPHP. Theme by TOYEAN.

玖捌肆贰

商汤开源多模态新范式，告别拼接架构

从拼接走向原生：商汤开源多模态新范式

原生统一：告别“翻译式”多模态

极致效率：开源即 SOTA

连续创作：单次调用，完整输出

迈向具身智能：统一模型的未来图景

相关文章

VAKRA智能代理的推理与工具能力解析

智象未来打造原生全模态世界模型

Claude Opus 4.7：AI从聊天走向自主做事

极氪8X量产中国首款Grok+FSD车型

机器人迎来GPT-3时刻：π0.7实现自主思考

生成式AI ROI达49%，智能体如何落地变现

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论