智象发布200B参数原生全模态图像大模型
原生全模态的破局:智象未来发布200B+参数图像大模型HiDream-O1-Image-Pro
5月19日,北京。一场以“Imaging the World”为主题的AI开放日,揭开了图像生成领域的新篇章。智象未来正式发布了其基于原生全模态模型架构Unified Transformer(UiT)打造的图像大模型——HiDream-O1-Image-Pro。这款拥有超两千亿参数的闭源模型,不仅在多项基准测试中刷新SOTA(State-of-the-Art)纪录,更标志着AI正从“多模态拼接”迈向“原生全模态”的深层演进。
从“拼接”到“原生”:架构范式的根本变革
当前主流图像生成模型,如基于潜在扩散模型(LDM)的架构,普遍采用“图像-文本分离编码”的方式:通过VAE压缩图像、独立语言模型处理文本,再在扩散过程中进行融合。这种模块化设计虽提升了效率,却也带来了语义理解偏差、细节还原不足、文字渲染模糊等固有限制。
HiDream-O1-Image-Pro的突破,在于其原生全模态架构UiT。它将原始图像像素、离散文本标记与任务条件统一映射到连续的共享标记空间,实现多模态信息在底层表征上的深度融合。这意味着模型不再“拼凑”不同模态的信息,而是像人类一样,从一开始就同步理解图像与语言,形成对世界的统一认知。
正如智象未来创始人兼CEO梅涛所言:“原生多模态,是从一开始就把‘世界的规则’刻进模型里——它知道物理定律、空间关系、因果逻辑。” 这种架构不仅提升了生成质量,更赋予模型更强的泛化能力,使其在复杂文本渲染、多主体个性化、指令编辑等高难度任务中表现卓越。
小模型也能打大仗:开源版的惊艳表现
值得注意的是,智象未来此前已开源了采用UiT架构的HiDream-O1-Image(8B参数版本)。该模型在全球知名评测平台Artificial Analysis的文生图榜单上登顶开源模型第一,超越了Z-Image Turbo、Qwen-Image、FLUX.2等主流模型,且成为榜单前20中参数量最小的版本。
这一“以小博大”的成绩,充分验证了UiT架构的高效性与可扩展性。而此次发布的HiDream-O1-Image-Pro作为闭源旗舰版本,参数规模跃升至200B+,进一步放大了架构优势,在复杂场景生成与高保真细节还原方面树立了新的技术标杆。
资本看好原生全模态:半月内再获亿级融资
技术突破的背后,是资本市场的持续青睐。智象未来在开放日当天宣布完成新一轮亿级融资,深创投、金浦投资、财鑫资本、复聚资本等多家机构参与。这已是其半个月内的第二次融资,凸显了投资方对“原生全模态”这一技术路径的高度认可。
随着视觉生成、具身智能、Agent等前沿技术的融合加速,AI的演进方向正从“内容生成”转向“世界建模”。一个能理解环境状态、预测变化规律、跨模态交互的“世界模型”,被视为通往AGI(通用人工智能)的关键路径。而原生全模态架构,正是构建这一能力的基石。
在圆桌论坛中,来自微软亚洲研究院、阿里云、东方富海等机构的专家一致认为:AI的下一站,是建立对真实物理世界的统一表征。视觉生成不再只是艺术创作工具,而是通向“理解世界”的入口。模型能否在图像、文本、音频甚至传感器数据之间自由转换、推理与预测,决定了其能否真正参与现实世界的决策与行动。
智象未来的探索,正是这一趋势的缩影。从底层架构创新到产品化落地,再到生态布局,其正逐步构建起从“生成内容”到“重构世界”的技术闭环。
未来已来,而原生全模态,或许正是打开AGI之门的钥匙。
标签: 原生全模态 图像生成 世界模型 AGI UiT架构