当前位置:首页 > AI资讯 > 正文内容

智象发布200B参数原生全模态图像大模型

admin1小时前AI资讯2

原生全模态的破局:智象未来发布200B+参数图像大模型HiDream-O1-Image-Pro

5月19日,北京。一场以“Imaging the World”为主题的AI开放日,揭开了图像生成领域的新篇章。智象未来正式发布了其基于原生全模态模型架构Unified Transformer(UiT)打造的图像大模型——HiDream-O1-Image-Pro。这款拥有超两千亿参数的闭源模型,不仅在多项基准测试中刷新SOTA(State-of-the-Art)纪录,更标志着AI正从“多模态拼接”迈向“原生全模态”的深层演进。

从“拼接”到“原生”:架构范式的根本变革

当前主流图像生成模型,如基于潜在扩散模型(LDM)的架构,普遍采用“图像-文本分离编码”的方式:通过VAE压缩图像、独立语言模型处理文本,再在扩散过程中进行融合。这种模块化设计虽提升了效率,却也带来了语义理解偏差、细节还原不足、文字渲染模糊等固有限制。

HiDream-O1-Image-Pro的突破,在于其原生全模态架构UiT。它将原始图像像素、离散文本标记与任务条件统一映射到连续的共享标记空间,实现多模态信息在底层表征上的深度融合。这意味着模型不再“拼凑”不同模态的信息,而是像人类一样,从一开始就同步理解图像与语言,形成对世界的统一认知。

正如智象未来创始人兼CEO梅涛所言:“原生多模态,是从一开始就把‘世界的规则’刻进模型里——它知道物理定律、空间关系、因果逻辑。” 这种架构不仅提升了生成质量,更赋予模型更强的泛化能力,使其在复杂文本渲染、多主体个性化、指令编辑等高难度任务中表现卓越。

小模型也能打大仗:开源版的惊艳表现

值得注意的是,智象未来此前已开源了采用UiT架构的HiDream-O1-Image(8B参数版本)。该模型在全球知名评测平台Artificial Analysis的文生图榜单上登顶开源模型第一,超越了Z-Image Turbo、Qwen-Image、FLUX.2等主流模型,且成为榜单前20中参数量最小的版本。

这一“以小博大”的成绩,充分验证了UiT架构的高效性与可扩展性。而此次发布的HiDream-O1-Image-Pro作为闭源旗舰版本,参数规模跃升至200B+,进一步放大了架构优势,在复杂场景生成与高保真细节还原方面树立了新的技术标杆。

资本看好原生全模态:半月内再获亿级融资

技术突破的背后,是资本市场的持续青睐。智象未来在开放日当天宣布完成新一轮亿级融资,深创投、金浦投资、财鑫资本、复聚资本等多家机构参与。这已是其半个月内的第二次融资,凸显了投资方对“原生全模态”这一技术路径的高度认可。

随着视觉生成、具身智能、Agent等前沿技术的融合加速,AI的演进方向正从“内容生成”转向“世界建模”。一个能理解环境状态、预测变化规律、跨模态交互的“世界模型”,被视为通往AGI(通用人工智能)的关键路径。而原生全模态架构,正是构建这一能力的基石。

在圆桌论坛中,来自微软亚洲研究院、阿里云、东方富海等机构的专家一致认为:AI的下一站,是建立对真实物理世界的统一表征。视觉生成不再只是艺术创作工具,而是通向“理解世界”的入口。模型能否在图像、文本、音频甚至传感器数据之间自由转换、推理与预测,决定了其能否真正参与现实世界的决策与行动。

智象未来的探索,正是这一趋势的缩影。从底层架构创新到产品化落地,再到生态布局,其正逐步构建起从“生成内容”到“重构世界”的技术闭环。

未来已来,而原生全模态,或许正是打开AGI之门的钥匙。

标签: 原生全模态 图像生成 世界模型 AGI UiT架构

相关文章

Cloudflare Agent Cloud开启企业AI自动化新纪元

企业智能新引擎:Cloudflare Agent Cloud 融合 OpenAI 开启自动化新纪元在人工智能从“辅助工具”迈向“自主代理”的关键转折点上,企业正面临一场深刻的效率革命。如何让AI不再局...

中国AI日均调用量破140万亿

日均140万亿词元调用背后:中国AI商业化进入“高速车道” 4月16日,国家统计局在国新办新闻发布会上公布了一组令人瞩目的数据:截至今年3月,我国人工智能日均词元(Token)调用量已突破140万亿,...

物理AI时代汽车芯片的颠覆性革命

从“控制轮子”到“整车智能体”:物理AI时代的芯片革命 当智能汽车从“会说话的轮子”迈向真正的“物理AI智能体”,一场底层架构的范式转移正在悄然发生。过去十年,智能驾驶的核心任务是“感知环境、规划路径...

谷歌开源Gemma 4重塑轻量级智能体生态

谷歌开源新里程碑:Gemma 4 如何重塑轻量级智能体生态 在开源大模型领域,谷歌再次迈出关键一步。最新发布的 Gemma 4 系列不仅延续了前代对轻量化与高性能的追求,更通过引入多模态能力、智能体原...

AI自主玩手机!ClawGUI打通训练评测部署全流程

当AI开始“玩手机”:从消消乐到真机操控的跨越 你见过AI自己玩消消乐吗?没有脚本、没有人工干预,它只是静静地看着屏幕,识别图案、规划路径、点击消除——整个过程流畅得如同一个熟练的玩家。更令人惊讶的是...

AI让孕期可视化,奇世智能重塑母婴体验

从“听胎心”到“见成长”:AI如何重塑母婴智能硬件生态 当95后、00后逐渐成为育儿主力军,他们对科学育儿、情感陪伴与效率提升的追求,正在推动母婴行业进入一个全新的智能化时代。在这一背景下,专注于AI...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。