当前位置:首页 > AI资讯 > 正文内容

曦望S3专芯重塑AI推理算力格局

admin2个月前 (04-20)AI资讯79

推理时代的算力革命:曦望如何用“专芯”重构AI基础设施

2026年,AI产业正式迈入“推理落地、智能体普及”的新纪元。当大模型不再只是“会聊天的助手”,而是进化为能思考、会执行的数字员工,一场围绕推理算力的底层变革正在悄然展开。在这场变革中,一家成立仅一年多的企业——曦望(Sunrise),正以其“All-in推理”的坚定战略,成为搅动国内GPU赛道的关键力量。

近日,曦望宣布完成超10亿元人民币的新一轮融资,累计融资额达40亿元,估值突破百亿,成为国内首家纯推理GPU独角兽。这笔巨额融资的背后,不仅是资本对技术路线的认可,更是对AI产业重心转移的精准预判。

从“训推一体”到“推理原生”:一场架构范式的颠覆

长期以来,GPU市场被“训推一体”的设计逻辑主导——即同一款芯片既要支持大模型训练,又要兼顾推理任务。这种“全能型”架构在AI发展初期具备战略价值,但随着智能体(Agent)的爆发式增长,其弊端日益凸显:训练模块占用大量晶体管与功耗资源,导致推理场景下的算力利用率普遍低于30%。

“AI算力基建的重心已彻底切换。”曦望董事长徐冰一语道破行业痛点。据其透露,2026年AI推理计算需求已达到训练需求的4-5倍,推理算力租赁价格半年内涨幅近40%。面对这一结构性变化,曦望选择了一条截然不同的路径:放弃训练能力,专为推理场景做深度定制。

这一决策并非凭空而来。以OpenClaw为代表的智能体推理,其“感知—规划—执行—反馈”的高频循环机制,带来了对KV-cache密集访问的全新计算负载。通用GPU因架构冗余,难以高效支撑此类任务。而曦望的S3推理GPU,正是为此而生。

启望S3:为智能体重构的推理原生架构

2026年1月发布的启望S3,是曦望技术路线的集中体现。它并非对现有GPU的简单优化,而是从AI Core计算架构到内存IO系统进行了全链路重构。

在计算层,S3通过三大创新实现效率跃升:
其一,将GEMM与Flash Attention两大核心算子的利用率分别提升至99%与98%,逼近物理极限,使标称算力几乎全部转化为有效吞吐;
其二,采用128-bit指令集与3D指令支持,结合独立线程调度机制,精准匹配智能体复杂的控制流,消除条件跳转带来的性能损耗;
其三,原生支持FP16至FP4全链路低精度运算,在DeepSeek V3/R1等主流模型上实现接近无损的FP4推理,吞吐量较FP16提升3-4倍,直接降低客户推理成本。

在系统层,S3同样展现出对推理场景的深刻理解。面对智能体高并发、长上下文的特性,KV Cache显存占比常超80%,传统HBM方案虽带宽高但成本与功耗难以承受。S3创新采用LPDDR6内存接口技术,在保障推理带宽的同时,将显存容量上限大幅提升,功耗降低50%,完美契合“大容量、高性价比、低功耗”的推理需求。更关键的是,LPDDR6与LPDDR5X的兼容性设计,使S3可灵活覆盖从边缘设备到云端服务器的全场景部署。

此外,S3还集成了高速SerDes与SUE融合互联技术,解决多模型协同时的通信瓶颈,为智能体集群化部署提供底层支撑。

从芯片到生态:构建推理时代的“操作系统”

硬件的突破只是第一步。曦望深知,在AI推理的竞争中,软件生态才是决定用户粘性的关键。本轮融资将重点投入全栈软件生态建设,包括编译器优化、推理引擎适配、Agent开发框架等,旨在降低开发者使用门槛,加速推理应用的规模化落地。

目前,曦望已推进三代推理GPU迭代,实现数万颗芯片量产交付,并保持“芯片一次性流片成功、性能符合预期”的纪录,展现出极强的工程化能力。这种从芯片研发到解决方案交付的完整闭环,使其在国产替代与自主可控的浪潮中占据先机。

结语:推理即未来

当英伟达在GTC 2026上将“每瓦Token吞吐量”定义为AI时代的核心竞争力时,曦望早已在这条赛道上深耕多年。它不追求通用性,而是以极致的专注,为推理场景打造“专芯专用”的解决方案。在智能体爆发的元年,这种“少即是多”的哲学,或许正是中国AI算力突围的最佳路径。

未来,随着S4、S5芯片的持续迭代,曦望有望在推理算力市场占据更核心的位置。而它所代表的,不仅是技术的突破,更是一种对AI产业本质的深刻洞察:真正的智能,不在于能算多快,而在于能省多少成本,服务多少真实需求。

标签: AI推理 GPU芯片 曦望Sunrise 智能体 算力革命

相关文章

中国AI换道超车:Agent时代的新突破

从“追赶者”到“领跑者”:中国AI的换道超车 当2026年第一季度的数据浮出水面,一个令人震惊的事实浮出水面:中国大模型的Token日均调用量首次超越美国。这一数字背后,不是用户基数的爆发,而是单个用...

荣耀引领端侧AI新生态

当AI从云端走向掌心:荣耀的端侧智能新图景 2026年,AI的浪潮正从数据中心涌向每个人的口袋。曾经只存在于科幻电影中的智能助手,如今正悄然在智能手机上“苏醒”。随着谷歌Gemma 4系列开源模型的发...

AI自主玩手机!ClawGUI打通训练评测部署全流程

当AI开始“玩手机”:从消消乐到真机操控的跨越 你见过AI自己玩消消乐吗?没有脚本、没有人工干预,它只是静静地看着屏幕,识别图案、规划路径、点击消除——整个过程流畅得如同一个熟练的玩家。更令人惊讶的是...

AI算力竞赛白热化:芯片到模型全面爆发

AI算力竞赛白热化:从芯片到模型的全面爆发 过去一周,全球人工智能领域迎来密集的技术突破与产业动态。从芯片巨头台积电的产能预警,到中国大模型企业DeepSeek估值破百亿,再到阿里、MiniMax等国...

一行代码破解AI巨头算力税黑箱

一行代码,撕开AI巨头的“算力税”黑箱 2025年9月,GitHub上悄然出现的一行命令 npx claude-mem install,像一颗投入深潭的石子,起初无人察觉。然而短短数月后,它竟掀起一场...

DeepSeek融资破戒:理想主义遭遇资本现实

资本入场,理想退场:DeepSeek 的“破戒”时刻 在 AI 大模型的竞技场中,DeepSeek 一直以“技术理想主义”的姿态特立独行。创始人梁文锋曾立下铁律:不接受外部融资,不稀释股权,不被商业时...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。