当前位置:首页 > AI资讯 > 正文内容

FlagOS实现DeepSeek-V4多芯Day0适配

admin2个月前 (04-25)AI资讯85

国产AI芯片生态迎来关键突破:FlagOS实现DeepSeek-V4多芯“Day 0”适配

在AI大模型竞争日益激烈的当下,模型的创新已不再是唯一战场,底层系统的兼容性与泛化能力正成为决定技术落地广度与效率的关键。近日,由智源研究院主导研发的众智FlagOS系统,在DeepSeek-V4系列模型发布当天,便完成了对DeepSeek-V4-Flash在八款主流AI芯片上的全量适配与推理部署,涵盖海光、沐曦、华为昇腾、摩尔线程、昆仑芯、平头哥真武、天数智芯及英伟达(FP8)等国内外厂商。这一“Day 0”级适配不仅展现了我国在AI系统软件层的自主可控能力,更通过三项核心技术突破,为国产AI芯片生态的“百花齐放”铺平了道路。

一、从“芯片适配模型”到“模型即插即用”:FlagGems的跨芯革命

传统AI模型部署中,每推出一个新模型,芯片厂商往往需要投入大量人力进行算子适配,尤其是面对DeepSeek-V4-Flash这类采用混合专家(MoE)架构、引入压缩稀疏注意力(CSA)与高度压缩注意力(HCA)等新型计算模式的复杂模型,适配周期长、成本高。而FlagOS此次通过FlagGems全算子替代方案,彻底改变了这一局面。

FlagGems基于Triton/Triton-TLE语言,重新实现了包括MoE专家调度、Attention计算、RMSNorm、TopK路由等在内的全部核心算子,完全摆脱了对NVIDIA CUDA生态的依赖。这意味着,无论是国产芯片还是国际主流GPU,只要支持通用计算接口,FlagGems即可通过FlagTree编译器将模型算子统一编译到目标硬件后端,实现“一次开发,多芯运行”。目前,FlagGems已集成超400个大模型常用算子,覆盖PyTorch生态中90%以上的推理任务,真正做到了“新模型即插即用”。

二、突破显存瓶颈:o-group独立张量并行策略

DeepSeek-V4-Flash为提升效率,采用了分组输出投影技术(o-group=8),这在传统张量并行中意味着最多只能切分为8份,严重限制了模型在显存较小的国产芯片(如32GB或64GB显存)上的部署能力。若强行切分超过8份,会导致o-group结构失效,影响模型精度与推理稳定性。

FlagOS团队创新性地提出为o-group设计独立的张量并行策略:在保持o-group切分不超过8份的前提下,允许模型其他部分(如专家网络、注意力层)采用更高维度的张量并行,从而实现超过8台设备的协同计算。这一“分而治之”的策略,不仅突破了单机8卡的硬性限制,还显著提升了模型在低显存设备上的部署灵活性,使更多国产中端AI芯片也能高效运行千亿级参数模型。

三、精度与效率的平衡:FP4+FP8混合精度原生支持

尽管DeepSeek-V4-Flash原生支持FP4量化,但当前国内主流AI芯片普遍缺乏FP4硬件支持,英伟达也仅在Blackwell架构后才引入该特性。为此,FlagOS实现了“FP4+FP8混合精度”到FP8/BF16的原生权重转换路径,在不依赖FP4硬件的前提下,仍能保持接近原生的推理性能。

这一技术通过智能精度映射与动态量化补偿机制,确保模型在FP8/BF16格式下运行时,关键计算路径的数值稳定性与输出质量不受显著影响。结合FlagGems的算子优化,最终实现在非FP4芯片上的高效、稳定推理,极大拓展了DeepSeek-V4-Flash的适用场景。

结语:迈向“一模型,全芯片”的AI新时代

FlagOS此次对DeepSeek-V4-Flash的“Day 0”多芯适配,不仅是技术上的突破,更标志着我国AI系统软件正从“跟随适配”走向“引领标准”。通过FlagGems、o-group并行策略与混合精度转换三大创新,FlagOS构建了一个真正开放、兼容、高效的AI推理底座,为国产AI芯片的规模化应用提供了坚实支撑。

未来,随着DeepSeek-V4-Pro在多芯片平台的迁移适配完成并开源,FlagOS有望成为连接国产AI模型与硬件生态的“通用操作系统”,推动我国人工智能产业走向更加自主、协同、繁荣的新阶段。

标签: FlagOS DeepSeek-V4 国产AI芯片 多芯适配 AI系统软件

相关文章

OpenAI推出专为网络安全设计的GPT-5.4-Cyber模型

网络安全的新防线:OpenAI 推出 GPT-5.4-Cyber 模型在数字化浪潮席卷全球的今天,网络安全已不再是技术圈内的“小众议题”,而是关乎企业生存、个人隐私乃至国家安全的战略要地。面对日益复杂...

中国AI换道超车:Agent时代的新突破

从“追赶者”到“领跑者”:中国AI的换道超车 当2026年第一季度的数据浮出水面,一个令人震惊的事实浮出水面:中国大模型的Token日均调用量首次超越美国。这一数字背后,不是用户基数的爆发,而是单个用...

广州共识开启AI开源新纪元

开源共生:人工智能生态的“广州共识”开启新纪元 4月20日,广州的一场研讨会悄然点燃了人工智能开源生态的燎原之火。在广东省高级人民法院主办的“司法护航创新·开源共治共赢”主题研讨会上,来自全国24家人...

华为星钻手镯表打破珠宝与智能二选一困局

当珠宝遇见智能:华为星钻手镯表如何打破高端腕表的“二选一”困局长久以来,高端女性在腕间配饰的选择上,始终面临一道艰难的二选一:是选择传统高奢珠宝腕表,彰显身份与美学品味?还是拥抱智能穿戴设备,享受健康...

ISC.AI 2026大赛开启智能体创新新纪元

智能体浪潮下的创新沙盒:ISC.AI 2026大赛开启AI生态新纪元 当人工智能从“模型竞争”迈向“智能体落地”,一场关于技术、安全与生态的深层变革正在悄然展开。4月20日,ISC.AI 2026创新...

多模态AI全面开放,算力竞争白热化

多模态AI普及加速,算力与生态竞争进入深水区 4月22日,全球AI领域迎来密集的技术与战略动态。从OpenAI全面开放多模态图像生成能力,到Meta、英伟达、英特尔等巨头在算力、图形AI与端侧智能上的...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。