三值量化让大模型轻松上手机端
大模型“瘦身”革命:中国团队用三值量化打破端侧部署瓶颈
长期以来,大模型的“体型”与“算力需求”成正比,成为其落地终端设备的最大障碍。一个80亿参数(8B)的模型,通常需要约16GB显存才能运行,这几乎将部署场景牢牢锁定在高性能服务器上。然而,随着AI向手机、PC等终端渗透的趋势日益明显,如何让大模型“轻装上阵”,成为行业攻坚的核心方向。
最近,一条由中国AI公司面壁智能联合清华大学与OpenBMB社区开辟的技术路径,给出了令人振奋的答案:通过三值量化技术,将模型压缩至原体积的1/6,同时保留97%以上的性能,甚至有望让600亿参数的大模型在8GB内存的手机上运行。
从“全彩照片”到“三色极简图”:三值量化的极致压缩
传统大模型使用高精度浮点数(如BF16)存储权重,每个参数可取数万种不同数值,精度虽高,却极为“占地”。而三值量化(Ternary Quantization)则采取极端压缩策略:将每个权重的取值范围从几万种直接压缩到仅三种——例如-1、0、+1。这种技术被称为1.58-bit量化,因为编码三个值恰好需要约1.58个二进制位。
这相当于将一幅全彩照片压缩为仅有黑、白、灰三色的极简图形。直觉上,如此激进的操作必然导致性能大幅下滑。但近年研究反复证明,大模型内部存在大量冗余信息,只要三值分配得当,足以承载模型的核心能力。
这一思路并非全新。2024年,微软研究院发布BitNet b1.58,首次系统论证三值模型可逼近全精度性能;随后又推出20亿参数、训练4万亿token的开源模型BitNet b1.58 2B4T。美国公司PrismML也于近期发布商业级Ternary Bonsai系列。学术界如Tequila、TernaryLM等团队也在探索原生三值训练方法。全球范围内,一场围绕“极致压缩”的技术竞赛已然成型。
昇腾上的第一次:国产算力跑通三值训练闭环
尽管国际进展迅速,但一个关键问题始终悬而未决:三值大模型训练,能否在国产算力上跑通?
在华为鲲鹏昇腾开发者大会(KADC 2026)上,面壁智能给出了明确答案:BitCPM-CANN,全球首个在华为昇腾芯片上端到端完成训练的三值大模型系列,正式开源发布。
这一成果实现了三大突破:
- 首次基于国产算力完成三值模型全流程训练。此前所有公开的三值模型均依赖NVIDIA GPU,BitCPM-CANN标志着国产芯片阵营正式拥有自主三值训练能力。
- 首次将规模推至8B级别。不同于以往小规模验证,BitCPM-CANN一次性发布0.5B、1B、3B、8B四个档位,覆盖从手机到PC的完整端侧场景。
- 首次实现与全精度模型的全面对标评测。在11项任务、四大类评测(常识、阅读理解、学科知识、数学推理)中,1B至8B档位的性能保留率高达95.7%至97.2%,其中3B版本表现最佳,达97.2%。
这意味着,BitCPM-CANN在ARC、CMMLU、GSM8K等主流评测中,与同尺寸MiniCPM4全精度模型的差距,已小于许多全精度模型之间的自然差异。更重要的是,这不是实验室数据,而是可直接下载、复现的开源成果。
6倍显存节省:从服务器到手机,人人可享“轻量AI”
BitCPM-CANN带来的最直接红利,是显存占用的大幅降低。相比BF16全精度模型,其三值版本节省约6倍显存。一个原本需要16GB显存的8B模型,现在仅需不到3GB,足以在普通手机上流畅运行。
结合MoE(混合专家)架构与激活范围约束技术,未来甚至有望将600亿参数的大模型装入终端设备。而硬件端也已做好准备:高通最新旗舰芯片8850和8397已支持2-bit原生推理,BitCPM-CANN提供的低比特权重可直接适配。
这不仅是技术突破,更是一场“双向奔赴”:芯片厂商提供低比特支持,模型厂商提供适配方案,终端厂商加速端侧AI布局。从Google I/O上Gemini全面接管Android设备,到苹果即将在WWDC展示的新一代AI系统,端侧大模型的时代正在加速到来。
BitCPM-CANN的出现,不仅填补了中国在低比特大模型训练上的空白,更标志着国产AI生态正从“跟随”走向“引领”。当大模型真正“装进手机”,AI的普惠时代,或许才刚刚开始。
标签: 大模型压缩 三值量化 端侧AI 国产算力 BitCPM-CANN