当前位置：首页 > AI资讯 > 正文内容

三值量化让大模型轻松上手机端

admin2个月前 (05-26)AI资讯121

大模型“瘦身”革命：中国团队用三值量化打破端侧部署瓶颈

长期以来，大模型的“体型”与“算力需求”成正比，成为其落地终端设备的最大障碍。一个80亿参数（8B）的模型，通常需要约16GB显存才能运行，这几乎将部署场景牢牢锁定在高性能服务器上。然而，随着AI向手机、PC等终端渗透的趋势日益明显，如何让大模型“轻装上阵”，成为行业攻坚的核心方向。

最近，一条由中国AI公司面壁智能联合清华大学与OpenBMB社区开辟的技术路径，给出了令人振奋的答案：通过三值量化技术，将模型压缩至原体积的1/6，同时保留97%以上的性能，甚至有望让600亿参数的大模型在8GB内存的手机上运行。

从“全彩照片”到“三色极简图”：三值量化的极致压缩

传统大模型使用高精度浮点数（如BF16）存储权重，每个参数可取数万种不同数值，精度虽高，却极为“占地”。而三值量化（Ternary Quantization）则采取极端压缩策略：将每个权重的取值范围从几万种直接压缩到仅三种——例如-1、0、+1。这种技术被称为1.58-bit量化，因为编码三个值恰好需要约1.58个二进制位。

这相当于将一幅全彩照片压缩为仅有黑、白、灰三色的极简图形。直觉上，如此激进的操作必然导致性能大幅下滑。但近年研究反复证明，大模型内部存在大量冗余信息，只要三值分配得当，足以承载模型的核心能力。

这一思路并非全新。2024年，微软研究院发布BitNet b1.58，首次系统论证三值模型可逼近全精度性能；随后又推出20亿参数、训练4万亿token的开源模型BitNet b1.58 2B4T。美国公司PrismML也于近期发布商业级Ternary Bonsai系列。学术界如Tequila、TernaryLM等团队也在探索原生三值训练方法。全球范围内，一场围绕“极致压缩”的技术竞赛已然成型。

昇腾上的第一次：国产算力跑通三值训练闭环

尽管国际进展迅速，但一个关键问题始终悬而未决：三值大模型训练，能否在国产算力上跑通？

在华为鲲鹏昇腾开发者大会（KADC 2026）上，面壁智能给出了明确答案：BitCPM-CANN，全球首个在华为昇腾芯片上端到端完成训练的三值大模型系列，正式开源发布。

这一成果实现了三大突破：

首次基于国产算力完成三值模型全流程训练。此前所有公开的三值模型均依赖NVIDIA GPU，BitCPM-CANN标志着国产芯片阵营正式拥有自主三值训练能力。
首次将规模推至8B级别。不同于以往小规模验证，BitCPM-CANN一次性发布0.5B、1B、3B、8B四个档位，覆盖从手机到PC的完整端侧场景。
首次实现与全精度模型的全面对标评测。在11项任务、四大类评测（常识、阅读理解、学科知识、数学推理）中，1B至8B档位的性能保留率高达95.7%至97.2%，其中3B版本表现最佳，达97.2%。

这意味着，BitCPM-CANN在ARC、CMMLU、GSM8K等主流评测中，与同尺寸MiniCPM4全精度模型的差距，已小于许多全精度模型之间的自然差异。更重要的是，这不是实验室数据，而是可直接下载、复现的开源成果。

6倍显存节省：从服务器到手机，人人可享“轻量AI”

BitCPM-CANN带来的最直接红利，是显存占用的大幅降低。相比BF16全精度模型，其三值版本节省约6倍显存。一个原本需要16GB显存的8B模型，现在仅需不到3GB，足以在普通手机上流畅运行。

结合MoE（混合专家）架构与激活范围约束技术，未来甚至有望将600亿参数的大模型装入终端设备。而硬件端也已做好准备：高通最新旗舰芯片8850和8397已支持2-bit原生推理，BitCPM-CANN提供的低比特权重可直接适配。

这不仅是技术突破，更是一场“双向奔赴”：芯片厂商提供低比特支持，模型厂商提供适配方案，终端厂商加速端侧AI布局。从Google I/O上Gemini全面接管Android设备，到苹果即将在WWDC展示的新一代AI系统，端侧大模型的时代正在加速到来。

BitCPM-CANN的出现，不仅填补了中国在低比特大模型训练上的空白，更标志着国产AI生态正从“跟随”走向“引领”。当大模型真正“装进手机”，AI的普惠时代，或许才刚刚开始。

标签： 大模型压缩 三值量化 端侧AI 国产算力 BitCPM-CANN

标签: 大模型三值量化 AI部署手机端模型压缩

返回列表

上一篇：联想P7打破端侧AI“不可能三角”

下一篇：AI重构增长逻辑：中美顶尖思想碰撞实录

玖捌肆贰

三值量化让大模型轻松上手机端

大模型“瘦身”革命：中国团队用三值量化打破端侧部署瓶颈

从“全彩照片”到“三色极简图”：三值量化的极致压缩

昇腾上的第一次：国产算力跑通三值训练闭环

6倍显存节省：从服务器到手机，人人可享“轻量AI”

相关文章

谷歌Gemini Robotics-ER 1.6重塑工业机器人认知能力

AI自主玩手机！ClawGUI打通训练评测部署全流程

从RAG到CAG：企业级AI系统的上下文进化

JiuwenClaw开启协同工程新时代

Token成本飙升，企业AI如何提升性价比

库克卸任CEO转任执行董事长，苹果平稳过渡

发表评论

Copyright 玖捌肆贰（9842.cn） Rights Reserved.
豫ICP备06015505号-10

Powered By Z-BlogPHP. Theme by TOYEAN.

玖捌肆贰

三值量化让大模型轻松上手机端

大模型“瘦身”革命：中国团队用三值量化打破端侧部署瓶颈

从“全彩照片”到“三色极简图”：三值量化的极致压缩

昇腾上的第一次：国产算力跑通三值训练闭环

6倍显存节省：从服务器到手机，人人可享“轻量AI”

相关文章

谷歌Gemini Robotics-ER 1.6重塑工业机器人认知能力

AI自主玩手机！ClawGUI打通训练评测部署全流程

从RAG到CAG：企业级AI系统的上下文进化

JiuwenClaw开启协同工程新时代

Token成本飙升，企业AI如何提升性价比

库克卸任CEO转任执行董事长，苹果平稳过渡

发表评论取消回复

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论