国产三值量化突破，6倍显存压缩

一部智能手机屏幕显示运行中的大模型界面，背景是芯片与数据流元素，象征国产AI技术从芯片到模型的全链路突破

科技作者 June 2026年5月26日 06:30

国产芯片跑通三值大模型训练，对关注端侧AI落地的同事来说，这可能是今年最关键的一步突破。

国产三值量化突破，6倍显存压缩 事件脉络与关键事实

2026年5月，在华为鲲鹏昇腾开发者大会（KADC 2026）上，面壁智能联合清华大学、OpenBMB开源社区发布BitCPM-CANN系列三值大模型，首次在国产昇腾AI芯片上完成端到端训练。该系列模型采用1.58-bit三值量化技术，将8B参数模型显存需求压缩至不足3GB，相比传统BF16全精度模型节省约6倍显存，能力保留率达95.7%至97.2%。这一突破意味着未来在8GB内存手机上运行600亿参数大模型成为可能，为端侧AI部署扫除关键障碍。

BitCPM-CANN并非孤立技术展示，而是建立在面壁智能多年端侧模型研发积累之上。其MiniCPM系列已在GitHub收获超3万星，Hugging Face下载量超3000万次。此次发布的三值模型是MiniCPM家族的延伸，已全尺寸开源，涵盖0.5B、1B、3B、8B四个档位，适配从手机到PC的终端场景。高通最新旗舰芯片已支持2-bit原生推理，与BitCPM-CANN形成软硬协同。

全球范围内，微软研究院、PrismML等公司也在推进三值量化技术，但此前训练均依赖NVIDIA GPU。BitCPM-CANN首次证明国产昇腾平台具备同等训练能力，训练效率达常规基线95%，标志着中国在低比特AI模型领域实现从方法论到芯片适配的完整闭环。这不仅缓解了HBM内存紧缺与价格飙升的压力，更推动AI竞争从‘模型更大’转向‘模型更轻’。

事实

2026年5月，面壁智能在华为鲲鹏昇腾开发者大会（KADC 2026）发布BitCPM-CANN三值大模型系列
BitCPM-CANN首次在华为昇腾芯片上完成端到端三值大模型训练，此前全球同类训练均依赖NVIDIA GPU
该模型采用1.58-bit三值量化技术，8B参数模型显存需求从16GB降至不足3GB，节省约6倍显存
在ARC、CMMLU、GSM8K等11项评测中，模型能力保留率达95.7%至97.2%，3B档位最高达97.2%
BitCPM-CANN已全尺寸开源，涵盖0.5B、1B、3B、8B四个档位，适配手机到PC的端侧场景
面壁智能计划结合MoE架构扩展更大规模模型容量，并推进从预训练到对齐的全流程低比特化

Canto 的可视化新闻解读。制作过程可能有 AI 辅助。编辑政策

事实

国产芯动首发全套UALink IP

月饼模具启发中国芯片突破

中国科大团队获青年五四奖章

黄仁勋转战CPU战场

九章四号问世！算力破纪录