
国产芯片跑通三值大模型训练,对关注端侧AI落地的同事来说,这可能是今年最关键的一步突破。

国产三值量化突破,6倍显存压缩 事件脉络与关键事实
2026年5月,在华为鲲鹏昇腾开发者大会(KADC 2026)上,面壁智能联合清华大学、OpenBMB开源社区发布BitCPM-CANN系列三值大模型,首次在国产昇腾AI芯片上完成端到端训练。该系列模型采用1.58-bit三值量化技术,将8B参数模型显存需求压缩至不足3GB,相比传统BF16全精度模型节省约6倍显存,能力保留率达95.7%至97.2%。这一突破意味着未来在8GB内存手机上运行600亿参数大模型成为可能,为端侧AI部署扫除关键障碍。
BitCPM-CANN并非孤立技术展示,而是建立在面壁智能多年端侧模型研发积累之上。其MiniCPM系列已在GitHub收获超3万星,Hugging Face下载量超3000万次。此次发布的三值模型是MiniCPM家族的延伸,已全尺寸开源,涵盖0.5B、1B、3B、8B四个档位,适配从手机到PC的终端场景。高通最新旗舰芯片已支持2-bit原生推理,与BitCPM-CANN形成软硬协同。
全球范围内,微软研究院、PrismML等公司也在推进三值量化技术,但此前训练均依赖NVIDIA GPU。BitCPM-CANN首次证明国产昇腾平台具备同等训练能力,训练效率达常规基线95%,标志着中国在低比特AI模型领域实现从方法论到芯片适配的完整闭环。这不仅缓解了HBM内存紧缺与价格飙升的压力,更推动AI竞争从‘模型更大’转向‘模型更轻’。
事实
- 2026年5月,面壁智能在华为鲲鹏昇腾开发者大会(KADC 2026)发布BitCPM-CANN三值大模型系列
- BitCPM-CANN首次在华为昇腾芯片上完成端到端三值大模型训练,此前全球同类训练均依赖NVIDIA GPU
- 该模型采用1.58-bit三值量化技术,8B参数模型显存需求从16GB降至不足3GB,节省约6倍显存
- 在ARC、CMMLU、GSM8K等11项评测中,模型能力保留率达95.7%至97.2%,3B档位最高达97.2%
- BitCPM-CANN已全尺寸开源,涵盖0.5B、1B、3B、8B四个档位,适配手机到PC的端侧场景
- 面壁智能计划结合MoE架构扩展更大规模模型容量,并推进从预训练到对齐的全流程低比特化
Canto 的可视化新闻解读。制作过程可能有 AI 辅助。 编辑政策





