微软发布全球首个1-bit大模型：内存缩至0.4 GB，参数只有0和±1，性能追平全精度

大数据文摘 · 公众号 · 大数据 · 2025-04-22 12:00

正文

于是，极致量化被推上风口——1-bit（极端比特化，只允许权重取-1、0、+1）。

说起来简单，真要规模化落地，性能往往一落千丈，之前不是只能做小模型，就是性能掉得让人心疼。

BitNet b1.58 2B4T 这次直接原生1-bit训练，参数上到2B，训练数据高达4万亿token，目标就是：

做到极致高效的同时，性能绝不妥协。

图注：在苹果M2 CPU上都能快速运行

核心创新点有三：

1.BitLinear 层

用自研 BitLinear 替换掉传统 Transformer 的全精度线性层。权重量化到1.58 bit（三值：-1、0、+1），激活也量化到8 bit。这样不仅模型文件暴减，推理也能用比特操作加速。

2.训练方案极致调优

推荐文章

人工智能与大数据技术 · AI编程新王Claude 4，深夜震撼登基！连续编码7小时，开发者惊掉下巴

昨天

数局 · 博观研究院：2025年中国口服美容市场研究报告（简版）

昨天

数局 · CZ6850，紧急返航！航班上一旅客的相机电池、充电宝突然冒烟！南航通报

2 天前

大数据与机器学习文摘 · 用印度程序员冒充 AI 的“独角兽”彻底倒闭了！伪 AI 烧光 5 亿美元，连微软和亚马逊都被“坑”了

5 天前

InfoTech · AIGC 爆发了

2 天前

她刊 · 被《爱乐之城》的100条裙子美哭！我们替你扒开了女主的衣柜！

8 年前

扬子晚报 · 用饮水机吃火锅的姑娘，这次在办公室针织方便面网友：还打的平针

8 年前

中国企业家杂志 · 她是马云膜拜的女人，也曾是马云最恐惧的对手，人称全球电子

8 年前

VIKAN薇 · 这几个动作，做了4个以上，说明老公超爱你！

8 年前

中国税务报 · 【权威发布】《中华人民共和国统计法实施条例》公布看主要内容戳这里

7 年前