专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
人工智能与大数据技术  ·  AI编程新王Claude ... ·  昨天  
大数据与机器学习文摘  ·  用印度程序员冒充 AI ... ·  5 天前  
InfoTech  ·  AIGC 爆发了 ·  2 天前  
51好读  ›  专栏  ›  大数据文摘

微软发布全球首个1-bit大模型:内存缩至0.4 GB,参数只有0和±1,性能追平全精度

大数据文摘  · 公众号  · 大数据  · 2025-04-22 12:00

正文

请到「今天看啥」查看全文



于是,极致量化被推上风口——1-bit(极端比特化,只允许权重取-1、0、+1)。

说起来简单,真要规模化落地,性能往往一落千丈,之前不是只能做小模型,就是性能掉得让人心疼。

BitNet b1.58 2B4T 这次直接原生1-bit训练,参数上到2B,训练数据高达4万亿token,目标就是:
做到极致高效的同时,性能绝不妥协。

图片
图注:在苹果M2 CPU上都能快速运行

02 架构和训练怎么炼成的?


核心创新点有三:

1.BitLinear 层
用自研 BitLinear 替换掉传统 Transformer 的全精度线性层。权重量化到1.58 bit(三值:-1、0、+1),激活也量化到8 bit。这样不仅模型文件暴减,推理也能用比特操作加速。

2.训练方案极致调优
  • 预训练用两阶段学习率+权重衰减,先大步快走,再精细收敛。

  • 数据集涵盖超大规模网页、代码、数学合成数据,两阶段分别喂不同质量的数据。

  • SFT(监督微调)和 DPO(直接偏好优化)全都用上,还专门调大了学习率和轮数,让1-bit模型也能吃透任务。







请到「今天看啥」查看全文