专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
爱可可-爱生活  ·  本文通过在形式化定理证明领域的深入研究,揭示 ... ·  14 小时前  
爱可可-爱生活  ·  晚安~ #晚安# -20250607232551 ·  21 小时前  
黄建同学  ·  Andrej Karpathy ... ·  昨天  
51好读  ›  专栏  ›  爱可可-爱生活

本文创新性地提出将Muon优化器用于DiLoCo框架(称为MuL-20250601060141

爱可可-爱生活  · 微博  · AI  · 2025-06-01 06:01

正文

请到「今天看啥」查看全文


本文创新性地提出将Muon优化器用于DiLoCo框架(称为MuLoCo),并结合错误反馈机制,通过实验证明Muon的更新特性使其对压缩(尤其是低比特量化)表现出惊人的鲁棒性,能够在LLM预训练中实现与标准DiLoCo相当甚至更好的性能,同时将通信数据量锐减8倍,且内存占用相当。






请到「今天看啥」查看全文