专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
爱可可-爱生活  ·  《爱可可微博热门分享(6.13)》 ... ·  15 小时前  
机器学习研究组订阅  ·  程序员从此不再写代码!红杉专访Codex团队 ... ·  16 小时前  
新智元  ·  苏妈联手OpenAI,AMD发布3nm怪兽M ... ·  22 小时前  
51好读  ›  专栏  ›  爱可可-爱生活

本文通过引入同时考量计算与内存访问成本的Kinetics缩放律,-20250607061052

爱可可-爱生活  · 微博  · AI  · 2025-06-07 06:10

正文

请到「今天看啥」查看全文


本文通过引入同时考量计算与内存访问成本的Kinetics缩放律,颠覆了传统测试时扩展(TTS)中对小模型效率的认知,并反直觉地指出注意力成本是长序列TTS的核心瓶颈;进而提出的Sparse Kinetics范式表明,采用稀疏注意力并将节省的资源用于增强生成(而非减少稀疏度)能大幅提升复杂推理任务的准确率和效率。






请到「今天看啥」查看全文