本文颠覆性地提出大块推理时训练(LaCT)框架,通过采用极大词元块(2K-1M)进行快速权重更新这一反直觉策略,在无需定制硬件核的情况下显著提升了GPU利用率(高达70%)和模型状态容量(可达模型参数40%),并在新视角合成、语言建模和视频生成等多种长序列任务中展现了卓越性能与可扩展性,为高效长上下文建模开辟了新道路。
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师 |
![]() |
爱可可-爱生活 · 【[17星]gpupoor:为RTX ... · 昨天 |
![]() |
爱可可-爱生活 · 【[1.8k星]Drawnix:一款一体化开 ... · 昨天 |
![]() |
宝玉xp · 转发微博-20250603073219 · 2 天前 |
![]() |
黄建同学 · Google 最近更新了来自世界一流公司的 ... · 2 天前 |
![]() |
爱可可-爱生活 · 本文颠覆性地提出大块推理时训练(LaCT)框 ... · 2 天前 |
![]() |
爱可可-爱生活 · 【[17星]gpupoor:为RTX GPU加速训练和推理的实验-20250604140156 昨天 |
![]() |
爱可可-爱生活 · 【[1.8k星]Drawnix:一款一体化开源白板工具,集思维导-20250604140322 昨天 |
![]() |
宝玉xp · 转发微博-20250603073219 2 天前 |
![]() |
黄建同学 · Google 最近更新了来自世界一流公司的 601 个现实世界的-20250603072336 2 天前 |
![]() |
爱可可-爱生活 · 本文颠覆性地提出大块推理时训练(LaCT)框架,通过采用极大词元-20250603052146 2 天前 |
|
新浪科技 · 空空狐事件再发酵:投资人炮轰创始人败光5000万 8 年前 |
|
中扑网 · WPT成都站6种线上选拔方式公布 5月14日全面开启 8 年前 |
|
ABS行业观察 · CNABS干货 | 全面解读银行非标资产证券化 7 年前 |
|
五饼二鱼 · 2百多万人听过的一首赞美诗,听完我默默的转了! 7 年前 |
|
活法儿 · 双11|活法儿全场满减11.10-11.12正在进行中,现在下单即可成为活法儿会员! 7 年前 |